AIDD·Atlas AI 制药学习地图
116

ESMFold 论文精读:语言模型如何预测蛋白结构

ESMFold(Lin 等, 2023)用蛋白语言模型 ESM-2 从单序列直接预测结构,免去 MSA、速度快,适合大规模预测。

ESMFold(Lin 等, Science 2023)用蛋白语言模型 ESM-2 直接从单条序列预测结构,无需多序列比对(MSA),因而速度很快。

核心思想

  • 语言模型替代 MSA:ESM-2 在海量蛋白序列上预训练,内隐地学到进化信息。
  • 单序列预测:免去耗时的 MSA 搜索,推理快。
  • 规模化:适合对海量序列(如宏基因组)做结构预测。

取舍

  • :吞吐远高于依赖 MSA 的方法。
  • 精度:对缺乏同源信息的序列,通常略逊于 AF2,但差距视情况而定。
  • 适合「先快速大规模筛,再对重点用 AF2 精算」。

关键要点

  • ESMFold = 语言模型 + 单序列、免 MSA;
  • 速度快,适合大规模预测;
  • 精度通常略逊 AF2,可分级使用。

延伸资源

  • 论文:Lin 等, Science 2023;配套「AI 模型」模块 143《ESM-2》。