ESMFold(Lin 等, Science 2023)用蛋白语言模型 ESM-2 直接从单条序列预测结构,无需多序列比对(MSA),因而速度很快。
核心思想
- 语言模型替代 MSA:ESM-2 在海量蛋白序列上预训练,内隐地学到进化信息。
- 单序列预测:免去耗时的 MSA 搜索,推理快。
- 规模化:适合对海量序列(如宏基因组)做结构预测。
取舍
- 快:吞吐远高于依赖 MSA 的方法。
- 精度:对缺乏同源信息的序列,通常略逊于 AF2,但差距视情况而定。
- 适合「先快速大规模筛,再对重点用 AF2 精算」。
关键要点
- ESMFold = 语言模型 + 单序列、免 MSA;
- 速度快,适合大规模预测;
- 精度通常略逊 AF2,可分级使用。
延伸资源
- 论文:Lin 等, Science 2023;配套「AI 模型」模块 143《ESM-2》。