AIDD·Atlas AI 制药学习地图
036

Morgan Fingerprint 入门:ECFP 为什么如此常用

Morgan 指纹(即 ECFP)通过迭代编码原子的圆形环境,兼顾表达力与速度,是相似性与建模的默认选择。

Morgan 指纹(常以 ECFP 之名出现)是当今最常用的分子指纹。它基于 Morgan 算法,通过迭代地编码每个原子周围的「圆形环境」来表示分子。

它是怎么工作的

  • 从每个原子出发,逐步把邻居信息「卷」进来,半径每加 1,覆盖范围扩大一圈。
  • 每个原子环境被哈希成一个标识符,汇总成指纹。
  • 半径决定 ECFP 名称:半径 2 ≈ ECFP4,半径 3 ≈ ECFP6(名字里的数字是直径)。

为什么这么受欢迎

  • 表达力强:能区分细微结构差异。
  • :计算高效,适合海量化合物。
  • 通用:既可做相似性搜索,也可折叠成定长位向量做 ML 特征。

关键要点

  • Morgan = ECFP,编码原子的圆形环境;
  • ECFP4(半径 2)是最常用的默认;
  • 表达力强、计算快,是相似性与建模的主力。

延伸资源

  • 实操:RDKit GetMorganFingerprintAsBitVect(mol, radius=2, nBits=2048)
  • 深入:037《ECFP 详解》。