Morgan 指纹(常以 ECFP 之名出现)是当今最常用的分子指纹。它基于 Morgan 算法,通过迭代地编码每个原子周围的「圆形环境」来表示分子。
它是怎么工作的
- 从每个原子出发,逐步把邻居信息「卷」进来,半径每加 1,覆盖范围扩大一圈。
- 每个原子环境被哈希成一个标识符,汇总成指纹。
- 半径决定 ECFP 名称:半径 2 ≈ ECFP4,半径 3 ≈ ECFP6(名字里的数字是直径)。
为什么这么受欢迎
- 表达力强:能区分细微结构差异。
- 快:计算高效,适合海量化合物。
- 通用:既可做相似性搜索,也可折叠成定长位向量做 ML 特征。
关键要点
- Morgan = ECFP,编码原子的圆形环境;
- ECFP4(半径 2)是最常用的默认;
- 表达力强、计算快,是相似性与建模的主力。
延伸资源
- 实操:RDKit
GetMorganFingerprintAsBitVect(mol, radius=2, nBits=2048)。 - 深入:037《ECFP 详解》。