AIDD·Atlas AI 制药学习地图
035

分子指纹是什么:从结构编码到相似性搜索

分子指纹把结构编码成定长向量,是相似性搜索与传统机器学习里最常用的分子特征。

分子指纹(molecular fingerprint)把分子结构编码成一串数字(通常是 0/1 位向量或计数向量)。它是相似性搜索与传统机器学习里最常用的分子特征。

三大类指纹

  • 结构键(structural keys):预定义一组子结构,命中则置 1,如 MACCS Keys(见 038)。
  • 圆形指纹(circular):编码每个原子周围的环境,如 Morgan / ECFP(见 036、037),最常用。
  • 路径指纹(path-based):枚举分子中的路径片段,如 RDKit / Daylight 指纹。

它能用来做什么

  • 相似性搜索:把指纹两两比 Tanimoto(见 039),快速找相似分子。
  • 机器学习特征:作为固定长度输入喂给随机森林、XGBoost 等模型。
  • 局限:折叠(folding)会产生位碰撞;信息有损,不如图表示完整。

关键要点

  • 指纹 = 把结构编码成定长向量;
  • 圆形指纹(ECFP/Morgan)最常用;
  • 用于相似性与传统 ML,但有信息损失与碰撞。

延伸资源

  • 实操:RDKit 的 rdFingerprintGenerator
  • 深入:036《Morgan Fingerprint》、037《ECFP 详解》、039《Tanimoto 相似性》。