分子指纹(molecular fingerprint)把分子结构编码成一串数字(通常是 0/1 位向量或计数向量)。它是相似性搜索与传统机器学习里最常用的分子特征。
三大类指纹
- 结构键(structural keys):预定义一组子结构,命中则置 1,如 MACCS Keys(见 038)。
- 圆形指纹(circular):编码每个原子周围的环境,如 Morgan / ECFP(见 036、037),最常用。
- 路径指纹(path-based):枚举分子中的路径片段,如 RDKit / Daylight 指纹。
它能用来做什么
- 相似性搜索:把指纹两两比 Tanimoto(见 039),快速找相似分子。
- 机器学习特征:作为固定长度输入喂给随机森林、XGBoost 等模型。
- 局限:折叠(folding)会产生位碰撞;信息有损,不如图表示完整。
关键要点
- 指纹 = 把结构编码成定长向量;
- 圆形指纹(ECFP/Morgan)最常用;
- 用于相似性与传统 ML,但有信息损失与碰撞。
延伸资源
- 实操:RDKit 的
rdFingerprintGenerator。 - 深入:036《Morgan Fingerprint》、037《ECFP 详解》、039《Tanimoto 相似性》。