AIDD·Atlas AI 制药学习地图
039

Tanimoto 相似性:分子相似度检索的核心指标

Tanimoto 系数衡量两个指纹的重叠程度,是分子相似性搜索与虚拟筛选最常用的度量。

Tanimoto 相似性(又称 Jaccard 系数)是分子相似性检索中最常用的度量。它衡量两个分子指纹的重叠程度,取值在 0 到 1 之间。

怎么计算、怎么理解

  • 对两个位向量 A、B:Tanimoto = 共有位数 ÷ 两者并集位数,即 |A∩B| / |A∪B|。
  • 1 表示指纹完全相同,0 表示完全不重叠。
  • 常见经验阈值约 0.85「算相似」,但强依赖指纹类型与位数,不能盲目套用。

典型用途

  • 相似性搜索:给一个查询分子,从库中找最相似的若干个。
  • 聚类与去冗余:作为分子间距离的基础(见 050、053)。
  • 注意:相似不等于活性相近(活性悬崖现象),需结合 SAR 判断。

关键要点

  • Tanimoto = 指纹重叠比例,0–1;
  • 阈值依赖指纹,别盲信 0.85;
  • 相似 ≠ 活性相近,警惕活性悬崖。

延伸资源

  • 实操:RDKit DataStructs.TanimotoSimilarity(fp1, fp2)
  • 配套:035《分子指纹》、050《分子相似性聚类》。