Tanimoto 相似性(又称 Jaccard 系数)是分子相似性检索中最常用的度量。它衡量两个分子指纹的重叠程度,取值在 0 到 1 之间。
怎么计算、怎么理解
- 对两个位向量 A、B:Tanimoto = 共有位数 ÷ 两者并集位数,即 |A∩B| / |A∪B|。
- 1 表示指纹完全相同,0 表示完全不重叠。
- 常见经验阈值约 0.85「算相似」,但强依赖指纹类型与位数,不能盲目套用。
典型用途
- 相似性搜索:给一个查询分子,从库中找最相似的若干个。
- 聚类与去冗余:作为分子间距离的基础(见 050、053)。
- 注意:相似不等于活性相近(活性悬崖现象),需结合 SAR 判断。
关键要点
- Tanimoto = 指纹重叠比例,0–1;
- 阈值依赖指纹,别盲信 0.85;
- 相似 ≠ 活性相近,警惕活性悬崖。
延伸资源
- 实操:RDKit
DataStructs.TanimotoSimilarity(fp1, fp2)。 - 配套:035《分子指纹》、050《分子相似性聚类》。