AIDD·Atlas AI 制药学习地图
050

分子相似性聚类:如何整理大规模化合物库

用指纹相似性对化合物聚类,能整理大库、挑选代表分子、构建多样化子集。

面对几万到上百万的化合物库,相似性聚类能把相近分子归类,帮助整理大库、挑代表、选多样化子集。

常用聚类方法

  • Butina(球排除)聚类:基于 Tanimoto 距离,设阈值把相近分子聚成簇,是化学信息学常用方法。
  • 层次聚类 / k-means:在指纹或降维特征上做,适合不同规模与目的。
  • 选代表:从每个簇取中心分子,得到覆盖广的代表子集。

典型用途

  • 去冗余:相似分子太多时,每簇留少量。
  • 多样化采样:从不同簇取样,构建多样化筛选集。
  • 分析结构:观察库由哪些化学系列构成。

关键要点

  • 聚类按指纹相似性把分子归簇;
  • Butina 是常用方法;
  • 用于去冗余、多样化采样与结构分析。

延伸资源

  • 实操:RDKit Butina.ClusterData
  • 配套:039《Tanimoto 相似性》、053《分子多样性评估》。