AIDD·Atlas AI 制药学习地图

050

分子相似性聚类：如何整理大规模化合物库

用指纹相似性对化合物聚类，能整理大库、挑选代表分子、构建多样化子集。

面对几万到上百万的化合物库，相似性聚类能把相近分子归类，帮助整理大库、挑代表、选多样化子集。

常用聚类方法

Butina（球排除）聚类：基于 Tanimoto 距离，设阈值把相近分子聚成簇，是化学信息学常用方法。
层次聚类 / k-means：在指纹或降维特征上做，适合不同规模与目的。
选代表：从每个簇取中心分子，得到覆盖广的代表子集。

典型用途

去冗余：相似分子太多时，每簇留少量。
多样化采样：从不同簇取样，构建多样化筛选集。
分析结构：观察库由哪些化学系列构成。

关键要点

聚类按指纹相似性把分子归簇；
Butina 是常用方法；
用于去冗余、多样化采样与结构分析。

延伸资源

实操：RDKit Butina.ClusterData。
配套：039《Tanimoto 相似性》、053《分子多样性评估》。