面对几万到上百万的化合物库,相似性聚类能把相近分子归类,帮助整理大库、挑代表、选多样化子集。
常用聚类方法
- Butina(球排除)聚类:基于 Tanimoto 距离,设阈值把相近分子聚成簇,是化学信息学常用方法。
- 层次聚类 / k-means:在指纹或降维特征上做,适合不同规模与目的。
- 选代表:从每个簇取中心分子,得到覆盖广的代表子集。
典型用途
- 去冗余:相似分子太多时,每簇留少量。
- 多样化采样:从不同簇取样,构建多样化筛选集。
- 分析结构:观察库由哪些化学系列构成。
关键要点
- 聚类按指纹相似性把分子归簇;
- Butina 是常用方法;
- 用于去冗余、多样化采样与结构分析。
延伸资源
- 实操:RDKit
Butina.ClusterData。 - 配套:039《Tanimoto 相似性》、053《分子多样性评估》。