构建筛选库或生成分子集时,多样性很重要:如果分子彼此太像,等于在浪费实验与算力。多样性评估用量化指标来回答「这个库够不够多样」。
常用多样性指标
- 平均两两距离:基于 Tanimoto 的平均距离,越大越多样。
- 簇数 / 骨架数:聚类后有多少簇、含多少不同骨架。
- 内部多样性(internal diversity):生成模型常用来衡量输出是否塌缩到少数模式。
实践要点
- 多样性 vs 相关性:盲目追求多样可能偏离目标活性区域,要与目标导向平衡。
- 结合骨架视角:骨架多样往往比指纹距离更有意义。
- 生成模型务必查内部多样性,防止「生成一堆几乎一样的分子」。
关键要点
- 多样性用平均距离、簇/骨架数、内部多样性衡量;
- 多样与目标导向要平衡;
- 生成模型必查多样性,防模式塌缩。
延伸资源
- 配套:050《分子相似性聚类》、052《化学空间可视化》。
- 「AI 模型」模块:分子生成评测(GuacaMol / MOSES)。