AIDD·Atlas AI 制药学习地图
053

分子多样性评估:如何避免筛选库过于相似

用平均两两距离、簇数等指标量化库的多样性,避免「筛了一堆近亲」浪费实验资源。

构建筛选库或生成分子集时,多样性很重要:如果分子彼此太像,等于在浪费实验与算力。多样性评估用量化指标来回答「这个库够不够多样」。

常用多样性指标

  • 平均两两距离:基于 Tanimoto 的平均距离,越大越多样。
  • 簇数 / 骨架数:聚类后有多少簇、含多少不同骨架。
  • 内部多样性(internal diversity):生成模型常用来衡量输出是否塌缩到少数模式。

实践要点

  • 多样性 vs 相关性:盲目追求多样可能偏离目标活性区域,要与目标导向平衡。
  • 结合骨架视角:骨架多样往往比指纹距离更有意义。
  • 生成模型务必查内部多样性,防止「生成一堆几乎一样的分子」。

关键要点

  • 多样性用平均距离、簇/骨架数、内部多样性衡量;
  • 多样与目标导向要平衡;
  • 生成模型必查多样性,防模式塌缩。

延伸资源

  • 配套:050《分子相似性聚类》、052《化学空间可视化》。
  • 「AI 模型」模块:分子生成评测(GuacaMol / MOSES)。