AIDD·Atlas AI 制药学习地图
051

Scaffold Split:为什么随机划分会高估模型能力

Scaffold Split 让测试集的骨架不出现在训练集,逼近「面对新骨架」的真实场景,避免随机划分的虚高分数。

评估分子模型时,怎么划分训练/测试集极大影响结论。随机划分常常给出虚高的分数,而 Scaffold Split(骨架划分)更接近真实使用场景。

随机划分为什么会高估

  • 化合物数据里有大量结构相近的「类似物(analog)」。
  • 随机划分会把同一系列的类似物分散到训练与测试两边。
  • 于是测试集里有很多「训练集见过的近亲」,模型靠记忆就能拿高分——这是一种数据泄漏。

Scaffold Split 怎么做

  • 先用 Bemis–Murcko(见 041)提取每个分子的骨架。
  • 按骨架分组,让同一骨架只进训练或只进测试。
  • 这样测试集的骨架是「训练时没见过的」,逼近「面对全新化学系列」的真实任务。

关键要点

  • 随机划分让类似物跨集泄漏,分数虚高;
  • Scaffold Split 让测试骨架不在训练中出现;
  • 它更能反映对新骨架的真实泛化能力。

延伸资源

  • 实操:DeepChem / TDC 内置 Scaffold Splitter。
  • 配套:040《Scaffold 骨架》、044《QSAR 入门》、「AI 模型」模块《Benchmark 陷阱》。