AIDD·Atlas AI 制药学习地图

051

Scaffold Split：为什么随机划分会高估模型能力

Scaffold Split 让测试集的骨架不出现在训练集，逼近「面对新骨架」的真实场景，避免随机划分的虚高分数。

评估分子模型时，怎么划分训练/测试集极大影响结论。随机划分常常给出虚高的分数，而 Scaffold Split（骨架划分）更接近真实使用场景。

随机划分为什么会高估

化合物数据里有大量结构相近的「类似物（analog）」。
随机划分会把同一系列的类似物分散到训练与测试两边。
于是测试集里有很多「训练集见过的近亲」，模型靠记忆就能拿高分——这是一种数据泄漏。

Scaffold Split 怎么做

先用 Bemis–Murcko（见 041）提取每个分子的骨架。
按骨架分组，让同一骨架只进训练或只进测试。
这样测试集的骨架是「训练时没见过的」，逼近「面对全新化学系列」的真实任务。

关键要点

随机划分让类似物跨集泄漏，分数虚高；
Scaffold Split 让测试骨架不在训练中出现；
它更能反映对新骨架的真实泛化能力。

延伸资源

实操：DeepChem / TDC 内置 Scaffold Splitter。
配套：040《Scaffold 骨架》、044《QSAR 入门》、「AI 模型」模块《Benchmark 陷阱》。