评估分子模型时,怎么划分训练/测试集极大影响结论。随机划分常常给出虚高的分数,而 Scaffold Split(骨架划分)更接近真实使用场景。
随机划分为什么会高估
- 化合物数据里有大量结构相近的「类似物(analog)」。
- 随机划分会把同一系列的类似物分散到训练与测试两边。
- 于是测试集里有很多「训练集见过的近亲」,模型靠记忆就能拿高分——这是一种数据泄漏。
Scaffold Split 怎么做
- 先用 Bemis–Murcko(见 041)提取每个分子的骨架。
- 按骨架分组,让同一骨架只进训练或只进测试。
- 这样测试集的骨架是「训练时没见过的」,逼近「面对全新化学系列」的真实任务。
关键要点
- 随机划分让类似物跨集泄漏,分数虚高;
- Scaffold Split 让测试骨架不在训练中出现;
- 它更能反映对新骨架的真实泛化能力。
延伸资源
- 实操:DeepChem / TDC 内置 Scaffold Splitter。
- 配套:040《Scaffold 骨架》、044《QSAR 入门》、「AI 模型」模块《Benchmark 陷阱》。