005 讲了怎么用 PyTDC 上手,本篇把 TDC 当成一张「资源地图」来导航:它把 AIDD 的任务、数据与评测方法系统组织起来,是判断「某个问题该用哪些数据、用什么指标」的权威参照。
三层结构:任务 / 数据函数 / Benchmark
- 任务(Problems):按机器学习形态分为单实例预测、成对预测、生成三大类,每类下再细分到具体治疗任务。
- 数据函数(Data Functions):标准化的数据划分(随机、骨架、冷启动)、标签分布查看、数据集生成等,保证实验可比、可复现。
- Benchmark Group:把若干数据集打包成标准评测套件,并维护公开排行榜(Leaderboard)。
怎么用它做判断
- 选任务:先在任务地图里定位你的问题属于哪一类(如「ADMET 属于单实例回归 / 分类」)。
- 选划分与指标:直接采用 TDC 推荐的划分与评测函数,而不是自创——这是结果可信的前提。
- 看排行榜:用 Benchmark Group 的 Leaderboard 校准预期,知道当前 SOTA 在什么水平。
常见任务组速览
- ADMET Group:成药性预测;
- HTS Group:高通量筛选活性;
- DTI Group:药物-靶点相互作用;
- 还有 DDI、产率、临床试验、基因组等任务组(详见「数据资源」模块)。
关键要点
- 把 TDC 当「任务—数据—评测」的地图,而非单个数据集;
- 用标准划分与官方指标,避免不可比与数据泄漏;
- 排行榜帮你校准「多少分才算好」。
延伸资源
- 官方网站:tdcommons.ai。
- 配套:005《TDC 教程》、「数据资源」模块 TDC 各任务组。