AIDD·Atlas AI 制药学习地图
009

Harvard TDC 资源导航:药物 AI 任务、数据集与评测方法

把 TDC 当作一张「任务地图」来用:梳理它的问题分类、数据划分与排行榜评测,帮你判断一个 AIDD 任务该用什么数据、怎么算分。

005 讲了怎么用 PyTDC 上手,本篇把 TDC 当成一张「资源地图」来导航:它把 AIDD 的任务、数据与评测方法系统组织起来,是判断「某个问题该用哪些数据、用什么指标」的权威参照。

三层结构:任务 / 数据函数 / Benchmark

  • 任务(Problems):按机器学习形态分为单实例预测、成对预测、生成三大类,每类下再细分到具体治疗任务。
  • 数据函数(Data Functions):标准化的数据划分(随机、骨架、冷启动)、标签分布查看、数据集生成等,保证实验可比、可复现。
  • Benchmark Group:把若干数据集打包成标准评测套件,并维护公开排行榜(Leaderboard)。

怎么用它做判断

  • 选任务:先在任务地图里定位你的问题属于哪一类(如「ADMET 属于单实例回归 / 分类」)。
  • 选划分与指标:直接采用 TDC 推荐的划分与评测函数,而不是自创——这是结果可信的前提。
  • 看排行榜:用 Benchmark Group 的 Leaderboard 校准预期,知道当前 SOTA 在什么水平。

常见任务组速览

  • ADMET Group:成药性预测;
  • HTS Group:高通量筛选活性;
  • DTI Group:药物-靶点相互作用;
  • 还有 DDI、产率、临床试验、基因组等任务组(详见「数据资源」模块)。

关键要点

  • 把 TDC 当「任务—数据—评测」的地图,而非单个数据集;
  • 用标准划分与官方指标,避免不可比与数据泄漏;
  • 排行榜帮你校准「多少分才算好」。

延伸资源

  • 官方网站:tdcommons.ai
  • 配套:005《TDC 教程》、「数据资源」模块 TDC 各任务组。