AIDD·Atlas AI 制药学习地图
005

Therapeutics Data Commons 教程:AI 药物发现数据集怎么系统学习

TDC 把贯穿研发全流程的数据集与评测标准化,用一个 Python 包就能调用,是系统认识「有哪些任务、哪些数据」的最佳地图。

学 AIDD 很容易陷在零散的数据集里。Therapeutics Data Commons(TDC)由哈佛团队维护,把治疗相关的机器学习任务和数据集系统化、标准化,并提供统一的 Python 接口,是建立「任务—数据」全局观的好工具。

TDC 覆盖什么

TDC 按机器学习问题的形态组织数据,大致分三类:

  • 单实例预测:输入一个分子 / 蛋白,预测一个性质,如 ADMET、HTS 活性。
  • 多实例预测:输入一对对象,如药物-靶点相互作用(DTI)、药物-药物相互作用(DDI)。
  • 生成任务:分子生成、逆合成等。

每个任务都配有标准数据集、推荐的数据划分与评测指标,避免「各算各的」导致结果不可比。

怎么用

  • 安装:pip install PyTDC
  • 几行代码即可加载任意数据集,TDC 会自动下载并返回统一格式,配套提供划分(随机 / 骨架 / 冷启动)与评测函数。
  • 适合「先选一个任务,把数据、划分、指标一次性弄清楚」的学习方式。

学习路径建议

  • 从 ADMET 任务集入手:它与成药性直接相关、数据规模适中,适合练手。
  • 对照 Benchmark Group 的排行榜,理解「什么样的指标算好」。
  • 与 009《Harvard TDC 资源导航》配合:005 偏「怎么用」,009 偏「任务地图与评测方法」。

关键要点

  • TDC = 治疗类机器学习任务的「标准数据地图」;
  • 一个 PyTDC 就能统一加载数据、划分与评测;
  • 用标准划分与指标,是避免自欺的第一步。

延伸资源