学 AIDD 很容易陷在零散的数据集里。Therapeutics Data Commons(TDC)由哈佛团队维护,把治疗相关的机器学习任务和数据集系统化、标准化,并提供统一的 Python 接口,是建立「任务—数据」全局观的好工具。
TDC 覆盖什么
TDC 按机器学习问题的形态组织数据,大致分三类:
- 单实例预测:输入一个分子 / 蛋白,预测一个性质,如 ADMET、HTS 活性。
- 多实例预测:输入一对对象,如药物-靶点相互作用(DTI)、药物-药物相互作用(DDI)。
- 生成任务:分子生成、逆合成等。
每个任务都配有标准数据集、推荐的数据划分与评测指标,避免「各算各的」导致结果不可比。
怎么用
- 安装:
pip install PyTDC。 - 几行代码即可加载任意数据集,TDC 会自动下载并返回统一格式,配套提供划分(随机 / 骨架 / 冷启动)与评测函数。
- 适合「先选一个任务,把数据、划分、指标一次性弄清楚」的学习方式。
学习路径建议
- 从 ADMET 任务集入手:它与成药性直接相关、数据规模适中,适合练手。
- 对照 Benchmark Group 的排行榜,理解「什么样的指标算好」。
- 与 009《Harvard TDC 资源导航》配合:005 偏「怎么用」,009 偏「任务地图与评测方法」。
关键要点
- TDC = 治疗类机器学习任务的「标准数据地图」;
- 一个 PyTDC 就能统一加载数据、划分与评测;
- 用标准划分与指标,是避免自欺的第一步。
延伸资源
- 官方网站:tdcommons.ai。
- 源码:github.com/mims-harvard/TDC。
- 配套阅读:后续《TDC 论文精读》、「数据资源」模块的 TDC 各任务组。