如果你要选「第一个上手的 AI 制药工具」,DeepChem 是最常被推荐的答案。它是一个开源 Python 库,把分子机器学习常用的环节封装成统一接口,并配有成体系的教程。
DeepChem 解决了什么
分子机器学习的典型流程是:拿数据 → 把分子变成特征 → 训练模型 → 评估。DeepChem 用四个核心抽象覆盖这条链:
- Dataset:统一的数据集对象,内置 MoleculeNet 等标准数据集。
- Featurizer:把 SMILES / 分子转成特征(指纹、图、描述符等)。
- Model:从随机森林到图卷积网络(GraphConv)等多种模型。
- Splitter:随机划分、骨架划分(Scaffold Split)等,避免高估模型能力。
怎么开始
- 安装:
pip install deepchem(深度学习模型还需 PyTorch 或 TensorFlow)。 - 跟着官方「教程系列」走:从「分子机器学习入门」「处理数据集」到「图卷积」逐步深入,每篇都是可运行的 Jupyter Notebook。
- 建议用 Google Colab 运行,免去本地环境配置的麻烦。
学习建议
- 第一遍重点跑通「加载数据 → 特征化 → 训练 → 评估」整条流程,建立手感。
- 留意 Splitter 的选择:随机划分常常虚高,骨架划分更接近真实外推。
- DeepChem 的数据与任务大量来自 MoleculeNet,可与「数据资源」「AI 模型」模块对照学习。
关键要点
- DeepChem = 新手的「分子 ML 脚手架」,统一了数据 / 特征 / 模型 / 划分;
- 用 Colab + 官方 Notebook,是最低门槛的实操路径;
- 跑通一条完整流程,比理解每个模型细节更优先。
延伸资源
- 官方网站:deepchem.io(含 Tutorials)。
- 源码:github.com/deepchem/deepchem。
- 配套阅读:后续《DeepChem 论文精读》《MoleculeNet 论文精读》。