AIDD·Atlas AI 制药学习地图
模块 02

分子表示

分子表征、指纹、相似性、骨架、数据清洗与化学空间

  1. 031 SMILES 入门:AI 如何把分子变成字符串 SMILES 用一行 ASCII 字符串表示分子结构,是化学信息学与 AI 制药最基础的分子输入格式。
  2. 032 SELFIES 入门:为什么它比 SMILES 更适合分子生成 SELFIES 让任意字符串都对应一个合法分子,100% 鲁棒,因而在分子生成模型中比 SMILES 更省心。
  3. 033 InChI 与 InChIKey:化合物唯一标识怎么用于数据库检索 InChI 是标准化的分子唯一标识,其哈希形式 InChIKey 定长、便于检索与去重,是跨数据库对齐化合物的利器。
  4. 034 分子图表示:原子、键与图神经网络的连接方式 把分子看成「原子为节点、化学键为边」的图,是图神经网络直接学习分子的基础表示。
  5. 035 分子指纹是什么:从结构编码到相似性搜索 分子指纹把结构编码成定长向量,是相似性搜索与传统机器学习里最常用的分子特征。
  6. 036 Morgan Fingerprint 入门:ECFP 为什么如此常用 Morgan 指纹(即 ECFP)通过迭代编码原子的圆形环境,兼顾表达力与速度,是相似性与建模的默认选择。
  7. 037 ECFP 指纹详解:半径、位向量与分子特征 深入 ECFP 的半径、折叠位数与位碰撞,理解它作为机器学习特征的优势与坑。
  8. 038 MACCS Keys:经典结构指纹在药物筛选中的用途 MACCS Keys 用 166 个预定义子结构构成指纹,简单、可解释、计算快,是相似性筛选的经典基线。
  9. 039 Tanimoto 相似性:分子相似度检索的核心指标 Tanimoto 系数衡量两个指纹的重叠程度,是分子相似性搜索与虚拟筛选最常用的度量。
  10. 040 Scaffold 骨架:药物化学为什么重视母核 骨架是分子的核心环系框架,药物化学围绕骨架组织 SAR、做骨架跃迁,是理解系列化合物的关键视角。
  11. 041 Bemis–Murcko Scaffold:标准骨架提取方法入门 Bemis–Murcko 方法通过剥离侧链、保留环系与连接子,给出标准化的分子骨架,是骨架分析的事实标准。
  12. 042 R-group Decomposition:从取代基拆解理解 SAR R-group 分解把系列分子拆成「核心 + 取代基」,用表格化方式系统分析哪个位置换什么基团影响活性。
  13. 043 MMPA 配对分子分析:如何发现结构变化与活性变化的关系 MMPA 把仅差一个局部变换的分子配成对,统计该变换对性质的平均影响,是数据驱动的 SAR 规则挖掘。
  14. 044 QSAR 入门:从分子结构预测生物活性 QSAR 用描述符或指纹建立「结构→活性」的定量模型,是化学信息学最经典、至今仍在用的建模范式。
  15. 045 QSPR 入门:从分子结构预测理化性质 QSPR 与 QSAR 同源,但预测的是 logP、溶解度等理化性质,是 ADMET 与成药性建模的基础。
  16. 046 分子标准化:AI 建模前为什么必须清洗结构 同一分子可能有不同的画法、电荷或互变异构态;标准化把它们统一,是建模前不可省略的一步。
  17. 047 去盐与去重复:化合物数据清洗的第一步 去盐保留主结构、去重复消除冗余,是任何化合物数据清洗流程都要先做的两件事。
  18. 048 异常结构识别:训练集里哪些分子应该删除 混合物、无机物、价键错误、过大或过小的分子都会污染训练集;建模前要有一套结构过滤规则。
  19. 049 构象生成入门:2D 分子如何变成 3D 构象 对接、3D 描述符和 MD 都需要三维坐标;构象生成把 2D 结构变成合理的 3D 构象集合。
  20. 050 分子相似性聚类:如何整理大规模化合物库 用指纹相似性对化合物聚类,能整理大库、挑选代表分子、构建多样化子集。
  21. 051 Scaffold Split:为什么随机划分会高估模型能力 Scaffold Split 让测试集的骨架不出现在训练集,逼近「面对新骨架」的真实场景,避免随机划分的虚高分数。
  22. 052 化学空间可视化:PCA、t-SNE 与 UMAP 怎么用 把高维指纹降到二维,用 PCA、t-SNE、UMAP 把化学空间画出来,直观看分布、聚类与覆盖。
  23. 053 分子多样性评估:如何避免筛选库过于相似 用平均两两距离、簇数等指标量化库的多样性,避免「筛了一堆近亲」浪费实验资源。
  24. 054 药物片段与片段空间:FBDD 数据如何进入 AI 流程 片段是更小、更简单的起点分子;理解片段空间与 FBDD,有助于把片段数据接入 AI 设计流程。
  25. 055 化学信息学工具栈:RDKit、OpenBabel、Datamol 如何配合使用 把 RDKit、OpenBabel、Datamol、Molfeat 组合成一条顺手的工具链,是高效做化学信息学的基础。