AIDD·Atlas AI 制药学习地图
046

分子标准化:AI 建模前为什么必须清洗结构

同一分子可能有不同的画法、电荷或互变异构态;标准化把它们统一,是建模前不可省略的一步。

真实数据里,同一个分子常以不同形式存在:不同的互变异构态、质子化状态、画法或盐型。分子标准化(standardization)把这些统一成一致形式,是 AI 建模前不可省略的一步。

标准化通常做什么

  • 统一官能团画法:如硝基、羧酸的不同表示归一。
  • 规整电荷:中和不必要的电荷、统一质子化状态。
  • 互变异构:选定一个规范的互变异构态。
  • 处理氢与同位素:按需添加/去除显式氢。

为什么必须做

  • 不标准化,同一分子会被当成不同样本,污染训练与评估。
  • 指纹/描述符对表示形式敏感,输入不一致会引入虚假差异。
  • 标准化要有记录、可复现,整个数据集用同一套规则。

关键要点

  • 同分子多形式,标准化统一表示;
  • 不做会污染数据、扭曲特征;
  • 全数据集用同一套可复现规则。

延伸资源

  • 实操:RDKit MolStandardize;可参考 ChEMBL 结构标准化流程。
  • 下一步:047《去盐与去重复》、048《异常结构识别》。