真实数据里,同一个分子常以不同形式存在:不同的互变异构态、质子化状态、画法或盐型。分子标准化(standardization)把这些统一成一致形式,是 AI 建模前不可省略的一步。
标准化通常做什么
- 统一官能团画法:如硝基、羧酸的不同表示归一。
- 规整电荷:中和不必要的电荷、统一质子化状态。
- 互变异构:选定一个规范的互变异构态。
- 处理氢与同位素:按需添加/去除显式氢。
为什么必须做
- 不标准化,同一分子会被当成不同样本,污染训练与评估。
- 指纹/描述符对表示形式敏感,输入不一致会引入虚假差异。
- 标准化要有记录、可复现,整个数据集用同一套规则。
关键要点
- 同分子多形式,标准化统一表示;
- 不做会污染数据、扭曲特征;
- 全数据集用同一套可复现规则。
延伸资源
- 实操:RDKit
MolStandardize;可参考 ChEMBL 结构标准化流程。 - 下一步:047《去盐与去重复》、048《异常结构识别》。