AIDD·Atlas AI 制药学习地图
048

异常结构识别:训练集里哪些分子应该删除

混合物、无机物、价键错误、过大或过小的分子都会污染训练集;建模前要有一套结构过滤规则。

清洗数据时,除了去盐去重,还要剔除异常结构。它们会污染训练集、扭曲特征分布,让模型学到噪声。

哪些结构通常该删

  • 混合物:去盐后仍含多个有机片段、难以确定主体的。
  • 无机物/金属配合物:超出常规小分子建模范围的。
  • 价键/化学不合理:RDKit 解析失败或价键异常的。
  • 过大或过小:原子数远超类药范围,或只有几个原子的碎片。
  • 反应性/警示结构:按项目需要过滤 PAINS、Brenk 等(见「成药性」模块)。

怎么做

  • 设定明确、可复现的过滤规则,并记录删了多少、为什么。
  • 过滤要适度:标准太松会留噪声,太严会丢有用样本。
  • 对被删数据抽样人工核查,避免误删。

关键要点

  • 混合物、无机物、价键错误、过大过小都要筛;
  • 规则要明确、可复现、有记录;
  • 松紧适度,并抽查误删。

延伸资源

  • 实操:RDKit 解析校验 + 自定义过滤;PAINS/Brenk 见「成药性」模块。
  • 配套:046《分子标准化》、047《去盐与去重复》。