清洗数据时,除了去盐去重,还要剔除异常结构。它们会污染训练集、扭曲特征分布,让模型学到噪声。
哪些结构通常该删
- 混合物:去盐后仍含多个有机片段、难以确定主体的。
- 无机物/金属配合物:超出常规小分子建模范围的。
- 价键/化学不合理:RDKit 解析失败或价键异常的。
- 过大或过小:原子数远超类药范围,或只有几个原子的碎片。
- 反应性/警示结构:按项目需要过滤 PAINS、Brenk 等(见「成药性」模块)。
怎么做
- 设定明确、可复现的过滤规则,并记录删了多少、为什么。
- 过滤要适度:标准太松会留噪声,太严会丢有用样本。
- 对被删数据抽样人工核查,避免误删。
关键要点
- 混合物、无机物、价键错误、过大过小都要筛;
- 规则要明确、可复现、有记录;
- 松紧适度,并抽查误删。
延伸资源
- 实操:RDKit 解析校验 + 自定义过滤;PAINS/Brenk 见「成药性」模块。
- 配套:046《分子标准化》、047《去盐与去重复》。