AIDD·Atlas AI 制药学习地图
032

SELFIES 入门:为什么它比 SMILES 更适合分子生成

SELFIES 让任意字符串都对应一个合法分子,100% 鲁棒,因而在分子生成模型中比 SMILES 更省心。

SELFIES(SELF-referencIng Embedded Strings)是一种分子字符串表示,最大特点是:任意 SELFIES 字符串都对应一个化学上合法的分子。这在分子生成任务里非常关键。

它解决了 SMILES 的什么痛点

  • SMILES 不鲁棒:生成模型随机产生的 SMILES 经常语法非法(括号/环不闭合、价键错误),导致大量无效输出。
  • SELFIES 永远合法:其语法内建了化学约束,模型生成的每个串都能解码成有效分子,提升有效率。

什么时候用它

  • 分子生成 / VAE / 强化学习:用 SELFIES 可省去「过滤无效分子」的麻烦。
  • 常规建模:判别式任务(性质预测)通常仍用 SMILES + 指纹/图,SELFIES 优势不明显。
  • 可用官方库在 SMILES 与 SELFIES 间互转,按需切换。

关键要点

  • SELFIES 的卖点是「100% 合法」,专为生成而生;
  • 生成任务用它能显著提高有效分子比例;
  • 预测任务不一定需要,按场景选择。

延伸资源