AIDD·Atlas AI 制药学习地图
052

化学空间可视化:PCA、t-SNE 与 UMAP 怎么用

把高维指纹降到二维,用 PCA、t-SNE、UMAP 把化学空间画出来,直观看分布、聚类与覆盖。

分子指纹和描述符是高维的,难以直接观察。降维可视化把它们投影到二维平面,让你直观看到化学空间的分布、聚类与覆盖情况。

三种常用方法

  • PCA:线性降维,保留全局方差,快且可解释,但对复杂结构表达有限。
  • t-SNE:非线性,擅长展示局部簇结构,但全局距离不可信、对参数敏感。
  • UMAP:非线性,速度快、较好兼顾局部与全局,近年最常用。

使用注意

  • 别过度解读距离:t-SNE/UMAP 图上的远近不等于真实相似度。
  • 同一套特征与参数:比较不同库时要保持一致,否则不可比。
  • 降维图是探索工具,结论仍需定量指标支撑。

关键要点

  • PCA 看全局、t-SNE/UMAP 看局部簇;
  • 非线性图的全局距离别当真;
  • 它是探索工具,不替代定量分析。

延伸资源

  • 实操:scikit-learn(PCA/t-SNE)、umap-learn。
  • 配套:053《分子多样性评估》。