AIDD·Atlas AI 制药学习地图

052

化学空间可视化：PCA、t-SNE 与 UMAP 怎么用

把高维指纹降到二维，用 PCA、t-SNE、UMAP 把化学空间画出来，直观看分布、聚类与覆盖。

分子指纹和描述符是高维的，难以直接观察。降维可视化把它们投影到二维平面，让你直观看到化学空间的分布、聚类与覆盖情况。

三种常用方法

PCA：线性降维，保留全局方差，快且可解释，但对复杂结构表达有限。
t-SNE：非线性，擅长展示局部簇结构，但全局距离不可信、对参数敏感。
UMAP：非线性，速度快、较好兼顾局部与全局，近年最常用。

使用注意

别过度解读距离：t-SNE/UMAP 图上的远近不等于真实相似度。
同一套特征与参数：比较不同库时要保持一致，否则不可比。
降维图是探索工具，结论仍需定量指标支撑。

关键要点

PCA 看全局、t-SNE/UMAP 看局部簇；
非线性图的全局距离别当真；
它是探索工具，不替代定量分析。

延伸资源

实操：scikit-learn（PCA/t-SNE）、umap-learn。
配套：053《分子多样性评估》。