分子指纹和描述符是高维的,难以直接观察。降维可视化把它们投影到二维平面,让你直观看到化学空间的分布、聚类与覆盖情况。
三种常用方法
- PCA:线性降维,保留全局方差,快且可解释,但对复杂结构表达有限。
- t-SNE:非线性,擅长展示局部簇结构,但全局距离不可信、对参数敏感。
- UMAP:非线性,速度快、较好兼顾局部与全局,近年最常用。
使用注意
- 别过度解读距离:t-SNE/UMAP 图上的远近不等于真实相似度。
- 同一套特征与参数:比较不同库时要保持一致,否则不可比。
- 降维图是探索工具,结论仍需定量指标支撑。
关键要点
- PCA 看全局、t-SNE/UMAP 看局部簇;
- 非线性图的全局距离别当真;
- 它是探索工具,不替代定量分析。
延伸资源
- 实操:scikit-learn(PCA/t-SNE)、umap-learn。
- 配套:053《分子多样性评估》。