核心假设:流形假设
高维观测数据(如图像、文本特征)通常分布在一个低维流形上。
例:人脸图像虽由大量像素组成,但受光照、姿态、表情等少数因素控制,本质上可能只有几十个自由度。

与线性降维的区别
- 线性方法(如PCA)假设数据是线性结构的,但现实数据往往具有非线性关系。
- 流形学习能捕捉非线性拓扑,保持数据在局部或全局的几何特性。
典型算法
- 等距特征映射(Isomap):基于测地距离保持全局结构,通过邻接图计算近似测地线距离后进行多维缩放(MDS)。
- 局部线性嵌入(LLE):假设局部邻域内数据点呈线性关系,通过重构权重保持局部结构。
- 拉普拉斯特征映射(Laplacian Eigenmaps):基于图拉普拉斯算子,使相似的点在低维空间中靠近。
- t-SNE:利用概率分布衡量相似性,擅长保留局部结构并实现可视化聚类。
- UMAP:基于拓扑理论,兼顾局部与全局结构,计算效率高。
主要应用
- 数据可视化(降至2D/3D)
- 特征提取与预处理
- 数据去噪与压缩
- 模式识别辅助
注意事项
- 维数灾难:需足够样本以估计流形结构。
- 噪声敏感:噪声可能破坏邻域图构建。
- 参数选择:邻域大小等参数影响结果,需谨慎调整。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。