一、核心思想，什么是降维？

星博讯 AI基础认知 2026-04-09 1

想象你有一组描述一个人的数据,包含 身高（米）、体重（公斤）、年龄（岁）、月收入（元）、每日步数、睡眠时长（小时） 等上百个特征（维度），这些数据点存在于一个“高维空间”（比如100维）中。

一、核心思想，什么是降维？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

降维的核心目标就是：在尽可能保留原始数据最重要信息的前提下，将数据从高维空间（如100维）映射到一个低维空间（如2维或3维）。

一个经典比喻： 观察一个三维的物体（比如一个雕塑），它的影子投射在二维墙面上，这个“影子”就是一个降维后的表示，虽然我们丢失了深度信息，但依然能大致看出物体的轮廓和形状，好的降维就像找到一个最佳的“投光角度”，让影子保留最多的原始特征。

为什么要降维？（动机与好处）

可视化：人类无法直接理解三维以上的空间，降到2维或3维后，我们可以画图观察数据的分布、聚类和异常。
去除噪声和冗余：高维数据中常包含不相关或重复的特征（比如用“厘米”和“米”同时表示身高），降维可以提炼出真正的关键信息。
提升模型效率：
- 计算加速：维度越低，算法（如分类、聚类）计算速度越快。
- 缓解“维度灾难”：在高维空间中，数据变得极其稀疏，许多机器学习模型需要的数据量会指数级增长，且性能下降，降维能有效缓解此问题。
- 防止过拟合：更少的特征意味着更简单的模型，有助于提升泛化能力。

降维方法主要分为两大类：

核心思想：寻找数据方差最大的方向（即数据最“分散”、信息量最大的方向），将其作为新的坐标轴（主成分），第一个主成分是方差最大的方向，第二个是与第一主成分正交且方差次大的方向，依此类推。

核心思想：与PCA寻找最大方差不同，LDA是一种有监督的降维方法，它的目标是寻找一个投影方向，使得不同类别数据的类间距离最大化，同时类内距离最小化，从而让降维后的数据最有利于分类。

核心思想：专注于保持数据的局部结构（即相似的点在低维空间中也应该靠近），同时通过t分布来优化全局结构（使得不同类别的点在低维中适当分开），非常擅长在2D/3D空间中呈现清晰的聚类效果。

核心思想：假设高维数据位于一个弯曲的流形上（如一张皱巴巴的纸），Isomap通过保持数据点间的测地线距离（即流形上的最短路径，而非高维空间中的直线欧氏距离）来实现降维。

核心思想：一种基于神经网络的方法，它包含一个“编码器”网络将高维输入压缩为低维“编码”，和一个“解码器”网络试图从这个编码中重建原始输入，通过最小化重建误差，迫使低维编码捕捉最本质的信息。

特性	PCA	t-SNE	LDA	自编码器
核心目标	最大化方差，保留全局结构	保持局部相似性，优化可视化	最大化类间区分度	最小化输入重建误差
监督/无监督	无监督	无监督	有监督（需要标签）	无监督/自监督
线性/非线性	线性	非线性	线性	非线性
主要用途	通用降维，去噪，数据压缩	数据可视化（2D/3D）	分类任务前的特征提取	复杂特征提取，生成模型基础
可解释性	较好（主成分是原始特征的线性组合）	差（低维坐标无明确意义）	较好	差