一、核心思想与比喻

星博讯 AI基础认知 2026-04-09 1

想象你在平面上有一堆红色和蓝色的点，你需要画一条线把它们分开，这样的线可能有无数条，SVM的目标是找到“最好”的那条线。

一、核心思想与比喻-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

什么是最好的？ 最好的线是能让两类点离它都尽可能远的那条线，也就是说，它不仅要分类正确，还要拥有最大的“安全边际”，这条线本身叫做 “决策边界”，而离这条边界最近的那些点（它们“支撑”起了这个边界），就叫做 “支持向量”，这就是“支持向量机”名字的由来。

核心比喻：不是在两类数据之间随便画一条线，而是画一条最宽的“街道”（间隔），并且让这条“街道”的中间线作为分界线，支持向量就是那些站在“街道”边缘的“护栏”上的点。

关键概念分解

SVM的训练过程被转化成一个凸二次规划优化问题。

基本型（硬间隔SVM，适用于线性可分数据）：

最大化几何间隔 γ，等价于： 最小化 (1/2) * ||w||^2 约束条件：y_i * (wx_i + b) >= 1 （对于所有训练样本i）

解读：

现实中的数据往往不是完美线性可分的。

引入松弛变量 ξ：允许一些点犯错误（越过间隔边界，甚至被错误分类）。
新的目标函数：最小化 (1/2)*||w||^2 + C * Σ(ξ_i)
参数C：这是一个至关重要的正则化参数。
- C很大：对误分类的惩罚很大，模型倾向于更小的间隔，尽可能分对所有点,可能导致过拟合。
- C很小：对误分类的惩罚小，模型允许更大的间隔和更多的错误,可能导致欠拟合。
- C控制了“最大化间隔”和“保证分类正确”之间的权衡。

对于根本不能用平面分开的数据（比如同心圆），SVM使用了绝妙的核技巧。

思想：将数据从原始空间（低维）映射到一个更高维的特征空间，在这个高维空间中,数据可能就变得线性可分了。
核函数K：K(x_i， x_j) = φ(x_i)·φ(x_j)，它计算的是两个数据点在高维空间中映射向量的内积，但不需要显式地知道映射φ是什么！我们直接在原始空间用公式计算这个高维内积。
常用核函数：
- 线性核：K(x, y) = x·y （就是普通的线性SVM）。
- 多项式核：K(x, y) = (x·y + c)^d。
- 径向基函数核：K(x, y) = exp(-γ * ||x - y||^2)，这是最常用、最强大的核函数。γ参数控制单个样本的影响范围。
效果：在原始空间看，SVM的决策边界可能是一条曲线或更复杂的形状,从而完美分离非线性数据。