回归是机器学习中监督学习的一个核心分支，其目标与分类问题形成鲜明对比

星博讯 AI基础认知 2026-04-09 1

核心定义

回归是一种用于预测连续数值的统计方法和机器学习算法，它通过建立一个模型（一个数学函数），来描述一个或多个自变量（特征）与一个因变量（目标值）之间的关系。

回归是机器学习中监督学习的一个核心分支，其目标与分类问题形成鲜明对比-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

回归解决的是“多少？”的问题，而分类解决的是“哪个？”的问题。

例子：

特性	回归	分类
输出类型	连续值（实数），价格（12.3万）、温度（23.4℃）、分数（85.6分）。	离散类别（标签），垃圾邮件/非垃圾邮件、猫/狗/鸟、积极/消极。
解决问题	“有多少？”、“是多少？”。	“是什么？”、“属于哪一类？”。
模型评估	均方误差（MSE）、均方根误差（RMSE）、R平方（R²）。	准确率、精确率、召回率、F1分数、AUC。
常见算法	线性回归、多项式回归、决策树回归、随机森林回归、神经网络回归。	逻辑回归、决策树分类、支持向量机、随机森林分类、神经网络分类。

注意：逻辑回归虽然名字里有“回归”，但它本质上是一个分类算法（主要用于二分类），因为它输出的是概率（一个介于0和1之间的连续值），然后通过阈值（如0.5）将其划分为类别。

自变量：也称为特征或解释变量，是模型的输入，用于进行预测，可以是一个或多个。X 表示。
因变量：也称为目标值、响应变量或，是我们要预测的连续值。y 表示。
模型/函数：y ≈ f(X)，我们的目标是找到一个函数 f，它能最好地刻画 X 和 y 之间的关系，这个函数可以是一条直线（线性回归），一条曲线（多项式回归），或者一个复杂的结构（如树模型）。
参数/权重：模型 f 中需要从数据中学习确定的系数，在线性回归中，就是斜率和截距。
误差：模型预测值 ŷ 与真实值 y 之间的差距。误差 = y - ŷ，回归模型的目标就是最小化所有数据点上误差的某种度量。

拟合
- 欠拟合：模型过于简单，无法捕捉数据中的基本趋势，表现在训练集和测试集上效果都差，解决方法：使用更复杂的模型、增加特征。
- 过拟合：模型过于复杂，不仅学到了规律，还“记住了”训练数据中的噪声，表现在训练集上效果极好，但在测试集上效果很差，解决方法：获取更多数据、简化模型、使用正则化。
- 良好拟合：模型恰到好处地抓住了数据的内在规律，泛化能力强。
损失函数 用于量化模型预测误差的函数，回归任务最常用的损失函数是：
- 均方误差：MSE = (1/n) * Σ(y_i - ŷ_i)²
  - 对较大的误差惩罚更重（因为平方）。
  - 是回归问题中最常用、最核心的指标。
- 平均绝对误差：MAE = (1/n) * Σ|y_i - ŷ_i|
  对误差的惩罚是线性的,更稳健，不易受异常值影响。
评估指标
- 均方根误差：RMSE = sqrt(MSE)
  - 与目标值 y 单位相同，更容易解释，房价预测的RMSE为5万，意味着平均预测误差大约在5万元左右。
- R平方：R² Score
  - 表示模型能够解释的目标变量方差的比例,取值范围通常在0到1之间（也可能为负）。
  - R² = 1：完美拟合。
  - R² = 0：模型等同于直接用均值进行预测。
  - R² < 0：模型比简单用均值预测还要差。