核心定义
回归 是一种用于预测连续数值的统计方法和机器学习算法,它通过建立一个模型(一个数学函数),来描述一个或多个自变量(特征)与一个因变量(目标值)之间的关系。

回归解决的是“多少?”的问题,而分类解决的是“哪个?”的问题。
例子:
- 预测房价:根据房屋面积、房间数、地段(特征),预测具体的销售价格(连续数值)。
- 预测销量:根据广告投入、季节、价格(特征),预测产品的月销售量(连续数值)。
- 预测温度:根据历史气温、湿度、气压(特征),预测明天的最高气温(连续数值)。
与分类算法的关键区别
| 特性 | 回归 | 分类 |
|---|---|---|
| 输出类型 | 连续值(实数),价格(12.3万)、温度(23.4℃)、分数(85.6分)。 | 离散类别(标签),垃圾邮件/非垃圾邮件、猫/狗/鸟、积极/消极。 |
| 解决问题 | “有多少?”、“是多少?”。 | “是什么?”、“属于哪一类?”。 |
| 模型评估 | 均方误差(MSE)、均方根误差(RMSE)、R平方(R²)。 | 准确率、精确率、召回率、F1分数、AUC。 |
| 常见算法 | 线性回归、多项式回归、决策树回归、随机森林回归、神经网络回归。 | 逻辑回归、决策树分类、支持向量机、随机森林分类、神经网络分类。 |
注意:逻辑回归虽然名字里有“回归”,但它本质上是一个分类算法(主要用于二分类),因为它输出的是概率(一个介于0和1之间的连续值),然后通过阈值(如0.5)将其划分为类别。
回归的核心组件
- 自变量:也称为特征或解释变量,是模型的输入,用于进行预测,可以是一个或多个。
X表示。 - 因变量:也称为目标值、响应变量或,是我们要预测的连续值。
y表示。 - 模型/函数:
y ≈ f(X),我们的目标是找到一个函数f,它能最好地刻画X和y之间的关系,这个函数可以是一条直线(线性回归),一条曲线(多项式回归),或者一个复杂的结构(如树模型)。 - 参数/权重:模型
f中需要从数据中学习确定的系数,在线性回归中,就是斜率和截距。 - 误差:模型预测值
ŷ与真实值y之间的差距。误差 = y - ŷ,回归模型的目标就是最小化所有数据点上误差的某种度量。
关键概念与评估指标
-
拟合
- 欠拟合:模型过于简单,无法捕捉数据中的基本趋势,表现在训练集和测试集上效果都差,解决方法:使用更复杂的模型、增加特征。
- 过拟合:模型过于复杂,不仅学到了规律,还“记住了”训练数据中的噪声,表现在训练集上效果极好,但在测试集上效果很差,解决方法:获取更多数据、简化模型、使用正则化。
- 良好拟合:模型恰到好处地抓住了数据的内在规律,泛化能力强。
-
损失函数 用于量化模型预测误差的函数,回归任务最常用的损失函数是:
- 均方误差:
MSE = (1/n) * Σ(y_i - ŷ_i)²- 对较大的误差惩罚更重(因为平方)。
- 是回归问题中最常用、最核心的指标。
- 平均绝对误差:
MAE = (1/n) * Σ|y_i - ŷ_i|对误差的惩罚是线性的,更稳健,不易受异常值影响。
- 均方误差:
-
评估指标
- 均方根误差:
RMSE = sqrt(MSE)- 与目标值
y单位相同,更容易解释,房价预测的RMSE为5万,意味着平均预测误差大约在5万元左右。
- 与目标值
- R平方:
R² Score- 表示模型能够解释的目标变量方差的比例,取值范围通常在0到1之间(也可能为负)。
- R² = 1:完美拟合。
- R² = 0:模型等同于直接用均值进行预测。
- R² < 0:模型比简单用均值预测还要差。
- 均方根误差:
常见回归算法简介
- 线性回归:假设特征和目标之间存在线性关系,拟合一条直线(或超平面),是基础且重要的方法。
- 多项式回归:将特征进行多项式扩展(如
x², x³),再用线性回归拟合,可以捕捉非线性关系。 - 决策树回归:通过构建一棵树,根据特征规则将数据划分到不同的“叶子”中,每个叶子的预测值是该叶子内所有样本目标值的平均值。
- 随机森林回归:集成学习方法,构建多棵决策树,并将它们的预测结果进行平均,以提高精度和稳定性。
- 支持向量回归:试图找到一个“管道”,让尽可能多的数据点落在这个管道内,同时使管道的宽度尽可能小。
- 神经网络回归:使用神经网络(尤其是深度学习模型)来学习极其复杂的非线性关系,适用于海量数据和高维特征。
回归分析是数据科学和机器学习的基石之一,理解其核心——预测连续值、建立特征与目标之间的映射关系、并通过最小化误差来优化模型——是掌握更高级机器学习技术的关键第一步,从简单的线性回归开始,逐步理解模型复杂度、拟合问题和评估方法,就能构建出解决实际预测问题的有效模型。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。