回归是机器学习中监督学习的一个核心分支,其目标与分类问题形成鲜明对比

星博讯 AI基础认知 1

核心定义

回归 是一种用于预测连续数值的统计方法和机器学习算法,它通过建立一个模型(一个数学函数),来描述一个或多个自变量(特征)与一个因变量(目标值)之间的关系。

回归是机器学习中监督学习的一个核心分支,其目标与分类问题形成鲜明对比-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

回归解决的是“多少?”的问题,而分类解决的是“哪个?”的问题。

例子

  • 预测房价:根据房屋面积、房间数、地段(特征),预测具体的销售价格(连续数值)。
  • 预测销量:根据广告投入、季节、价格(特征),预测产品的月销售量(连续数值)。
  • 预测温度:根据历史气温、湿度、气压(特征),预测明天的最高气温(连续数值)。

与分类算法的关键区别

特性 回归 分类
输出类型 连续值(实数),价格(12.3万)、温度(23.4℃)、分数(85.6分)。 离散类别(标签),垃圾邮件/非垃圾邮件、猫/狗/鸟、积极/消极。
解决问题 “有多少?”、“是多少?”。 “是什么?”、“属于哪一类?”。
模型评估 均方误差(MSE)、均方根误差(RMSE)、R平方(R²)。 准确率、精确率、召回率、F1分数、AUC。
常见算法 线性回归、多项式回归、决策树回归、随机森林回归、神经网络回归。 逻辑回归、决策树分类、支持向量机、随机森林分类、神经网络分类。

注意逻辑回归虽然名字里有“回归”,但它本质上是一个分类算法(主要用于二分类),因为它输出的是概率(一个介于0和1之间的连续值),然后通过阈值(如0.5)将其划分为类别。

回归的核心组件

  1. 自变量:也称为特征解释变量,是模型的输入,用于进行预测,可以是一个或多个。X 表示。
  2. 因变量:也称为目标值响应变量或,是我们要预测的连续值。y 表示。
  3. 模型/函数y ≈ f(X),我们的目标是找到一个函数 f,它能最好地刻画 Xy 之间的关系,这个函数可以是一条直线(线性回归),一条曲线(多项式回归),或者一个复杂的结构(如树模型)。
  4. 参数/权重:模型 f 中需要从数据中学习确定的系数,在线性回归中,就是斜率和截距。
  5. 误差:模型预测值 ŷ 与真实值 y 之间的差距。误差 = y - ŷ,回归模型的目标就是最小化所有数据点上误差的某种度量

关键概念与评估指标

  1. 拟合

    • 欠拟合:模型过于简单,无法捕捉数据中的基本趋势,表现在训练集和测试集上效果都差,解决方法:使用更复杂的模型、增加特征。
    • 过拟合:模型过于复杂,不仅学到了规律,还“记住了”训练数据中的噪声,表现在训练集上效果极好,但在测试集上效果很差,解决方法:获取更多数据、简化模型、使用正则化。
    • 良好拟合:模型恰到好处地抓住了数据的内在规律,泛化能力强。
  2. 损失函数 用于量化模型预测误差的函数,回归任务最常用的损失函数是:

    • 均方误差MSE = (1/n) * Σ(y_i - ŷ_i)²
      • 对较大的误差惩罚更重(因为平方)。
      • 是回归问题中最常用、最核心的指标。
    • 平均绝对误差MAE = (1/n) * Σ|y_i - ŷ_i|

      对误差的惩罚是线性的,更稳健,不易受异常值影响。

  3. 评估指标

    • 均方根误差RMSE = sqrt(MSE)
      • 与目标值 y 单位相同,更容易解释,房价预测的RMSE为5万,意味着平均预测误差大约在5万元左右。
    • R平方R² Score
      • 表示模型能够解释的目标变量方差的比例,取值范围通常在0到1之间(也可能为负)。
      • R² = 1:完美拟合。
      • R² = 0:模型等同于直接用均值进行预测。
      • R² < 0:模型比简单用均值预测还要差。

常见回归算法简介

  1. 线性回归:假设特征和目标之间存在线性关系,拟合一条直线(或超平面),是基础且重要的方法。
  2. 多项式回归:将特征进行多项式扩展(如 x², x³),再用线性回归拟合,可以捕捉非线性关系。
  3. 决策树回归:通过构建一棵树,根据特征规则将数据划分到不同的“叶子”中,每个叶子的预测值是该叶子内所有样本目标值的平均值。
  4. 随机森林回归:集成学习方法,构建多棵决策树,并将它们的预测结果进行平均,以提高精度和稳定性。
  5. 支持向量回归:试图找到一个“管道”,让尽可能多的数据点落在这个管道内,同时使管道的宽度尽可能小。
  6. 神经网络回归:使用神经网络(尤其是深度学习模型)来学习极其复杂的非线性关系,适用于海量数据和高维特征。

回归分析是数据科学和机器学习的基石之一,理解其核心——预测连续值建立特征与目标之间的映射关系、并通过最小化误差来优化模型——是掌握更高级机器学习技术的关键第一步,从简单的线性回归开始,逐步理解模型复杂度、拟合问题和评估方法,就能构建出解决实际预测问题的有效模型。

标签: 回归 分类

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00