一、核心定义

星博讯 AI基础认知 2026-04-09 1

过拟合 是指机器学习模型在训练数据上表现得过于优秀，以至于“学习”到了训练数据中的噪声、随机波动和无关细节，而不是数据背后真正的通用规律（模式）。

一、核心定义-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

这导致模型对训练数据拟合得太好，但在面对新的、未见过的数据时，其预测或分类能力会显著下降。

模型“死记硬背”了例题，但没有理解原理，所以无法举一反三。

一个生动的比喻：学生备考

想象一个学生准备数学考试：

恰当拟合（理想状态）：学生理解了公式的原理和各类题型的解法，在考试中，无论题目怎么变，他都能正确解答。
欠拟合：学生根本没学明白，连练习题都做不对，考试更不会。
过拟合：学生没有理解原理，而是把所有练习题的题目和答案一字不差地背了下来，如果考试题和练习题一模一样，他能得满分，但只要题目稍有变化（比如换了数字或问法），他就完全不会做，得分很低。

这是识别过拟合最关键的指标：

过拟合的典型信号：

训练误差非常低（甚至接近于0），但验证/测试误差却很高，并且两者之间的差距非常大。

模型过于复杂：这是最主要的原因，模型拥有太多的参数、太强的学习能力（一个非常深的神经网络，或一棵非常深的决策树），它复杂到足以“每一个训练样本，而不是总结规律。
训练数据量太少：数据太少，模型无法从中窥见全貌，只能学到当前这批有限样本的特定特征。
训练数据噪声大：数据中包含大量错误、异常值或无关特征，复杂的模型会去拟合这些噪声。
训练时间过长：对于一些迭代学习的模型（如神经网络、梯度提升树），训练轮数太多会让模型逐渐从学习通用模式转向记忆训练数据。

以回归问题（预测一个连续值）为例，看图最直观：

欠拟合

恰当拟合

过拟合

获取更多高质量数据：最有效的方法，让模型看到更全面的世界。
降低模型复杂度：
- 选择更简单的模型（如用线性模型代替多项式模型）。
- 减少神经网络的层数和神经元数量。
- 修剪决策树。
正则化：
- 核心思想：在模型的目标函数（损失函数）中增加一个“惩罚项”，用于惩罚过大的模型参数，迫使模型在拟合数据和保持参数较小之间取得平衡。
- 常见方法：L1正则化（Lasso）、L2正则化（Ridge）。
提前停止：主要用于神经网络等迭代训练，在训练过程中，持续监控验证集上的误差，当验证误差开始上升时（即模型开始过拟合），立即停止训练。
集成方法：如随机森林，通过构建多个模型并综合它们的预测，可以减少单一模型过拟合的风险。
Dropout（用于神经网络）：在训练过程中，随机“丢弃”网络中的一部分神经元，迫使网络不依赖于任何特定的神经元，从而学到更鲁棒的特征。
数据增强（主要用于图像、文本）：对训练数据进行一些合理的变换（如旋转、裁剪、加噪声），人工增加数据的多样性和数量。