一、什么是分类问题？

星博讯 AI基础认知 2026-04-09 1

分类是监督学习中最核心的任务之一，其目标是：根据已知的、带有标签的样本数据，学习一个模型，用于预测新数据所属的离散类别。

一、什么是分类问题？-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

与回归问题的区别：回归预测的是连续值（如房价、温度），而分类预测的是离散的类别。

核心步骤与概念

数据准备：
- 特征工程：将原始数据（文本、图像）转化为算法能处理的数值型特征向量，这是影响模型性能的关键，常言道“数据和特征决定了机器学习的上限”。
- 数据清洗：处理缺失值、异常值。
- 数据集划分：通常分为训练集（用于训练模型）、验证集（用于调参和模型选择）和测试集（用于最终评估模型性能）。
模型训练：

使用训练集数据,通过算法学习决策边界或概率分布。
模型评估：
- 使用测试集评估模型的泛化能力（即对未见数据的预测能力）。
- 常用评估指标：
  - 准确率：预测正确的样本数 / 总样本数，最直观，但在类别不平衡时可能产生误导。
  - 精确率：（针对某一类）预测为该类的样本中，实际也是该类的比例。TP / (TP + FP)
  - 召回率：（针对某一类）实际为该类的样本中，被预测正确的比例。TP / (TP + FN)
  - F1分数：精确率和召回率的调和平均数，是综合考量。
  - 混淆矩阵：以矩阵形式直观展示分类结果，是计算上述指标的基础。
  - ROC曲线与AUC值：主要用于评估二分类模型在不同阈值下的综合性能，AUC值越接近1，模型越好。

这里介绍几种最经典和常用的算法,理解它们有助于构建知识体系。

核心思想： “物以类聚”，对于一个新样本，在特征空间中找出与之最相似的K个训练样本（“近邻”），根据这K个邻居的类别进行“投票”，将新样本归为票数最多的类别。
关键参数： K值、距离度量方式（如欧氏距离）。
优点：简单直观，无需训练过程。
缺点：计算开销大（需要存储所有数据并计算距离），对高维数据和数据不平衡敏感。

核心思想： 虽然名字带“回归”，但它是经典的分类算法（常用于二分类），它通过一个Sigmoid函数，将线性回归的结果映射到(0,1)区间，解释为属于正类的概率。
关键：找到一条决策边界（线性或通过核技巧变为非线性），使得边界两侧的样本尽可能被正确分类。
优点：模型简单，可解释性强（可以分析特征权重），输出是概率值。
缺点：本质上只能处理线性可分问题，对于复杂关系需要特征工程或使用核方法。

核心思想： “三个臭皮匠，顶个诸葛亮”，通过构建并结合多个弱学习器（如决策树）来完成学习任务，以获得比单一模型更优越的性能。
- Bagging：并行训练多个模型，结果投票（分类）或平均（回归），代表算法：随机森林，它能有效降低方差，防止过拟合。
- Boosting：串行训练多个模型，每个新模型都更关注前一个模型分错的样本，代表算法：AdaBoost, GBDT, XGBoost, LightGBM，它能有效降低偏差，提升模型精度。
优点：通常能显著提升模型性能，是现实应用中的主流选择。
缺点：模型复杂度高，训练时间长，可解释性变差。