一、是什么？重新定义异常值

星博讯 AI基础认知 2026-04-09 39

异常值不是“错误值”，它是一个“不寻常的值”，其定义高度依赖于业务背景和建模目标。

一、是什么？重新定义异常值-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

统计定义：在数据分布中，远离其他大部分数据的观测点,常用识别方法有：
- 标准差法：平均值 ± 3倍标准差之外的数据。
- 四分位距法（IQR）：小于 Q1 - 1.5*IQR 或大于 Q3 + 1.5*IQR 的数据，这是最常用、稳健的方法。
- 模型法：基于聚类（如DBSCAN）、树模型（Isolation Forest）等进行识别。
业务定义：这才是关键！
- 可能是错误：数据录入错误（身高2.5米）、传感器故障、ETL流程bug。
- 可能是特殊事件：电商大促的销量峰值、金融市场的“黑天鹅”事件、系统故障导致的访问量骤降。
- 可能就是目标本身：在欺诈检测、网络入侵检测、罕见病诊断中，我们要找的就是这些“异常值”。

为什么处理？—— 目标决定态度

核心认知：处理异常值的目的是为了让分析/模型更好地服务于你的目标，而不是为了“处理”而处理。

为了提升模型稳健性（最常见的理由）：
- 对传统统计模型影响大：线性回归、逻辑回归、PCA等模型对异常值非常敏感，一个异常点可能显著扭曲回归线、均值、方差等关键统计量。
- 对机器学习模型影响不一：树模型（如随机森林、XGBoost）对异常值相对不敏感；而基于距离的模型（如KNN、K-Means、SVM with RBF kernel）则非常敏感。
为了找到特殊洞察：

分析为什么会出现这个异常？它代表了什么业务事件？（发现某个区域销售额异常高，经查是新门店开业）。
为了提高数据质量：

修正明显的录入错误或系统错误。

核心认知：处理是一个严谨的分析决策过程，而非一键操作。

第一步：探测与识别

第二步：甄别与归因

第三步：决策与处理 根据甄别结果，选择最合适的处理策略：

策略	具体方法	适用场景	优点	缺点/风险
保留	不进行任何处理	异常值就是分析目标（如欺诈检测）异常值代表重要业务事实，且占比少使用对异常值不敏感的模型（树模型）	信息无损失	可能影响模型性能（若模型敏感）
修正	用合理值替换（如上下限、均值/中位数、模型预测值）	可确认为输入错误，且有可靠依据进行修正	保留了样本量，数据更“干净”	若修正依据不足，会引入偏差
删除	整行删除该样本	确认为无意义的错误数据，且无法修正	操作简单，直接移除干扰源	损失信息，可能引入偏差（若异常非随机）
转换	对数据做数学变换（如对数、平方根转换）	数据本身存在严重偏态分布，希望降低极端值影响	能压缩尺度，使分布更接近正态	改变了数据解释性，需反向转换
分箱	将连续值离散化到几个区间	不关心具体极端值，只关心大体等级或区间	减弱异常值影响，简化模型	损失细节信息
分区建模	对“正常数据”和“异常数据”分别建立模型	异常数据有明确的业务意义，且模式与正常数据不同	更具针对性，模型更精准	流程复杂，需要更多数据