一、是什么?重新定义异常值

星博讯 AI基础认知 2

异常值不是“错误值”,它是一个“不寻常的值”,其定义高度依赖于业务背景和建模目标。

一、是什么?重新定义异常值-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

  1. 统计定义:在数据分布中,远离其他大部分数据的观测点,常用识别方法有:

    • 标准差法:平均值 ± 3倍标准差之外的数据。
    • 四分位距法(IQR):小于 Q1 - 1.5*IQR 或大于 Q3 + 1.5*IQR 的数据,这是最常用、稳健的方法。
    • 模型法:基于聚类(如DBSCAN)、树模型(Isolation Forest)等进行识别。
  2. 业务定义这才是关键!

    • 可能是错误:数据录入错误(身高2.5米)、传感器故障、ETL流程bug。
    • 可能是特殊事件:电商大促的销量峰值、金融市场的“黑天鹅”事件、系统故障导致的访问量骤降。
    • 可能就是目标本身:在欺诈检测、网络入侵检测、罕见病诊断中,我们要找的就是这些“异常值”

为什么处理?—— 目标决定态度

核心认知:处理异常值的目的是为了让分析/模型更好地服务于你的目标,而不是为了“处理”而处理。

  1. 为了提升模型稳健性(最常见的理由)

    • 对传统统计模型影响大:线性回归、逻辑回归、PCA等模型对异常值非常敏感,一个异常点可能显著扭曲回归线、均值、方差等关键统计量。
    • 对机器学习模型影响不一:树模型(如随机森林、XGBoost)对异常值相对不敏感;而基于距离的模型(如KNN、K-Means、SVM with RBF kernel)则非常敏感。
  2. 为了找到特殊洞察

    分析为什么会出现这个异常?它代表了什么业务事件?(发现某个区域销售额异常高,经查是新门店开业)。

  3. 为了提高数据质量

    修正明显的录入错误或系统错误。

怎么做?—— 四步科学处理流程

核心认知:处理是一个严谨的分析决策过程,而非一键操作。

第一步:探测与识别

  • 使用可视化工具(箱线图、散点图、直方图、Z-score图)进行初筛。
  • 结合统计方法(IQR, Z-score)和业务规则(如年龄不应大于150岁)进行量化识别。
  • 记录所有被识别的异常值及其特征。

第二步:甄别与归因

  • 这是最重要的一步! 对每个(或每类)异常值进行“审讯”。
  • 提问:这个值是记录错误吗?是数据拼接问题吗?还是代表了真实的业务极端情况(如VIP客户、爆款商品)?
  • 需要与业务方沟通确认,切勿独自在数据层面做决断。

第三步:决策与处理 根据甄别结果,选择最合适的处理策略:

策略 具体方法 适用场景 优点 缺点/风险
保留 不进行任何处理 异常值就是分析目标(如欺诈检测)
异常值代表重要业务事实,且占比少
使用对异常值不敏感的模型(树模型)
信息无损失 可能影响模型性能(若模型敏感)
修正 用合理值替换(如上下限、均值/中位数、模型预测值) 可确认为输入错误,且有可靠依据进行修正 保留了样本量,数据更“干净” 若修正依据不足,会引入偏差
删除 整行删除该样本 确认为无意义的错误数据,且无法修正 操作简单,直接移除干扰源 损失信息,可能引入偏差(若异常非随机)
转换 对数据做数学变换(如对数、平方根转换) 数据本身存在严重偏态分布,希望降低极端值影响 能压缩尺度,使分布更接近正态 改变了数据解释性,需反向转换
分箱 将连续值离散化到几个区间 不关心具体极端值,只关心大体等级或区间 减弱异常值影响,简化模型 损失细节信息
分区建模 对“正常数据”和“异常数据”分别建立模型 异常数据有明确的业务意义,且模式与正常数据不同 更具针对性,模型更精准 流程复杂,需要更多数据

第四步:记录与验证

  • 详细记录:处理了哪些数据、为什么、用了什么方法、处理了多少条(占比)。
  • 评估影响:比较处理前后,关键统计量(均值、标准差)、模型性能指标的变化,确保处理是有效的。

核心误区与最佳实践

误区1:不假思索,直接删除所有异常值。

  • 风险:可能删除掉最有价值的信息(关键客户、创新模式、潜在风险信号)。
  • 实践:先调查,后处理,把异常值分析当作一次业务探索的机会。

误区2:认为存在“一刀切”的最佳方法(如总是用中位数填充)。

  • 风险:方法不匹配场景,导致结果失真。
  • 实践:方法的选择必须服务于分析目标,并基于对异常值成因的判断。

误区3:在训练集和测试集上使用不同的处理逻辑。

  • 风险:数据泄漏,导致模型评估结果过于乐观。
  • 实践必须在分割训练集和测试集后,仅从训练集上学习处理参数(如IQR的边界、填充用的中位数),然后将这些参数一致地应用到测试集上。

误区4:忽视业务背景,只做纯技术判断。

  • 风险:做出的决策在业务上不可解释或完全错误。
  • 实践:数据分析师/科学家必须与领域专家紧密合作。

对异常值处理的正确认知是: 一个结合了技术方法(统计/算法)与业务理解的诊断与决策过程,其核心不是消除异类,而是理解异类产生的原因,并根据分析目标,选择性地保留、修正或排除其影响,最终使数据更“诚实”地反映现实世界,或让模型更“专注”于解决核心问题。

把它想象成一次侦探工作:发现线索(探测)-> 调查线索背景(甄别)-> 决定如何处理该线索(决策)-> 记录在案并评估结果(验证),这样你就能游刃有余地应对数据中的这些“不速之客”了。

标签: 异常值 重新定义

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00