一、核心认知,什么是异常值?

星博讯 AI基础认知 2

异常值 是指与数据集中其他观测值显著不同的数据点,它的“异常”是相对的,取决于你的数据和业务背景。

一、核心认知,什么是异常值?-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

  • 统计视角:偏离整体分布模式,可能由测量误差、录入错误或小概率事件产生。
  • 业务视角:可能是“噪音”(需要处理),也可能是“信号”(需要重点研究),这是处理前必须厘清的关键点。

一个核心比喻:异常值就像海面上的浪花,有些只是微风引起的涟漪(噪音),有些则预示着海底的火山喷发或巨大的宝藏(关键信号)。

为什么要处理异常值?(影响)

异常值会对数据分析的许多环节产生巨大影响:

  1. 扭曲描述统计:大幅拉高或拉低均值,使方差膨胀,导致你对数据“中心”和“散布”的理解失真。
  2. 误导数据可视化:使图表比例失衡,其他大部分数据点挤在一起,难以观察正常数据的模式。
  3. 影响模型性能
    • 对传统统计模型(如线性回归):破坏模型假设(如正态性、同方差性),导致参数估计有偏,降低预测精度。
    • 对机器学习模型
      • 基于距离的模型(如KNN、K-Means聚类):会严重扭曲距离计算。
      • 基于误差最小化的模型(如神经网络、SVM):会迫使模型去拟合这些极端点,牺牲整体性能。
    • 对树模型(如随机森林、梯度提升树):相对稳健,但极端异常值仍可能影响分裂点的选择。

处理异常值的核心步骤(认知流程)

处理异常值不是一个简单的“删除”动作,而是一个决策流程:

graph TD
    A[发现异常值] --> B{诊断成因};
    B --> C[“确认为”<b>错误值</b>“<br>(如:输入错误、设备故障)”];
    B --> D[“探索是否为”<b>真实异常/关键信号</b>“<br>(如:欺诈交易、特殊事件)”];
    C --> E[“处理方法:<br>修正、删除或用缺失值替代”];
    D --> F{基于业务目标决策};
    F --> G[“目标:<b>寻找普适模式</b><br>(如:预测普通客户行为)”];
    F --> H[“目标:<b>识别异常本身</b><br>(如:欺诈检测、故障预警)”];
    G --> I[“处理方法:<br>在分析/建模时稳健处理或剔除”];
    H --> J[“处理方法:<br>重点研究、建立专门模型”];

步骤1:发现与检测

  • 可视化:箱线图、散点图、直方图、Q-Q图,这是最直观的方法。
  • 统计方法
    • Z-Score法:假设数据正态分布,通常将 |Z| > 3 的数据点视为异常。
    • IQR(四分位距)法(更稳健):异常值常定义为小于 Q1 - 1.5 IQR 或大于 Q3 + 1.5 IQR 的值。
    • MAD(中位数绝对偏差)法:对极端值更不敏感。
  • 机器学习方法:孤立森林、局部异常因子、DBSCAN聚类(将稀疏点视为异常)。

步骤2:诊断与理解(最关键的一步)

问自己:这个异常值是怎么产生的?

  • 数据错误:录入错误(多打一个0)、传感器故障、单位错误(米写成英尺)。处理方式:纠正、删除或视为缺失值。
  • 业务上的特殊事件:节日促销、系统故障、黑天鹅事件(如疫情)。处理方式:根据分析目标决定保留或分段处理。
  • 固有的数据特性:超高净值客户、罕见疾病患者、欺诈交易。处理方式:这常常是分析的重点!不能简单删除。

步骤3:选择处理方法(没有银弹)

根据诊断结果和分析目标选择:

A. 保留

  • 场景:分析目标就是异常检测(如欺诈识别),或异常值代表重要的子群体。
  • 做法:在建模时使用对异常值稳健的算法(如树模型),或为异常值单独建模。

B. 修正或替换

  • 场景:确认为错误,但有办法推断其合理值。
  • 做法:
    • 视为缺失值并用插补法处理。
    • 缩尾处理:将超出指定分位数(如1%和99%)的值用该分位数的值替换。
    • 边界替换:类似缩尾,用 Q1 - 1.5IQRQ3 + 1.5IQR 直接替换边界外的值。
    • 变换:使用对数、平方根等函数压缩数据范围,降低异常值的影响。

C. 删除

  • 场景:确认为错误且无法修正,或明确知道它与当前分析目标无关(且占比很小)。
  • 风险:可能丢失重要信息,破坏数据随机性,需谨慎。

不同业务场景的认知示例

  1. 电商销售分析

    • 异常值:一笔1元购买奢侈品的订单。
    • 诊断:可能是“刷单”或“测试订单”。
    • 处理:如果分析正常用户行为,则删除;如果分析反作弊,则这是核心样本。
  2. 金融风控

    • 异常值:深夜在异国的大额转账。
    • 诊断:可能是欺诈交易的关键信号。
    • 处理:必须保留,并作为风险模型最重要的特征。
  3. 产品质量控制

    • 异常值:生产线上某个零件的尺寸远超出规格。
    • 诊断:可能是机器故障或原材料缺陷。
    • 处理:删除该次测量(因为它是次品),并触发报警检查生产流程。

重要原则与误区

  • 原则
    • 业务逻辑优先于统计规则
    • 处理前务必记录:记录被处理的异常值数量、原因和方法,保证分析可复现。
    • 比较结果:尝试对比处理与不处理异常值时的模型效果,用数据驱动决策。
  • 误区
    • 盲目删除所有异常值:可能丢失了数据中最有趣的部分。
    • 不调查原因直接处理:这是最危险的。
    • 认为有“最好”的方法:方法取决于数据和问题。

建立系统认知

处理异常值是一项 “数据外科手术” ,需要:

  1. 敏锐的检测(找到它)。
  2. 严谨的诊断(理解它:是噪声还是信号?)。
  3. 审慎的决策(处理它:目标是什么?)。
  4. 完整的记录(追溯它)。

最终目标不是让数据看起来“干净”,而是让数据能够更真实、有效地服务于你的分析目标和业务决策

标签: 核心认知 异常值

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00