示例数据

星博讯 AI基础认知 2026-04-09 35

数据归一化 （Data Normalization）全面认知

基本概念

数据归一化是将不同量纲、不同范围的数据转换到统一尺度的过程，使所有特征具有可比性。

示例数据-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

主要目的与意义

目的	说明
消除量纲影响	避免“数值大的特征主导模型”的问题
加速模型收敛	梯度下降类算法（神经网络、SVM等）迭代更快
提高模型精度	某些模型（如KNN、K-means）基于距离计算，需要统一尺度
增强可比性	使不同特征对模型贡献均衡

常用归一化方法

（1）最小-最大归一化（Min-Max Scaling）

公式：X' = (X - X_min) / (X_max - X_min)
范围：[0, 1]
优点：简单直观，保持原始分布
缺点：对异常值敏感（极值影响大）
适用场景：数据分布无明显边界，要求结果在固定范围

（2）Z-score标准化（Standardization）

公式：X' = (X - μ) / σ（μ为均值，σ为标准差）
范围：均值为0，标准差为1（不一定在[0,1]）
优点：对异常值不敏感，保持原始分布形状
适用场景：数据近似正态分布，或存在异常值

（3）Robust Scaling（鲁棒归一化）

公式：X' = (X - median) / IQR（中位数和四分位距）
优点：抗异常值能力强
适用场景：数据中存在显著异常值

（4）MaxAbs Scaling

公式：X' = X / |X_max|
范围：[-1, 1]
优点：保持数据稀疏性
适用场景：稀疏数据或已有零中心数据

什么情况下需要归一化？

需要归一化的模型	原因	示例方法
基于距离的模型	距离计算受特征尺度影响	KNN、K-means、SVM（RBF核）
基于梯度的模型	加速收敛，避免权重更新震荡	神经网络、逻辑回归
PCA/LDA降维	方差大的特征会主导方向	主成分分析、线性判别分析
正则化模型	正则化项对特征尺度敏感	L1/L2正则化的线性模型

通常不需要归一化的模型	原因
树模型	基于分裂点选择，不受尺度影响
概率模型	关注概率分布而非绝对值
规则模型	基于条件判断

实践注意事项

训练集与测试集处理一致性
- 使用训练集的统计量（min/max/mean/std）对测试集归一化
- 避免数据泄露：fit_transform(X_trAIn) + transform(X_test)
分类型特征处理
- 独热编码（One-Hot Encoding）后通常不需要归一化
- 标签编码（Label Encoding）有时需要归一化
异常值影响评估
- 异常值可能使Min-Max归一化失效（压缩有效数据范围）
- 考虑使用Robust Scaling或先处理异常值
分布特性考虑
- 对于长尾分布,可考虑对数变换后再归一化
- 周期性数据（如角度）需要特殊处理

Python实现示例

from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler
import NumPy as np
X = np.array([[100, 0.1], [200, 0.2], [300, 0.3], [400, 0.4]])
# Min-Max归一化
scaler_mm = MinMaxScaler()
X_mm = scaler_mm.fit_transform(X)  # 结果在[0,1]
# Z-score标准化
scaler_std = StandardScaler()
X_std = scaler_std.fit_transform(X)  # 均值为0，标准差为1
# Robust Scaling
scaler_robust = RobustScaler()
X_robust = scaler_robust.fit_transform(X)  # 基于中位数和IQR