示例数据

星博讯 AI基础认知 2026-04-09 1

一句话核心定义

独热编码是一种将分类数据（特别是名义分类数据）转换为数值格式的方法，以便计算机和机器学习算法能够处理，它的核心是为每个类别创建一个新的二进制特征（列），对于每个样本，只有属于该类别对应的特征位为“1”（热），其他所有特征位都为“0”（冷）。

示例数据-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

为什么要用独热编码？

机器学习和许多统计模型（如线性回归、逻辑回归、支持向量机等）的输入通常是数值，但现实数据中经常包含像“颜色”（红、绿、蓝）、“城市”（北京、上海、广州）、“动物类型”（猫、狗、鸟）这样的文本类别。

如果我们简单地将这些类别映射为数字（红=1，绿=2，蓝=3），会引入一个错误的数值关系，即模型会误认为“蓝色(3)比红色(1)‘多’，或者绿色(2)是红色和蓝色的中间值”，这种顺序和距离信息在名义分类中是不存在的。

独热编码彻底消除了这种错误的数值关系，它告诉模型：“这些类别是平等的、互斥的，没有顺序和大小之分。”

工作原理：一个简单例子

假设我们有一个包含“动物类型”特征的数据集：

样本	动物（原始）
1	猫
2	狗
3	鸟
4	猫
5	狗

第一步：找出所有不重复的类别 这里有三个类别：猫、狗、鸟。

第二步：为每个类别创建一个新的二进制列 我们将创建三个新列：动物_猫、动物_狗、动物_鸟。

第三步：对每个样本进行编码 如果样本的原始动物是“猫”，则在动物_猫列下写“1”，在动物_狗和动物_鸟列下写“0”，以此类推。

编码后的结果：

样本	动物_猫	动物_狗	动物_鸟
1	1	0	0
2	0	1	0
3	0	0	1
4	1	0	0
5	0	1	0

可以看到,每一行有且仅有一个“1”，其他位置都是“0”，这就是“独热”的含义。

关键特点与注意事项

消除顺序偏见：如上所述，这是最主要的目的。
维度爆炸（缺点）：如果某个分类特征的类别非常多（邮政编码”、“用户ID”），独热编码会创建出大量新的特征列，导致数据维度急剧增加，影响模型训练效率和内存消耗，这被称为“维度诅咒”。
多重共线性问题：编码后的新特征是线性相关的（知道了动物_猫和动物_狗都是0，就一定能推出动物_鸟是1），对于某些模型（如线性回归），这可能会带来问题，解决办法通常是删除其中一列（例如删除动物_鸟），这被称为“虚拟编码（Dummy Encoding）”，删除后，被删除的类别（动物_鸟）就成为了“基准类别”。
适用于名义分类，而非有序分类：
- 名义分类：类别间无顺序（如国家、品牌、颜色）。最适合用独热编码。
- 有序分类：类别间有明确顺序（如教育程度：小学<中学<大学），可以考虑使用标签编码（Label Encoding） 或有序数值映射，以保留顺序信息。

在Python中的实现

使用最广泛的机器学习库 scikit-learn 可以轻松实现：

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
data = pd.DataFrame({'动物': ['猫', '狗', '鸟', '猫', '狗']})
# 创建OneHotEncoder对象
# `sparse_output=False` 表示返回密集数组（通常Pandas DataFrame）
# `drop='first'` 可选，用于进行虚拟编码，删除第一列以避免共线性
encoder = OneHotEncoder(sparse_output=False, drop=None)
# 拟合（学习类别）和转换数据
encoded_array = encoder.fit_transform(data[['动物']])
# 获取新列的名称
feature_names = encoder.get_feature_names_out(['动物'])  # 输出：['动物_猫' '动物_狗' '动物_鸟']
# 将数组转换为DataFrame，方便查看
encoded_df = pd.DataFrame(encoded_array, columns=feature_names)
print(encoded_df)

输出：

   动物_猫  动物_狗  动物_鸟
0   1.0   0.0   0.0
1   0.0   1.0   0.0
2   0.0   0.0   1.0
3   1.0   0.0   0.0
4   0.0   1.0   0.0

pandas 库也有一个简便方法 pd.get_dummies()：

encoded_df = pd.get_dummies(data, columns=['动物'], prefix='动物')
print(encoded_df)

特性	描述
目的	将无序的分类特征转换为数值形式，消除错误顺序关系。
方法	为每个类别创建一个新的二进制（0/1）特征列。
优点	简单有效，保证类别间的平等性，被大多数模型支持。
缺点	高基数类别会导致维度爆炸。可能引入多重共线性。
适用场景	处理名义分类变量，且类别数量不太多时。
替代方案	对于高基数类别，可考虑：目标编码频率编码使用能处理类别输入的模型（如树模型 LightGBM, CatBoost）对于深度学习，可以使用嵌入层。