信息熵是信息论中最核心的概念，用于量化信息的不确定性或随机性。它由克劳德·香农于1948年提出，是通信、数据压缩、密码学、机器学习等领域的理论基础

星博讯 AI基础认知 2026-04-09 1

基本定义

对于一个离散随机变量 (X)，其可能的取值为 (x_1, x_2, \dots, x_n)，对应的概率分布为 (P(X=x_i)=p_i)（满足 (pi \geq 0) 且 (\sum{i=1}^n p_i = 1)），则其信息熵定义为：

信息熵是信息论中最核心的概念，用于量化信息的不确定性或随机性。它由克劳德·香农于1948年提出，是通信、数据压缩、密码学、机器学习等领域的理论基础-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

[ H(X) = -\sum_{i=1}^n p_i \log_2 p_i ]

单位是比特（bit）（当以2为底时），若使用自然对数，单位是奈特（nat）。

直观理解

不确定性度量
熵越大，表示系统的不确定性越高。
- 极端情况：若某个 (p_i=1)，其他为0，则 (H(X)=0)（完全确定）。
- 均匀分布时（所有 (p_i=1/n)），熵最大，值为 (\log_2 n)。
信息量
熵可以理解为“描述该随机变量所需的最小平均信息量”，一个公平硬币抛一次的结果，需要1比特（0或1）来编码。
编码意义
熵给出了无损压缩的极限：对来自分布 (P) 的数据进行编码，平均码长不可能低于 (H(X))（香农信源编码定理）。

主要性质

非负性：(H(X) \geq 0)，等号成立当且仅当 (X) 是确定的。
可加性：若 (X) 和 (Y) 独立，则 (H(X,Y)=H(X)+H(Y))。
极值性：对于固定的 (n)，均匀分布时熵最大，即 (H(X) \leq \log_2 n)。
条件熵：已知 (Y) 时 (X) 的不确定性为
[ H(X|Y)=\sum_y P(Y=y)H(X|Y=y) ] 且满足链式法则：(H(X,Y)=H(Y)+H(X|Y))。

其他相关概念

联合熵：多个随机变量的不确定性，(H(X,Y))。
互信息：衡量两个变量之间的相关性
[ I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) ]
交叉熵：用于比较两个概率分布 (P) 和 (Q)：
[ H(P,Q)=-\sum_i p_i \log q_i ] 在机器学习中常用作损失函数。
KL散度（相对熵）：衡量两个分布的差异：
[ D_{KL}(P|Q)=\sum_i p_i \log\frac{p_i}{q_i}=H(P,Q)-H(P) ]

简单例子

二项分布：硬币正面概率 (p)，反面 (1-p)
[ H(X)=-p\log_2 p-(1-p)\log_2(1-p) ]
(p=0.5) 时熵最大（1 bit）；(p=0) 或 (1) 时熵为0。
掷骰子：公平六面骰的熵为
[ H=-\sum_{i=1}^6 \frac{1}{6}\log_2\frac{1}{6}=\log_2 6\approx 2.585\ \text{bit} ]

应用领域

数据压缩：ZIP、PNG等无损压缩算法的理论极限。
通信：信道容量的计算（香农第二定理）。
机器学习：决策树（ID3、C4.5）使用信息增益（即互信息）选择分裂特征。
自然语言处理：语言模型困惑度与熵相关。
密码学：衡量密码系统的安全性（密钥不确定性）。

信息熵本质上是对不确定性的数学度量，它建立了概率、信息与编码之间的桥梁，是现代数字信息处理的基石之一。

标签：信息熵信息论

本文地址： https://xingboxun.cn/post/3825.html

版权声明：除非特别标注，否则均为本站原创文章，转载时请以链接形式注明文章出处。

上一篇一、核心思想，衡量两个概率分布的差异

下一篇相似度计算的核心思想是，将对象（物品、用户、文本、图像等）量化为数学上可计算的形式（通常是向量）然后定义一个度量函数，来计算两个向量之间的距离或相似程度

抱歉，评论功能暂时关闭!

微信咨询Xboxun188

QQ:1320815949

在线时间
10:00 ~ 2:00