基本定义
对于一个离散随机变量 (X),其可能的取值为 (x_1, x_2, \dots, x_n),对应的概率分布为 (P(X=x_i)=p_i)(满足 (pi \geq 0) 且 (\sum{i=1}^n p_i = 1)),则其信息熵定义为:

[ H(X) = -\sum_{i=1}^n p_i \log_2 p_i ]
单位是比特(bit)(当以2为底时),若使用自然对数,单位是奈特(nat)。
直观理解
-
不确定性度量
熵越大,表示系统的不确定性越高。- 极端情况:若某个 (p_i=1),其他为0,则 (H(X)=0)(完全确定)。
- 均匀分布时(所有 (p_i=1/n)),熵最大,值为 (\log_2 n)。
-
信息量
熵可以理解为“描述该随机变量所需的最小平均信息量”,一个公平硬币抛一次的结果,需要1比特(0或1)来编码。 -
编码意义
熵给出了无损压缩的极限:对来自分布 (P) 的数据进行编码,平均码长不可能低于 (H(X))(香农信源编码定理)。
主要性质
- 非负性:(H(X) \geq 0),等号成立当且仅当 (X) 是确定的。
- 可加性:若 (X) 和 (Y) 独立,则 (H(X,Y)=H(X)+H(Y))。
- 极值性:对于固定的 (n),均匀分布时熵最大,即 (H(X) \leq \log_2 n)。
- 条件熵:已知 (Y) 时 (X) 的不确定性为
[ H(X|Y)=\sum_y P(Y=y)H(X|Y=y) ] 且满足链式法则:(H(X,Y)=H(Y)+H(X|Y))。
其他相关概念
- 联合熵:多个随机变量的不确定性,(H(X,Y))。
- 互信息:衡量两个变量之间的相关性
[ I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) ] - 交叉熵:用于比较两个概率分布 (P) 和 (Q):
[ H(P,Q)=-\sum_i p_i \log q_i ] 在机器学习中常用作损失函数。 - KL散度(相对熵):衡量两个分布的差异:
[ D_{KL}(P|Q)=\sum_i p_i \log\frac{p_i}{q_i}=H(P,Q)-H(P) ]
简单例子
-
二项分布:硬币正面概率 (p),反面 (1-p)
[ H(X)=-p\log_2 p-(1-p)\log_2(1-p) ]
(p=0.5) 时熵最大(1 bit);(p=0) 或 (1) 时熵为0。 -
掷骰子:公平六面骰的熵为
[ H=-\sum_{i=1}^6 \frac{1}{6}\log_2\frac{1}{6}=\log_2 6\approx 2.585\ \text{bit} ]
应用领域
- 数据压缩:ZIP、PNG等无损压缩算法的理论极限。
- 通信:信道容量的计算(香农第二定理)。
- 机器学习:决策树(ID3、C4.5)使用信息增益(即互信息)选择分裂特征。
- 自然语言处理:语言模型困惑度与熵相关。
- 密码学:衡量密码系统的安全性(密钥不确定性)。
信息熵本质上是对不确定性的数学度量,它建立了概率、信息与编码之间的桥梁,是现代数字信息处理的基石之一。