信息熵是信息论中最核心的概念,用于量化信息的不确定性或随机性。它由克劳德·香农于1948年提出,是通信、数据压缩、密码学、机器学习等领域的理论基础

星博讯 AI基础认知 1

基本定义

对于一个离散随机变量 (X),其可能的取值为 (x_1, x_2, \dots, x_n),对应的概率分布为 (P(X=x_i)=p_i)(满足 (pi \geq 0) 且 (\sum{i=1}^n p_i = 1)),则其信息熵定义为:

信息熵是信息论中最核心的概念,用于量化信息的不确定性或随机性。它由克劳德·香农于1948年提出,是通信、数据压缩、密码学、机器学习等领域的理论基础-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

[ H(X) = -\sum_{i=1}^n p_i \log_2 p_i ]

单位是比特(bit)(当以2为底时),若使用自然对数,单位是奈特(nat)


直观理解

  1. 不确定性度量
    熵越大,表示系统的不确定性越高。

    • 极端情况:若某个 (p_i=1),其他为0,则 (H(X)=0)(完全确定)。
    • 均匀分布时(所有 (p_i=1/n)),熵最大,值为 (\log_2 n)。
  2. 信息量
    熵可以理解为“描述该随机变量所需的最小平均信息量”,一个公平硬币抛一次的结果,需要1比特(0或1)来编码。

  3. 编码意义
    熵给出了无损压缩的极限:对来自分布 (P) 的数据进行编码,平均码长不可能低于 (H(X))(香农信源编码定理)。


主要性质

  1. 非负性:(H(X) \geq 0),等号成立当且仅当 (X) 是确定的。
  2. 可加性:若 (X) 和 (Y) 独立,则 (H(X,Y)=H(X)+H(Y))。
  3. 极值性:对于固定的 (n),均匀分布时熵最大,即 (H(X) \leq \log_2 n)。
  4. 条件熵:已知 (Y) 时 (X) 的不确定性为
    [ H(X|Y)=\sum_y P(Y=y)H(X|Y=y) ] 且满足链式法则:(H(X,Y)=H(Y)+H(X|Y))。

其他相关概念

  1. 联合熵:多个随机变量的不确定性,(H(X,Y))。
  2. 互信息:衡量两个变量之间的相关性
    [ I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) ]
  3. 交叉熵:用于比较两个概率分布 (P) 和 (Q):
    [ H(P,Q)=-\sum_i p_i \log q_i ] 在机器学习中常用作损失函数。
  4. KL散度(相对熵):衡量两个分布的差异:
    [ D_{KL}(P|Q)=\sum_i p_i \log\frac{p_i}{q_i}=H(P,Q)-H(P) ]

简单例子

  1. 二项分布:硬币正面概率 (p),反面 (1-p)
    [ H(X)=-p\log_2 p-(1-p)\log_2(1-p) ]
    (p=0.5) 时熵最大(1 bit);(p=0) 或 (1) 时熵为0。

  2. 掷骰子:公平六面骰的熵为
    [ H=-\sum_{i=1}^6 \frac{1}{6}\log_2\frac{1}{6}=\log_2 6\approx 2.585\ \text{bit} ]


应用领域

  • 数据压缩:ZIP、PNG等无损压缩算法的理论极限。
  • 通信:信道容量的计算(香农第二定理)。
  • 机器学习:决策树(ID3、C4.5)使用信息增益(即互信息)选择分裂特征。
  • 自然语言处理:语言模型困惑度与熵相关。
  • 密码学:衡量密码系统的安全性(密钥不确定性)。

信息熵本质上是对不确定性的数学度量,它建立了概率、信息与编码之间的桥梁,是现代数字信息处理的基石之一。

标签: 信息熵 信息论

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00