极大似然估计是一种在统计学中估计模型参数的方法,它的核心思想非常直观,甚至有点“马后炮”:

已经发生的事情,最有可能是由最可能让它发生的那个原因所导致的。
换句话说,我们观察到了一组数据(结果),我们假设这组数据是由某个特定的概率模型(比如正态分布)生成的,这个模型有一些未知的参数(比如正态分布的均值 μ 和方差 σ²),MLE 要做的就是: 找到一组参数值,使得在这组参数下,我们“观察到当前这组数据”这件事发生的可能性(似然)是最大的。
一个经典的例子:抛硬币
假设我们有一枚硬币,我们想知道它正面朝上的概率 p(p 就是我们想估计的参数),我们抛了10次,结果是:7次正面,3次反面。
-
步骤1:建立模型 单次抛硬币是一个伯努利试验,结果服从伯努利分布,抛10次,就是一个二项分布,出现 k 次正面的概率公式为:
P(出现k次正面 | p) = C(10, k) * p^k * (1-p)^(10-k)p是未知参数。 -
步骤2:写出似然函数 “似然”可能性”,我们现在已经观察到了结果
k=7,我们把上面的概率公式看作是参数p的函数,这就是似然函数L(p):L(p) = C(10, 7) * p^7 * (1-p)^3(C(10,7)是一个常数,不影响求极值) -
步骤3:寻找使似然函数最大的 p 我们的目标是找到哪个
p能让L(p)取到最大值,直觉上,如果硬币是公平的(p=0.5),得到7正3反的概率并不高;如果硬币本身就很偏(p=0.7),那得到这个结果的概率就大多了。 为了求解,通常对似然函数取对数(变成对数似然函数ℓ(p) = ln L(p)),因为乘积取对数会变成求和,更容易求导。ℓ(p) = 7*ln(p) + 3*ln(1-p) + 常数 -
步骤4:求导解方程 对
ℓ(p)p求导,令其等于0:dℓ(p)/dp = 7/p - 3/(1-p) = 0解得:7*(1-p) = 3*p->7 = 10*p->p = 0.7 -
根据极大似然估计,这枚硬币正面朝上的概率 p 的最优估计值是 0.7,因为在所有可能的 p (0到1之间) 中,当 p=0.7 时,我们观察到“7正3反”这一特定结果的可能性是最大的。
数学定义与一般步骤
-
给定:
- 一组独立同分布的观测数据:
X = (x₁, x₂, ..., xₙ) - 一个假设的概率模型(概率分布):
P(X | θ),θ是待估计的未知参数(可以是单个值,也可以是向量)。
- 一组独立同分布的观测数据:
-
构建似然函数:
- 由于数据独立,联合概率等于概率乘积,似然函数定义为参数 θ 的函数:
L(θ | X) = P(x₁ | θ) * P(x₂ | θ) * ... * P(xₙ | θ)
- 由于数据独立,联合概率等于概率乘积,似然函数定义为参数 θ 的函数:
-
最大化似然函数:
- 我们的目标是找到使
L(θ | X)最大的参数值θ_hat,即:θ_MLE = argmax L(θ | X) - 实践中,通常最大化对数似然函数
ℓ(θ) = log L(θ),因为计算更简单:ℓ(θ) = Σ log P(xᵢ | θ)
- 我们的目标是找到使
-
求解:
- 对
ℓ(θ)求导(或求偏导),令导数等于零,解方程得到θ_MLE。 - 有时无法得到解析解,需要使用梯度下降等数值优化方法。
- 对
重要特性与评价
- 一致性强相合性:当样本量 n 趋于无穷大时,MLE 估计出的参数会收敛到真实参数值。
- 渐近正态性:在大样本下,MLE 的估计量近似服从正态分布,其方差可以达到 Cramér-Rao 下界(即所有无偏估计器中方差最小的那个),这意味着它是渐近有效的。
- 不变性:
θ_MLE是 θ 的 MLE,那么对于任意函数 g,g(θ_MLE)也是g(θ)的 MLE,这个性质非常有用。 - 可能是有偏的:在小样本情况下,MLE 可能是有偏估计,正态分布方差的 MLE 是有偏的(通常会除以 n 而不是 n-1),但可以通过修正变为无偏。
与最小二乘法的关系
- 对于线性回归模型,如果其误差项服从正态分布,那么极大似然估计的结果与最小二乘法完全等价,最小二乘法是寻找参数使“误差平方和”最小,而在正态误差的假设下,这恰好等价于最大化似然函数。
总结与比喻
你可以把 MLE 想象成一个侦探:
- 现场(数据):发生了罪案(我们观测到一组数据)。
- 嫌疑人(参数):有几个可能的凶手(不同的参数值 θ)。
- 推理原则(MLE):侦探认为,最有可能的凶手,就是那个最可能造成眼前这个犯罪现场的人,他会问:“假设凶手是张三(θ=θ₁),他制造出这个现场的可能性有多大?假设是李四(θ=θ₂)呢?……”
- 定罪(估计):侦探选择那个“可能性”最大的嫌疑人作为他的估计。
极大似然估计是一种强大、直观且理论性质优良的参数估计方法,它是现代统计学和机器学习(尤其是监督学习模型,如逻辑回归、高斯混合模型等)的基石之一。