一、核心思想，用结果反推原因

星博讯 AI基础认知 2026-04-09 1

极大似然估计是一种在统计学中估计模型参数的方法，它的核心思想非常直观，甚至有点“马后炮”：

一、核心思想，用结果反推原因-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

已经发生的事情，最有可能是由最可能让它发生的那个原因所导致的。

换句话说，我们观察到了一组数据（结果），我们假设这组数据是由某个特定的概率模型（比如正态分布）生成的，这个模型有一些未知的参数（比如正态分布的均值 μ 和方差 σ²），MLE 要做的就是： 找到一组参数值，使得在这组参数下，我们“观察到当前这组数据”这件事发生的可能性（似然）是最大的。

一个经典的例子：抛硬币

假设我们有一枚硬币，我们想知道它正面朝上的概率 p（p 就是我们想估计的参数），我们抛了10次，结果是：7次正面，3次反面。

步骤1：建立模型 单次抛硬币是一个伯努利试验，结果服从伯努利分布，抛10次，就是一个二项分布，出现 k 次正面的概率公式为： P(出现k次正面 | p) = C(10, k) * p^k * (1-p)^(10-k) p 是未知参数。
步骤2：写出似然函数 “似然”可能性”，我们现在已经观察到了结果 k=7，我们把上面的概率公式看作是参数 p 的函数，这就是似然函数 L(p)： L(p) = C(10, 7) * p^7 * (1-p)^3 （C(10,7) 是一个常数,不影响求极值）
步骤3：寻找使似然函数最大的 p 我们的目标是找到哪个 p 能让 L(p) 取到最大值，直觉上，如果硬币是公平的（p=0.5），得到7正3反的概率并不高；如果硬币本身就很偏（p=0.7），那得到这个结果的概率就大多了。为了求解，通常对似然函数取对数（变成对数似然函数 ℓ(p) = ln L(p)），因为乘积取对数会变成求和，更容易求导。 ℓ(p) = 7*ln(p) + 3*ln(1-p) + 常数
步骤4：求导解方程 对 ℓ(p) p 求导，令其等于0： dℓ(p)/dp = 7/p - 3/(1-p) = 0 解得：7*(1-p) = 3*p -> 7 = 10*p -> p = 0.7
根据极大似然估计，这枚硬币正面朝上的概率 p 的最优估计值是 0.7，因为在所有可能的 p (0到1之间) 中，当 p=0.7 时，我们观察到“7正3反”这一特定结果的可能性是最大的。

给定：
- 一组独立同分布的观测数据：X = (x₁, x₂, ..., xₙ)
- 一个假设的概率模型（概率分布）：P(X | θ)，θ 是待估计的未知参数（可以是单个值，也可以是向量）。
构建似然函数：
- 由于数据独立，联合概率等于概率乘积，似然函数定义为参数 θ 的函数： L(θ | X) = P(x₁ | θ) * P(x₂ | θ) * ... * P(xₙ | θ)
最大化似然函数：
- 我们的目标是找到使 L(θ | X) 最大的参数值 θ_hat，即： θ_MLE = argmax L(θ | X)
- 实践中，通常最大化对数似然函数 ℓ(θ) = log L(θ)，因为计算更简单： ℓ(θ) = Σ log P(xᵢ | θ)
求解：
- 对 ℓ(θ) 求导（或求偏导），令导数等于零，解方程得到 θ_MLE。
- 有时无法得到解析解,需要使用梯度下降等数值优化方法。

一致性强相合性：当样本量 n 趋于无穷大时，MLE 估计出的参数会收敛到真实参数值。
渐近正态性：在大样本下，MLE 的估计量近似服从正态分布，其方差可以达到 Cramér-Rao 下界（即所有无偏估计器中方差最小的那个），这意味着它是渐近有效的。
不变性：θ_MLE 是 θ 的 MLE，那么对于任意函数 g，g(θ_MLE) 也是 g(θ) 的 MLE,这个性质非常有用。
可能是有偏的：在小样本情况下，MLE 可能是有偏估计，正态分布方差的 MLE 是有偏的（通常会除以 n 而不是 n-1）,但可以通过修正变为无偏。

对于线性回归模型，如果其误差项服从正态分布，那么极大似然估计的结果与最小二乘法完全等价，最小二乘法是寻找参数使“误差平方和”最小，而在正态误差的假设下,这恰好等价于最大化似然函数。

你可以把 MLE 想象成一个侦探：

现场（数据）：发生了罪案（我们观测到一组数据）。
嫌疑人（参数）：有几个可能的凶手（不同的参数值 θ）。
推理原则（MLE）：侦探认为，最有可能的凶手，就是那个最可能造成眼前这个犯罪现场的人，他会问：“假设凶手是张三（θ=θ₁），他制造出这个现场的可能性有多大？假设是李四（θ=θ₂）呢？……”
定罪（估计）：侦探选择那个“可能性”最大的嫌疑人作为他的估计。

极大似然估计是一种强大、直观且理论性质优良的参数估计方法，它是现代统计学和机器学习（尤其是监督学习模型，如逻辑回归、高斯混合模型等）的基石之一。