一、核心思想,用结果反推原因

星博讯 AI基础认知 1

极大似然估计是一种在统计学中估计模型参数的方法,它的核心思想非常直观,甚至有点“马后炮”:

一、核心思想,用结果反推原因-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

已经发生的事情,最有可能是由最可能让它发生的那个原因所导致的。

换句话说,我们观察到了一组数据(结果),我们假设这组数据是由某个特定的概率模型(比如正态分布)生成的,这个模型有一些未知的参数(比如正态分布的均值 μ 和方差 σ²),MLE 要做的就是: 找到一组参数值,使得在这组参数下,我们“观察到当前这组数据”这件事发生的可能性(似然)是最大的。

一个经典的例子:抛硬币

假设我们有一枚硬币,我们想知道它正面朝上的概率 p(p 就是我们想估计的参数),我们抛了10次,结果是:7次正面,3次反面

  • 步骤1:建立模型 单次抛硬币是一个伯努利试验,结果服从伯努利分布,抛10次,就是一个二项分布,出现 k 次正面的概率公式为: P(出现k次正面 | p) = C(10, k) * p^k * (1-p)^(10-k) p 是未知参数。

  • 步骤2:写出似然函数 “似然”可能性”,我们现在已经观察到了结果 k=7,我们把上面的概率公式看作是参数 p 的函数,这就是似然函数 L(p)L(p) = C(10, 7) * p^7 * (1-p)^3C(10,7) 是一个常数,不影响求极值)

  • 步骤3:寻找使似然函数最大的 p 我们的目标是找到哪个 p 能让 L(p) 取到最大值,直觉上,如果硬币是公平的(p=0.5),得到7正3反的概率并不高;如果硬币本身就很偏(p=0.7),那得到这个结果的概率就大多了。 为了求解,通常对似然函数取对数(变成对数似然函数 ℓ(p) = ln L(p)),因为乘积取对数会变成求和,更容易求导。 ℓ(p) = 7*ln(p) + 3*ln(1-p) + 常数

  • 步骤4:求导解方程ℓ(p) p 求导,令其等于0: dℓ(p)/dp = 7/p - 3/(1-p) = 0 解得:7*(1-p) = 3*p -> 7 = 10*p -> p = 0.7

  • 根据极大似然估计,这枚硬币正面朝上的概率 p 的最优估计值是 0.7,因为在所有可能的 p (0到1之间) 中,当 p=0.7 时,我们观察到“7正3反”这一特定结果的可能性是最大的

数学定义与一般步骤

  1. 给定

    • 一组独立同分布的观测数据:X = (x₁, x₂, ..., xₙ)
    • 一个假设的概率模型(概率分布):P(X | θ)θ 是待估计的未知参数(可以是单个值,也可以是向量)。
  2. 构建似然函数

    • 由于数据独立,联合概率等于概率乘积,似然函数定义为参数 θ 的函数: L(θ | X) = P(x₁ | θ) * P(x₂ | θ) * ... * P(xₙ | θ)
  3. 最大化似然函数

    • 我们的目标是找到使 L(θ | X) 最大的参数值 θ_hat,即: θ_MLE = argmax L(θ | X)
    • 实践中,通常最大化对数似然函数 ℓ(θ) = log L(θ),因为计算更简单: ℓ(θ) = Σ log P(xᵢ | θ)
  4. 求解

    • ℓ(θ) 求导(或求偏导),令导数等于零,解方程得到 θ_MLE
    • 有时无法得到解析解,需要使用梯度下降等数值优化方法。

重要特性与评价

  • 一致性强相合性:当样本量 n 趋于无穷大时,MLE 估计出的参数会收敛到真实参数值。
  • 渐近正态性:在大样本下,MLE 的估计量近似服从正态分布,其方差可以达到 Cramér-Rao 下界(即所有无偏估计器中方差最小的那个),这意味着它是渐近有效的。
  • 不变性θ_MLE 是 θ 的 MLE,那么对于任意函数 g,g(θ_MLE) 也是 g(θ) 的 MLE,这个性质非常有用。
  • 可能是有偏的:在小样本情况下,MLE 可能是有偏估计,正态分布方差的 MLE 是有偏的(通常会除以 n 而不是 n-1),但可以通过修正变为无偏。

与最小二乘法的关系

  • 对于线性回归模型,如果其误差项服从正态分布,那么极大似然估计的结果与最小二乘法完全等价,最小二乘法是寻找参数使“误差平方和”最小,而在正态误差的假设下,这恰好等价于最大化似然函数。

总结与比喻

你可以把 MLE 想象成一个侦探

  1. 现场(数据):发生了罪案(我们观测到一组数据)。
  2. 嫌疑人(参数):有几个可能的凶手(不同的参数值 θ)。
  3. 推理原则(MLE):侦探认为,最有可能的凶手,就是那个最可能造成眼前这个犯罪现场的人,他会问:“假设凶手是张三(θ=θ₁),他制造出这个现场的可能性有多大?假设是李四(θ=θ₂)呢?……”
  4. 定罪(估计):侦探选择那个“可能性”最大的嫌疑人作为他的估计。

极大似然估计是一种强大、直观且理论性质优良的参数估计方法,它是现代统计学和机器学习(尤其是监督学习模型,如逻辑回归、高斯混合模型等)的基石之一。

标签: 核心思想 结果反推原因

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00