高斯分布(正态分布)基础

星博讯 AI基础认知 1

定义

高斯分布(又称正态分布)是最重要的连续概率分布之一,其概率密度函数为:

高斯分布(正态分布)基础-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

$$ f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$

  • $\mu$ 是均值(位置参数)
  • $\sigma^2$ 是方差(尺度参数)
  • $\sigma$ 是标准差

关键特性

形状特征

  • 钟形曲线:对称的单峰曲线
  • 对称性:关于均值 $\mu$ 对称
  • 渐近性:当 $x \to \pm\infty$ 时,$f(x) \to 0$
  • 拐点:位于 $x = \mu \pm \sigma$ 处

参数意义

  • 均值 $\mu$:决定分布的中心位置
  • 方差 $\sigma^2$:决定分布的离散程度
  • $\sigma$ 越大,曲线越扁平;$\sigma$ 越小,曲线越陡峭

标准正态分布

当 $\mu=0$,$\sigma=1$ 时: $$ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} $$ 任何正态分布 $X \sim N(\mu,\sigma^2)$ 可通过标准化转换: $$ Z = \frac{X-\mu}{\sigma} \sim N(0,1) $$

重要性质

经验法则(68-95-99.7规则)

  • $P(\mu - \sigma < X < \mu + \sigma) \approx 68.27\%$
  • $P(\mu - 2\sigma < X < \mu + 2\sigma) \approx 95.45\%$
  • $P(\mu - 3\sigma < X < \mu + 3\sigma) \approx 99.73\%$

矩特性

  • 均值:$E[X] = \mu$
  • 方差:$Var(X) = \sigma^2$
  • 偏度:0(完全对称)
  • 峰度:3(超额峰度=0)

可加性

若 $X_i \sim N(\mu_i, \sigmai^2)$ 且相互独立,则: $$ \sum{i=1}^n a_i Xi \sim N\left(\sum{i=1}^n a_i\mui, \sum{i=1}^n a_i^2\sigma_i^2\right) $$

分布函数与分位数

累积分布函数(CDF)

$$ F(x) = \Phi\left(\frac{x-\mu}{\sigma}\right) = \frac{1}{2}\left[1 + \text{erf}\left(\frac{x-\mu}{\sigma\sqrt{2}}\right)\right] $$ $\Phi(z)$ 是标准正态分布的CDF,erf是误差函数。

常用分位数

  • $z_{0.975} \approx 1.96$(95%双侧置信区间)
  • $z_{0.995} \approx 2.576$(99%双侧置信区间)
  • $z_{0.95} \approx 1.645$(95%单侧)

参数估计

最大似然估计

对于样本 $x_1, x_2, ..., x_n$:

  • $\hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$
  • $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$

无偏估计

  • $\hat{\mu}$ 是无偏的
  • 方差的无偏估计:$s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2$

中心极限定理的重要性

若 $X_1, X_2, ..., X_n$ 是独立同分布随机变量,均值为 $\mu$,方差为 $\sigma^2$,则: $$ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1) \quad \text{当 } n \to \infty $$ 这使得正态分布在统计推断中具有核心地位。

应用领域

  1. 自然科学:测量误差、物理现象
  2. 社会科学:身高、体重、测试分数
  3. 工程:质量控制、信号处理
  4. 金融:资产收益率建模(虽然实际常为厚尾分布)
  5. 机器学习:作为先验分布、误差假设

多元高斯分布

d维多元高斯分布: $$ f(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) $$ $\boldsymbol{\mu}$ 是均值向量,$\boldsymbol{\Sigma}$ 是协方差矩阵。

与其他分布的关系

  • 二项分布:$n$ 大时近似正态 $N(np, np(1-p))$
  • 泊松分布:$\lambda$ 大时近似正态 $N(\lambda, \lambda)$
  • t分布:自由度 $\nu \to \infty$ 时趋近标准正态
  • 卡方分布:$k$ 大时近似正态 $N(k, 2k)$

高斯分布因其数学性质优良、中心极限定理的支持以及在众多自然和社会现象中的普遍性,成为统计学和概率论中最重要的分布。

标签: 正态分布 概率密度函数

抱歉,评论功能暂时关闭!

微信咨询Xboxun188
QQ:1320815949
在线时间
10:00 ~ 2:00