定义
高斯分布(又称正态分布)是最重要的连续概率分布之一,其概率密度函数为:

$$ f(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$
- $\mu$ 是均值(位置参数)
- $\sigma^2$ 是方差(尺度参数)
- $\sigma$ 是标准差
关键特性
形状特征
- 钟形曲线:对称的单峰曲线
- 对称性:关于均值 $\mu$ 对称
- 渐近性:当 $x \to \pm\infty$ 时,$f(x) \to 0$
- 拐点:位于 $x = \mu \pm \sigma$ 处
参数意义
- 均值 $\mu$:决定分布的中心位置
- 方差 $\sigma^2$:决定分布的离散程度
- $\sigma$ 越大,曲线越扁平;$\sigma$ 越小,曲线越陡峭
标准正态分布
当 $\mu=0$,$\sigma=1$ 时: $$ \phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}} $$ 任何正态分布 $X \sim N(\mu,\sigma^2)$ 可通过标准化转换: $$ Z = \frac{X-\mu}{\sigma} \sim N(0,1) $$
重要性质
经验法则(68-95-99.7规则)
- $P(\mu - \sigma < X < \mu + \sigma) \approx 68.27\%$
- $P(\mu - 2\sigma < X < \mu + 2\sigma) \approx 95.45\%$
- $P(\mu - 3\sigma < X < \mu + 3\sigma) \approx 99.73\%$
矩特性
- 均值:$E[X] = \mu$
- 方差:$Var(X) = \sigma^2$
- 偏度:0(完全对称)
- 峰度:3(超额峰度=0)
可加性
若 $X_i \sim N(\mu_i, \sigmai^2)$ 且相互独立,则: $$ \sum{i=1}^n a_i Xi \sim N\left(\sum{i=1}^n a_i\mui, \sum{i=1}^n a_i^2\sigma_i^2\right) $$
分布函数与分位数
累积分布函数(CDF)
$$ F(x) = \Phi\left(\frac{x-\mu}{\sigma}\right) = \frac{1}{2}\left[1 + \text{erf}\left(\frac{x-\mu}{\sigma\sqrt{2}}\right)\right] $$ $\Phi(z)$ 是标准正态分布的CDF,erf是误差函数。
常用分位数
- $z_{0.975} \approx 1.96$(95%双侧置信区间)
- $z_{0.995} \approx 2.576$(99%双侧置信区间)
- $z_{0.95} \approx 1.645$(95%单侧)
参数估计
最大似然估计
对于样本 $x_1, x_2, ..., x_n$:
- $\hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$
- $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$
无偏估计
- $\hat{\mu}$ 是无偏的
- 方差的无偏估计:$s^2 = \frac{1}{n-1}\sum_{i=1}^n (x_i - \bar{x})^2$
中心极限定理的重要性
若 $X_1, X_2, ..., X_n$ 是独立同分布随机变量,均值为 $\mu$,方差为 $\sigma^2$,则: $$ \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \xrightarrow{d} N(0,1) \quad \text{当 } n \to \infty $$ 这使得正态分布在统计推断中具有核心地位。
应用领域
- 自然科学:测量误差、物理现象
- 社会科学:身高、体重、测试分数
- 工程:质量控制、信号处理
- 金融:资产收益率建模(虽然实际常为厚尾分布)
- 机器学习:作为先验分布、误差假设
多元高斯分布
d维多元高斯分布: $$ f(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) $$ $\boldsymbol{\mu}$ 是均值向量,$\boldsymbol{\Sigma}$ 是协方差矩阵。
与其他分布的关系
- 二项分布:$n$ 大时近似正态 $N(np, np(1-p))$
- 泊松分布:$\lambda$ 大时近似正态 $N(\lambda, \lambda)$
- t分布:自由度 $\nu \to \infty$ 时趋近标准正态
- 卡方分布:$k$ 大时近似正态 $N(k, 2k)$
高斯分布因其数学性质优良、中心极限定理的支持以及在众多自然和社会现象中的普遍性,成为统计学和概率论中最重要的分布。