在概率论与统计学中，边缘分布是一个非常核心且基础的概念，它描述的是在多元随机变量的联合分布中，只关心其中一部分变量的概率分布

星博讯 AI基础认知 2026-04-09 1

就是把“多变量”问题简化成“单变量”或“更少变量”问题。

在概率论与统计学中，边缘分布是一个非常核心且基础的概念，它描述的是在多元随机变量的联合分布中，只关心其中一部分变量的概率分布-第1张图片-星博讯网络科技知识-SEO优化技巧|AI知识科普|互联网行业干货大全

核心思想：“边缘化”

理解边缘分布的关键在于理解 “边缘化” 这个操作，它是指通过对联合分布中不关心的变量进行求和（离散型）或积分（连续型）来“消除”这些变量，从而得到我们关心的变量的分布。

为什么叫“边缘”？ 这个术语源自早期统计学中列联表的表示方法，在二维概率表的边缘（底部和右侧）会列出单一行或列的总和，这些总和就代表了单个变量的分布，因此得名“边缘分布”。

假设有两个随机变量 X 和 Y，它们的联合概率分布（或密度函数）已知。

联合概率质量函数：( P(X = x_i, Y = y_j) )
X 的边缘概率质量函数：通过对所有可能的 ( Y ) 值求和得到。 [ P(X = xi) = \sum{j} P(X = x_i, Y = y_j) ]
Y 的边缘概率质量函数：通过对所有可能的 ( X ) 值求和得到。 [ P(Y = yj) = \sum{i} P(X = x_i, Y = y_j) ]

联合概率密度函数：( f_{X,Y}(x, y) )
X 的边缘概率密度函数：通过对 ( y ) 进行积分得到。 [ fX(x) = \int{-\infty}^{\infty} f_{X,Y}(x, y) \, dy ]
Y 的边缘概率密度函数：通过对 ( x ) 进行积分得到。 [ fY(y) = \int{-\infty}^{\infty} f_{X,Y}(x, y) \, dx ]

假设我们研究一个班级学生的身高（X） 和最喜欢的颜色（Y，离散）。

联合分布表可能如下（数字为概率）：

身高\颜色	蓝色 (B)	红色 (R)	边缘分布 (身高)
高 (T)	2	1	3
中 (M)	25	2	45
矮 (S)	15	1	25
边缘分布 (颜色)	6	4	0

如何解读？

联合概率：( P(X=T, Y=B) = 0.2 )，即“身高高且喜欢蓝色”的概率是20%。
X的边缘分布：表格最右侧一列，我们只关心身高，不管颜色，身高高”的概率是多少？把“高”这一行所有的概率加起来：( 0.2 + 0.1 = 0.3 )，这就是身高变量 X 的边缘分布。
Y的边缘分布：表格最下面一行，我们只关心颜色，不管身高，喜欢蓝色”的概率是多少？把“蓝色”这一列所有的概率加起来：( 0.2 + 0.25 + 0.15 = 0.6 )，这就是颜色变量 Y 的边缘分布。

这个“相加求和得到边缘列和边缘行”的过程，就是边缘化——在求X的分布时，我们“边缘化”了（或整合掉了）变量Y。

这是一个常见的混淆点,需要清晰区分：

在上表中：

简化复杂问题：面对多变量系统时，边缘分布让我们能单独分析其中任何一个变量，这是理解和建模复杂世界的基础工具。
贝叶斯统计的核心：在贝叶斯推断中，我们常对参数的后验分布感兴趣，但后验分布可能是高维的，我们经常需要计算某个特定参数的边缘后验分布，这涉及对模型中所有其他参数进行积分。
机器学习与图模型：在概率图模型（如贝叶斯网络、马尔可夫随机场）中，推断的核心任务之一就是计算某些节点变量的边缘分布。
独立性判断的基础：两个随机变量独立的定义是：它们的联合分布等于各自边缘分布的乘积，计算边缘分布是检验独立性的第一步。

边缘分布 就是从多变量联合分布中“聚焦”于单个（或部分）变量，通过边缘化（求和或积分）消除其他变量影响后得到的分布，它是：