从确定性到概率性
- 传统AI(逻辑推理):世界是确定的,规则是:“如果A,那么B。” 结论是非真即假。
- 概率AI:世界是不确定的,知识表现为:“如果A,那么有 X% 的可能性 是B,有 Y% 的可能性 是C。” 它用概率来衡量信念的强度。
基础数学工具:概率论
这是概率AI的语言。

- 随机变量:表示我们感兴趣的不确定事件(如:
天气、传感器读数、用户意图),可以是离散的(晴/雨/阴)或连续的(温度值)。 - 概率分布:描述随机变量取不同值的可能性。
- 联合分布
P(X, Y):多个变量同时取特定值的概率,是知识的完整表达,但维度高时难以直接处理。 - 条件分布
P(X | Y):在已知Y发生的情况下,X发生的概率,这是推理的关键。
- 联合分布
- 贝叶斯法则:概率AI的“牛顿定律”。
[
P(H | E) = \frac{P(E | H) \cdot P(H)}{P(E)}
]
P(H):先验概率(在看到证据E之前,对假设H的信念)。P(E | H):似然(在假设H成立的情况下,看到证据E的可能性)。P(H | E):后验概率(在看到证据E之后,对假设H更新的信念)。- 核心思想:用观测到的证据(E) 来更新关于世界假设(H) 的信念。
核心模型:结构化表示
直接处理完整的联合分布不现实,因此需要高效的结构化模型。
-
贝叶斯网络:
- 是什么:一种有向无环图,节点是随机变量,边表示变量间的直接依赖关系。
- 核心:条件独立性,一个节点在给定其父节点的条件下,独立于其非后代节点,这极大地简化了联合分布的表示:
P(X1, X2, ..., Xn) = ∏ P(Xi | Parents(Xi)) - 作用:紧凑地表示领域知识,进行因果和诊断推理。
- 例子:医疗诊断网络(症状<-疾病->检验结果)。
-
马尔可夫模型与隐马尔可夫模型:
- 马尔可夫性质:未来状态只依赖于当前状态,与过去历史无关。
- HMM:用于时序数据,系统有一个不可观测的隐含状态序列,但能观察到由状态产生的观测序列。
- 应用:语音识别(状态=音素,观测=声学信号)、自然语言处理(词性标注)。
-
马尔可夫决策过程:
- 在马尔可夫模型中加入了动作和奖励,是强化学习的概率基础。
- 智能体通过尝试动作、观察状态转移和奖励,学习最优策略。
核心任务:推理与学习
-
概率推理:
- 任务:在给定模型和部分证据的情况下,计算某些未知变量的后验分布。
- 类型:
- 精确推理:如变量消元、联结树算法,适用于小网络。
- 近似推理:如马尔可夫链蒙特卡洛(MCMC)、变分推断,适用于大型复杂网络,通过采样或优化来逼近后验分布。
-
概率学习:
- 任务:从数据中学习模型的参数甚至结构。
- 类型:
- 参数学习:已知网络结构,从数据中学习条件概率表(CPT),常用最大似然估计或贝叶斯估计。
- 结构学习:从数据中学习变量间的依赖关系(即图结构),更具挑战性。
两大思想流派
- 频率主义:概率被解释为长期频率,参数是固定的未知量,通过数据进行估计。
- 贝叶斯主义:概率被解释为主观信念度,所有未知量(包括参数)都被视为随机变量,拥有先验分布,并通过数据更新为后验分布。概率AI主要根植于贝叶斯哲学。
关键应用领域
- 机器学习:
- 朴素贝叶斯分类器:基于贝叶斯定理的简单高效分类器。
- 高斯过程:用于回归和分类的非参数贝叶斯模型。
- 变分自编码器、扩散模型:深度生成模型的核心。
- 机器人学:卡尔曼滤波、粒子滤波用于在噪声传感器数据下进行定位与建图。
- 自然语言处理:主题模型(如LDA)、语言模型、机器翻译。
- 计算机视觉:目标识别、图像分割、三维重建。
- 医疗诊断:专家系统、风险预测。
- 金融:风险评估、算法交易。
总结与学习路径建议
概率AI = 贝叶斯思想 + 图模型表示 + (近似)推理算法 + 从数据中学习
入门建议:
- 巩固数学基础:重点掌握概率论(条件概率、贝叶斯定理)、线性代数和微积分。
- 理解核心模型:彻底搞懂贝叶斯网络和隐马尔可夫模型,它们是理解更复杂模型(如动态贝叶斯网络、条件随机场)的基石。
- 掌握推理与学习概念:明白“推理”和“学习”在概率框架下分别指什么,了解MCMC等基本近似方法的思想。
- 动手实践:使用
pgmpy(Python)、Stan等工具库在小型问题上构建模型并进行推理。
概率AI提供了一套强大、统一且数学严谨的框架,让机器能够像人类一样,在充满不确定性的世界中做出合理的判断,它是连接传统符号AI与现代数据驱动AI的重要桥梁。
版权声明:除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。