概率推断 - Wenqian's blog

2025-12-18 约 1100 字预计阅读 3 分钟

概率推断涉及在不确定性面前进行推理。与布尔逻辑（只处理确定性陈述）不同，现实世界的结果很少非黑即白。概率推断的核心过程是通过观察新信息，将一个事物的先验信念更新为后验信念。

例如，如果知道“下雨则地面湿”，但观察到“没有下雨”，逻辑上无法得出确定结论（地面仍可能因洒水器而湿），但概率推断会得出“地面湿的可能性变小了”这一可信推断（plausible inference）。

贝叶斯规则是中心原则：

进行概率推断的中心原则是贝叶斯规则：

$$p(x | y) = \frac{p(y | x) \cdot p(x)}{p(y)} \text{}$$

其中每个术语的含义如下：

$p(x)$：先验（Prior）。是对 $x$ 的初始信念。
$p(y | x)$：似然（Likelihood）。描述了在给定 $x$ 的情况下，观察到 $y$ 的可能性。
$p(x | y)$：后验（Posterior）。是在观察到 $y$ 之后，对 $x$ 更新后的信念。
$p(y)$：边缘似然（Marginal Likelihood）。描述了 $y$ 在所有 $x$ 值上发生的总可能性，也被称为归一化常数。它通过对联合似然 $p(x, y)$ 在 $x$ 上进行积分（或求和）来计算。

推断的类型：

可信推断与逻辑推断不同，但如果逻辑推断是允许的，它会与概率推断的结果相一致。逻辑推断（如从“地面是干的”推断出“没有下雨”）不需要先验概念。然而，可信推断（即在不确定下进行判断）则需要先验信念的参与。

这一节主要解释了如何通过选择特定的先验分布来简化数学计算。

核心定义：如果先验分布 $p(x)$ 与后验分布 $p(x|y)$ 属于同一种分布族，那么这个先验分布就称为对应似然函数 $p(y|x)$ 的共轭先验。
计算优势：这种性质非常理想，因为它允许我们通过简单的代数更新参数，从而递归地应用相同的学习算法。例如，高斯分布在已知方差的情况下具有自共轭性，即高斯先验加上高斯似然仍会得到高斯后验。

Beta 分布与二项分布的共轭性

这个例子展示了共轭先验在实际计算中的具体应用：

场景设定：假设我们在进行二项试验（如抛硬币），似然函数是二项分布（Binomial），用于计算在给定成功概率 $\theta$ 时出现 $k$ 次正面的可能性。
先验选择：我们选择 Beta 分布作为 $\theta$ 的先验分布，其参数为 $(\alpha, \beta)$。
后验更新：根据贝叶斯规则计算后，得到的后验分布依然是一个 Beta 分布，其参数更新为 $(\alpha + n_H, \beta + n_T)$，其中 $n_H$ 是正面次数，$n_T$ 是反面次数。
结论：这个例子说明，对于这类问题，我们不需要进行复杂的积分计算，只需要将观察到的统计量（正面和反面次数）累加到先验参数上即可完成推断。这种共轭关系还可以泛化到多维情况，如 Dirichlet 分布与多项分布（Multinomial）的共轭性。