概率推断
目录
概率推断 (Probabilistic Inference)
概率推断涉及在不确定性面前进行推理。与布尔逻辑(只处理确定性陈述)不同,现实世界的结果很少非黑即白。概率推断的核心过程是通过观察新信息,将一个事物的先验信念更新为后验信念。
例如,如果知道“下雨则地面湿”,但观察到“没有下雨”,逻辑上无法得出确定结论(地面仍可能因洒水器而湿),但概率推断会得出“地面湿的可能性变小了”这一可信推断(plausible inference)。
贝叶斯规则是中心原则:
进行概率推断的中心原则是贝叶斯规则:
$$p(x | y) = \frac{p(y | x) \cdot p(x)}{p(y)} \text{}$$其中每个术语的含义如下:
- $p(x)$:先验(Prior)。是对 $x$ 的初始信念。
- $p(y | x)$:似然(Likelihood)。描述了在给定 $x$ 的情况下,观察到 $y$ 的可能性。
- $p(x | y)$:后验(Posterior)。是在观察到 $y$ 之后,对 $x$ 更新后的信念。
- $p(y)$:边缘似然(Marginal Likelihood)。描述了 $y$ 在所有 $x$ 值上发生的总可能性,也被称为归一化常数。它通过对联合似然 $p(x, y)$ 在 $x$ 上进行积分(或求和)来计算。
推断的类型:
可信推断与逻辑推断不同,但如果逻辑推断是允许的,它会与概率推断的结果相一致。逻辑推断(如从“地面是干的”推断出“没有下雨”)不需要先验概念。然而,可信推断(即在不确定下进行判断)则需要先验信念的参与。
共轭先验 (Conjugate Priors)
这一节主要解释了如何通过选择特定的先验分布来简化数学计算。
- 核心定义:如果先验分布 $p(x)$ 与后验分布 $p(x|y)$ 属于同一种分布族,那么这个先验分布就称为对应似然函数 $p(y|x)$ 的共轭先验。
- 计算优势:这种性质非常理想,因为它允许我们通过简单的代数更新参数,从而递归地应用相同的学习算法。例如,高斯分布在已知方差的情况下具有自共轭性,即高斯先验加上高斯似然仍会得到高斯后验。
Beta 分布与二项分布的共轭性
这个例子展示了共轭先验在实际计算中的具体应用:
- 场景设定:假设我们在进行二项试验(如抛硬币),似然函数是二项分布(Binomial),用于计算在给定成功概率 $\theta$ 时出现 $k$ 次正面的可能性。
- 先验选择:我们选择 Beta 分布 作为 $\theta$ 的先验分布,其参数为 $(\alpha, \beta)$。
- 后验更新:根据贝叶斯规则计算后,得到的后验分布依然是一个 Beta 分布,其参数更新为 $(\alpha + n_H, \beta + n_T)$,其中 $n_H$ 是正面次数,$n_T$ 是反面次数。
- 结论:这个例子说明,对于这类问题,我们不需要进行复杂的积分计算,只需要将观察到的统计量(正面和反面次数)累加到先验参数上即可完成推断。这种共轭关系还可以泛化到多维情况,如 Dirichlet 分布与多项分布(Multinomial)的共轭性。