# 概率推断


### 概率推断 (Probabilistic Inference)

概率推断涉及在不确定性面前进行推理。与布尔逻辑（只处理确定性陈述）不同，现实世界的结果很少非黑即白。概率推断的核心过程是通过观察新信息，将一个事物的先验信念更新为后验信念。

例如，如果知道“下雨则地面湿”，但观察到“没有下雨”，逻辑上无法得出确定结论（地面仍可能因洒水器而湿），但概率推断会得出“地面湿的可能性变小了”这一可信推断（plausible inference）。

**贝叶斯规则是中心原则：**

进行概率推断的中心原则是贝叶斯规则：

$$p(x | y) = \frac{p(y | x) \cdot p(x)}{p(y)} \text{}$$

其中每个术语的含义如下：

* $p(x)$：**先验**（Prior）。是对 $x$ 的初始信念。
* $p(y | x)$：**似然**（Likelihood）。描述了在给定 $x$ 的情况下，观察到 $y$ 的可能性。
* $p(x | y)$：**后验**（Posterior）。是在观察到 $y$ 之后，对 $x$ 更新后的信念。
* $p(y)$：**边缘似然**（Marginal Likelihood）。描述了 $y$ 在所有 $x$ 值上发生的总可能性，也被称为归一化常数。它通过对联合似然 $p(x, y)$ 在 $x$ 上进行积分（或求和）来计算。

**推断的类型：**

可信推断与逻辑推断不同，但如果逻辑推断是允许的，它会与概率推断的结果相一致。逻辑推断（如从“地面是干的”推断出“没有下雨”）不需要先验概念。然而，可信推断（即在不确定下进行判断）则需要先验信念的参与。

### 共轭先验 (Conjugate Priors)

这一节主要解释了如何通过选择特定的先验分布来简化数学计算。

* **核心定义**：如果先验分布 $p(x)$ 与后验分布 $p(x|y)$ 属于同一种分布族，那么这个先验分布就称为对应似然函数 $p(y|x)$ 的共轭先验。
* **计算优势**：这种性质非常理想，因为它允许我们通过简单的代数更新参数，从而递归地应用相同的学习算法。例如，高斯分布在已知方差的情况下具有自共轭性，即高斯先验加上高斯似然仍会得到高斯后验。

**Beta 分布与二项分布的共轭性**

这个例子展示了共轭先验在实际计算中的具体应用：

* **场景设定**：假设我们在进行二项试验（如抛硬币），似然函数是二项分布（Binomial），用于计算在给定成功概率 $\theta$ 时出现 $k$ 次正面的可能性。
* **先验选择**：我们选择 Beta 分布 作为 $\theta$ 的先验分布，其参数为 $(\alpha, \beta)$。
* **后验更新**：根据贝叶斯规则计算后，得到的后验分布依然是一个 Beta 分布，其参数更新为 $(\alpha &#43; n_H, \beta &#43; n_T)$，其中 $n_H$ 是正面次数，$n_T$ 是反面次数。
* **结论**：这个例子说明，对于这类问题，我们不需要进行复杂的积分计算，只需要将观察到的统计量（正面和反面次数）累加到先验参数上即可完成推断。这种共轭关系还可以泛化到多维情况，如 Dirichlet 分布与多项分布（Multinomial）的共轭性。


---

> 作者: [Wenqian](https://github.com/Pi-Xu)  
> URL: https://pi-xu.github.io/pages-zn/posts/2025-12-18-prob-inference/