概率论基础 2
条件概率
条件概率是在我们获得某些新信息(即观察到某个事件发生)后,对另一个事件发生可能性的更新。
给定两个事件 $A$ 和 $B$,且 $P(B) > 0$,在 $B$ 发生的前提下 $A$ 发生的概率定义为 $P(A | B)$:
$$P(A | B) \triangleq \frac{P(A, B)}{P(B)}$$其中 $P(A, B)$ 是事件 $A$ 和 $B$ 同时发生(即联合概率)的概率 $P(A \cap B)$。
条件概率可以直观地理解为:将所有可能的结果集合(样本空间 $\Omega$)替换为我们观察到的结果 $B$。此时,$P(A | B)$ 表达的是在 $B$ 发生的情况下,$A$ 发生的可能性。
乘积法则(Product Rule)
通过简单地重新排列条件概率的定义项,我们可以得到乘积法则(或称概率链式法则):
$$P(A, B) = P(A | B) \cdot P(B) = P(B | A) \cdot P(A)$$这表明 $A$ 和 $B$ 同时发生的概率,可以通过 $A$ 发生的概率乘以在 $A$ 发生的条件下 $B$ 发生的概率来计算。
将此法则推广到任意随机向量 $X_{1:n}$,我们得到乘积法则(链式法则)的联合分布形式:
$$p(x_{1:n}) = p(x_1) \cdot \prod_{i=2}^n p(x_i | x_{1:i-1})$$随机变量的条件分布
条件概率的概念也扩展到了随机变量的条件分布。如果我们给定 $Y=y$ 发生,随机变量 $X$ 的条件分布 $p_{X|Y}(x | y)$ 定义如下:
$$\pi(x | y) \triangleq \frac{p_{X,Y}(x, y)}{p_Y(y)}$$如果 $X$ 和 $Y$ 是离散的,那么 $p_{X|Y}(x | y) = P(X = x | Y = y)$,这符合我们的直觉预期。
独立性 (Independence)
独立性描述的是两个或多个随机变量之间缺乏关联的状态。
定义:两个随机向量 $X$ 和 $Y$ 是独立的(记作 $X \perp Y$),当且仅当对其中一个随机向量状态的了解不影响另一个随机向量的分布。
这种独立性可以通过以下两种等价的方式来表征:
- 条件分布不变:它们的条件累积分布函数(CDF)或条件概率密度函数(PDF)简化为边缘分布: $$P_{X|Y}(x | y) = P_X(x) \quad \text{或} \quad p_{X|Y}(x | y) = p_X(x)$$ (要使条件概率有定义,需要假设 $p_Y(y) > 0$。)
- 联合分布可分解:它们的联合 CDF 或联合 PDF 可以分解为各自边缘分布的乘积: $$P_{X,Y}(x, y) = P_X(x) \cdot P_Y(y) \quad \text{或} \quad p_{X,Y}(x, y) = p_X(x) \cdot p_Y(y)$$
通过乘积法则 $p_{X,Y}(x, y) = p_Y(y) \cdot p_{X|Y}(x | y)$,可以很容易证明这两种表征在 $p_Y(y) > 0$ 时是等价的。
条件独立性 (Conditional Independence)
定义:给定一个随机向量 $Z$,两个随机向量 $X$ 和 $Y$ 是条件独立的(记作 $X \perp Y | Z$),当且仅当在给定 $Z$ 的值之后,对其中一个随机向量 $Y$ 状态的了解不影响另一个随机向量 $X$ 的分布:
$$P_{X|Y,Z}(x | y, z) = P_{X|Z}(x | z) \quad \text{或} \quad p_{X|Y,Z}(x | y, z) = p_{X|Z}(x | z)$$$$p_{X,Y|Z}(x, y | z) = p_{X|Z}(x | z) \cdot p_{Y|Z}(y | z)$$条件独立性不一定意味着独立性,反之亦然。
- 条件独立性并不蕴含独立性:一个简单的例子是 $X \perp X | X$ 成立,但 $X \perp X$ 显然不成立。
- 独立性也不蕴含条件独立性:例如,如果 $X$ 和 $Y$ 独立,但给定 $X+Y$ 的值后,它们就不再独立了。
条件独立性是一个‘较弱’的概念:即使 $X$ 和 $Y$ 是依赖的(不独立),通过对“正确”的 $Z$ 进行条件化,我们也可以使它们变得(条件)独立。这被称为 Reichenbach 的共同原因原理 (Reichenbach’s common cause principle):
对于任意两个不独立的随机变量 $X$ 和 $Y$(即 $X \not\perp Y$),存在一个随机变量 $Z$(它可能是 $X$ 或 $Y$ 本身),它在因果上影响 $X$ 和 $Y$,并且使得 $X \perp Y | Z$。
换句话说,$Z$ 充当了 $X$ 和 $Y$ 之间关联的“共同原因”,一旦我们考虑到 $Z$ 的影响,它们之间的关联就被解除了。
独立性和条件独立性是理解有向图模型(贝叶斯网络)的基础,有向图模型正是用图形方式表示大量随机变量之间(条件)独立关系的工具。
期望 (Expectation)
期望值,通常用 $E[X]$ 表示,是随机变量 $X$ 的(渐进)算术平均值。它衡量了随机变量的中心趋势或平均值。
定义:随机向量 $X$ 的期望值 $E[X]$ 定义为:
$$E[X] \triangleq \int_{X(\Omega)} x \cdot p(x) dx$$(其中 $p(x)$ 是 $X$ 的概率密度函数(PDF)或概率质量函数(PMF)。如果 $X$ 是离散的,则用求和代替积分。)
关键性质:
- 线性性(Linearity):这是期望值的一个非常特殊且常用的性质。对于任何随机向量 $X$ 和 $Y$,以及矩阵 $A$ 和向量 $b$,期望值满足线性性: $$E[AX + b] = AE[X] + b$$ $$E[X + Y] = E[X] + E[Y]$$ 请注意,即使 $X$ 和 $Y$ 不独立,该性质也成立。
- 独立性下的乘积:如果 $X$ 和 $Y$ 独立,则 $E[XY^\top] = E[X] \cdot E[Y]^\top$。
- 函数变换的期望 (LOTUS)
随机变量 $X$ 经过函数 $g$ 变换后的期望,可以通过对 $X$ 的概率分布 $p(x)$ 进行积分(或求和)来计算。这被称为无意识统计学家法则 (Law of the Unconscious Statistician, LOTUS):
- $E[g(X)] = \int_{X(\Omega)} g(x) \cdot p(x) dx$
- 对于离散随机变量,只需用求和代替积分。
- 全期望定律(Law of Total Expectation, LOTE)或塔式法则(Tower Rule)
条件期望本身是一个随机变量 $E[X | Y]$。对这个条件期望再求期望,结果等于原始变量 $X$ 的期望:
- $E_Y[E_X[X | Y]] = E[X]$
协方差 (Covariance)
协方差衡量两个随机向量之间线性依赖关系的强度和方向。
$$\text{Cov}[X, Y] \triangleq E[(X - E[X])(Y - E[Y])^\top]$$通过展开,也可以表示为 $E[XY^\top] - E[X] \cdot E[Y]^\top$。
关键性质:
- 对称性:$\text{Cov}[X, Y]$ 是 $\text{Cov}[Y, X]^\top$。
- 线性变换:对于线性映射 $A$ 和 $B$ 以及向量 $c$ 和 $d$,协方差满足 $\text{Cov}[AX + c, BY + d] = A\text{Cov}[X, Y]B^\top$。
- 不相关性:如果 $\text{Cov}[X, Y] = 0$,则称 $X$ 和 $Y$ 不相关。
- 独立性与不相关性:如果 $X$ 和 $Y$ 独立,则它们必定不相关(即 $\text{Cov}[X, Y] = 0$)。但反之不成立(不相关通常不蕴含独立性)。
方差 (Variance)
方差 $\text{Var}[X]$ 是一个随机向量 $X$ 与自身的协方差。它衡量了 $X$ 值的不确定性,即 $X$ 偏离其均值 $E[X]$ 的平均平方偏差。
$$\text{Var}[X] \triangleq \text{Cov}[X, X]$$$$\text{Var}[X] = E[(X - E[X])(X - E[X])^\top]$$- 方差矩阵:对于随机向量 $X \in \mathbb{R}^n$,$\text{Var}[X]$ 是一个 $n \times n$ 矩阵,通常被称为协方差矩阵 $\Sigma_X$。该矩阵是对称且始终是正半定的。
- 线性变换:对于任何线性映射 $A$ 和向量 $b$,$\text{Var}[AX + b] = A\text{Var}[X]A^\top$。
- 和的方差:对于两个随机向量 $X$ 和 $Y$,$\text{Var}[X + Y] = \text{Var}[X] + \text{Var}[Y] + 2\text{Cov}[X, Y]$。如果 $X$ 和 $Y$ 独立,则协方差项消失。
- 标准差:方差的平方根 $\sigma[X] = \sqrt{\text{Var}[X]}$ 称为标准差。
总方差定律 (Law of Total Variance)
总方差定律 (LOTV) 将随机变量的方差分解为两个部分,这在处理不确定性时非常有用。
$$\text{Var}[X] = E_Y[\text{Var}_X[X | Y]] + \text{Var}_Y[E_X[X | Y]]$$- 第一项 $\text{Var}_X[X | Y]$ 衡量了给定 $Y$ 时 $X$ 剩余的平均偏差。
- 第二项 $\text{Var}_Y[E_X[X | Y]]$ 衡量了给定 $Y$ 时的平均预测(条件期望)的偏差。
在贝叶斯深度学习中,这两个术语分别对应于偶然不确定性(Aleatoric Uncertainty)和认知不确定性(Epistemic Uncertainty)。
总方差定律与两种不确定性联系
在贝叶斯深度学习 (Bayesian Deep Learning) 的上下文中,我们通常想要预测新数据点 $y^{\ast}$ 的值,给定输入 $x^{\ast}$ 和所有训练数据 $D$,以及我们对模型参数 $\theta$ 的不确定性。
这里的随机变量 $X$ 就是我们想要预测的 $y^{\ast}$,而 $Y$ 则是模型参数 $\theta$。
$$ \text{Var}[y^{\ast} | x^{\ast}, D] = \underbrace{E_{\theta|D}[\text{Var}_{y^{\ast}}[y^{\ast} | x^{\ast}, \theta]]}_{\text{偶然不确定性}} + \underbrace{\text{Var}_{\theta|D}[E_{y^{\ast}}[y^{\ast} | x^{\ast}, \theta]]}_{\text{认知不确定性}} $$偶然不确定性(Aleatoric Uncertainty)
对应项: $E_{\theta|D}[\text{Var}_{y^{\ast}}[y^{\ast} | x^{\ast}, \theta]]$
- 含义: 这一项是 $y^{\ast}$ 的条件方差 $\text{Var}_{y^{\ast}}[y^{\ast} | x^{\ast}, \theta]$,即给定一个确定的模型 $\theta$ 后,输出 $y^{\ast}$ 中仍然存在的变异性。我们对所有可能的模型 $\theta$ (由后验分布 $P(\theta|D)$ 加权) 求取这个内部方差的期望。
- 物理意义: 它衡量的是数据中固有的、不可约减的噪声,例如观测误差或结果的内在随机性。无论我们学得多好,这部分噪声总是存在的。
- 在模型中的体现: 它是给定模型参数 $f$ 或 $\theta$ 时,预测 $y^{\ast}$ 中剩余的平均偏差。在贝叶斯线性回归中,这对应于 $\sigma^2_n$ (标签噪声)。
认知不确定性(Epistemic Uncertainty)
对应项: $\text{Var}_{\theta|D}[E_{y^{\ast}}[y^{\ast} | x^{\ast}, \theta]]$
- 含义: 这一项是 $y^{\ast}$ 条件期望 $E_{y^{\ast}}[y^{\ast} | x^{\ast}, \theta]$ 的方差。它衡量的是由于我们不确定哪个模型 $\theta$ 是正确的,导致模型平均预测值之间的差异程度。
- 物理意义: 它源于我们缺乏数据来确定最佳模型参数 $\theta$。
- 在模型中的体现: 它衡量的是不同模型 $\theta$ 之间平均预测(条件期望)的偏差。如果模型在某个区域的数据不足,则后验分布 $P(\theta|D)$ 会很宽,导致此项方差很大,即模型对 $x^{\ast}$ 的预测不确定。
通过 LOTV,我们将总不确定性(左侧 $\text{Var}[y^{\ast} | x^{\ast}, D]$)分解成了模型内部的噪声(偶然)和模型本身的不确定性(认知)。
变量变换公式(Change of Variables Formula)
如果 $X$ 是一个在 $\mathbb{R}^n$ 空间上具有密度 $p_X(x)$ 的随机向量,并且 $g: \mathbb{R}^n \to \mathbb{R}^n$ 是一个可微且可逆的函数,那么经过 $g$ 变换后的随机向量 $Y = g(X)$ 的密度 $p_Y(y)$ 可以通过以下公式计算:
$$p_Y(y) = p_X(g^{-1}(y)) \cdot \left|\det(D g^{-1}(y))\right|$$其中, $D g^{-1}(y)$ 是 $g$ 的逆函数 $g^{-1}$ 在 $y$ 处的雅可比矩阵。
- 原密度项 $p_X(g^{-1}(y))$: 这一项是 $X$ 在 $Y$ 对应的原像点 $g^{-1}(y)$ 处的密度值。
- 雅可比校正因子 $\left|\det(D g^{-1}(y))\right|$: 雅可比矩阵的行列式衡量了函数 $g$ 引起的体积或区域的收缩或扩张程度。
- 当计算 $Y$ 的概率时,我们需要对 $X$ 的原区域进行积分。这个因子确保了在坐标系从 $X$ 转换到 $Y$ 时,概率质量(即密度乘以体积)被正确地保留下来。
- 这种变换也被称为 $g$ 在 $p_X$ 上的推移(pushforward)。