概率论基础 1
概率空间的三要素
概率论为了建立一个严谨的随机实验数学模型——概率空间 $(\Omega, \mathcal{A}, P)$,需要定义三个核心部分:
1. 样本空间 ($\Omega$)
样本空间 $\Omega$ 是指实验所有可能结果的集合。
2. $\sigma$-代数(事件空间 $\mathcal{A}$)的定义
$\sigma$-代数 $\mathcal{A}$ 是我们感兴趣的所有事件(即 $\Omega$ 的子集)的集合。它必须满足以下三个关键属性:
- 它必须包含所有可能的结果(即 $\Omega \in \mathcal{A}$)。
- 如果一个事件 $A$ 属于 $\mathcal{A}$,那么其补集(即 $A$ 不发生)也必须属于 $\mathcal{A}$(封闭性)。
- 如果一系列事件 $A_i$ 都属于 $\mathcal{A}$,那么它们的 可数并集 (即可数个事件中至少发生一个)也必须属于 $\mathcal{A}$(封闭性)。
事件空间 $\mathcal{A}$ 可以被理解为“关于实验的多少信息是可用的”。例如,在掷骰子的实验中,如果样本空间 $\Omega = \{1, 2, \dots, 6\}$,一个只包含 $\{\emptyset, \Omega, \{1, 3, 5\}, \{2, 4, 6\}\}$ 的事件空间 $\mathcal{A}$ 意味着观察者无法区分 $1$ 和 $3$,他们只能了解点数的奇偶性。
3. 概率测度 ($P$) 的定义
概率测度 $P$ 是定义在事件空间 $\mathcal{A}$ 上的一个函数 ($P: \mathcal{A} \to \mathbb{R}$),它必须满足 柯尔莫哥洛夫公理:
- 非负性:任何事件 $A \in \mathcal{A}$ 的概率都在 $0$ 到 $1$ 之间 ($0 \le P(A) \le 1$)。
- 规范性:所有可能结果的总概率为 $1$ ($P(\Omega) = 1$)。
- 可数可加性:对于任何可数的、相互不相交的事件集合 $\{A_i\}$,它们的并集的概率等于各自概率的总和。
为什么需要 $\sigma$-代数?
$\sigma$-代数存在的目的是为了给概率测度提供一个可操作的、逻辑一致的定义域,尤其在处理连续随机变量时。
- 保证逻辑连贯性: $\sigma$-代数的定义确保了我们可以对“事件发生”、“事件不发生”以及“多个事件中至少一个发生”进行一致的推理。
- 处理连续性: 当样本空间 $\Omega$ 是连续的(例如实数集 $\mathbb{R}$),$\Omega$ 的所有子集(幂集 $P(\Omega)$)数量过于庞大,不可能为所有子集都赋予一个合乎逻辑的概率。
- 连接随机变量: $\sigma$-代数是定义随机变量(一个将实验结果映射到数值的函数)的必要条件。它确保了我们能为随机变量的任何“合理”取值范围(如区间)计算概率,因为这些取值范围在原样本空间中的对应事件必须是 $\mathcal{A}$ 中的有效事件。
随机变量
好的,我们来讨论随机变量(Random Variable)。
随机变量 $X$ 本质上是一个函数。
它将随机实验的每个可能结果 $\omega$(来自样本空间 $\Omega$)映射到一个目标空间 $\mathcal{T}$ (通常是实数 $\mathbb{R}$)。
$$X: \Omega \to \mathcal{T}$$随机变量的主要作用是将随机实验的复杂结果转化为我们可以用数值进行处理和分析的属性。
定义随机变量最关键的要求是它必须尊重事件空间 $\mathcal{A}$ 中可用的信息:
- 对于目标空间 $\mathcal{T}$ 中的任何子集 $S$ (即我们感兴趣的任何数值范围),所有映射到 $S$ 的结果 $\omega$ 的集合,即 $\{ \omega \in \Omega : X(\omega) \in S \}$,必须是 $\mathcal{A}$ 中的一个有效事件。
只有满足这个“可测性”条件,我们才能计算随机变量 $X$ 取值于 $S$ 的概率 $P(X \in S)$。
好的,我们已经讨论了概率空间 $(\Omega, \mathcal{A}, P)$ 的构建基础(样本空间、$\sigma$-代数和概率测度),以及随机变量作为连接结果与数值的函数。现在我们来具体定义离散随机变量和连续随机变量,并给出教材中的例子。
随机变量的类型和分布
随机变量 $X$ 的核心作用是把随机实验的结果 $\omega \in \Omega$ 映射到目标空间 $\mathcal{T}$ (通常是实数 $\mathbb{R}$)。根据随机变量 $X$ 取值集合 $\mathcal{T}$ 的性质,我们将其分为离散型和连续型:
离散随机变量 (Discrete Random Variables)
如果随机变量 $X$ 只能取有限个或可数无限个值(例如整数),则称其为离散随机变量。我们使用概率质量函数(Probability Mass Function, PMF)来描述其分布。
$$ p_X(x) \triangleq P(X = x) $$PMF 必须满足 $0 \le p_X(x) \le 1$ 且 $\sum_{x} p_X(x) = 1$。
离散分布的例子:
| 分布名称 | 描述 | PMF 的关键参数 |
|---|---|---|
| 伯努利分布 (Bernoulli) | 描述(有偏差的)抛硬币,结果为 $\{0, 1\}$。 | 成功的概率 $p \in$。 |
| 二项分布 (Binomial) | 描述 $n$ 次独立伯努利试验中成功的次数。 | 试验次数 $n$,成功概率 $p$。 |
| 分类分布 (Categorical) | 描述(有偏差的)掷 $m$ 面骰子,结果为 $[m]$。 | 概率向量 $p_1, \dots, p_m$,其中 $\sum p_i = 1$。 |
| 多项分布 (Multinomial) | 描述 $n$ 次独立分类试验中每种结果出现的次数。 | 试验次数 $n$,类别数 $m$,概率向量 $p_1, \dots, p_m$。 |
连续随机变量 (Continuous Random Variables)
如果随机变量 $X$ 可以在一个不可数的集合(例如一个区间或整个实数集 $\mathbb{R}$)中取值,则称其为连续随机变量。我们使用概率密度函数(Probability Density Function, PDF)来描述其分布。
核心区别: 对于连续变量,任意单个点的概率 $P(X=x)$ 总是 $0$。我们必须对 PDF 进行积分,才能得到变量落入某一区间或集合 $S$ 的概率:
$$P(X \in S) = \int_S p_X(x) dx$$$p_X(x)$ 可以类比于物理学中的密度 $\rho(x)$。虽然任何特定点 $x$ 的质量 $m(\{x\})$ 为零,但密度 $\rho(x)$ 对于计算区域 $I$ 的总质量 $m(I) = \int_I \rho(x) dx$ 是有用的。
定义:累积分布函数 (CDF)
$$P_X(x) \triangleq P(X \le x)$$联合概率与边缘化
联合概率(Joint Probability)是关于两个或多个事件同时发生的概率。在随机变量的背景下,这个概念被延伸为联合分布(Joint Distribution),它是进行概率人工智能中所有推理的基础。
联合分布描述了一个随机向量 $\mathbf{X} = [X_1 \cdots X_n]^\top$ 的行为,其中 $X_i$ 是单个随机变量。
- 定义: 联合分布 $p_{\mathbf{X}}$ 是一个函数 $p_{\mathbf{X}}: \mathbb{R}^n \to \mathbb{R}$。对于离散变量,它描述了所有变量同时取特定值时的联合概率,例如 $P(X_1=x_1, \ldots, X_n=x_n)$。
- 作用: 联合分布描述了所有变量 $X_i$ 之间的关系,因此它也被称为生成模型(Generative Model)。
边缘化是从联合分布中移除(或“积分掉”)一个或多个变量,以求得剩余变量的边缘分布的过程。
这个操作被称为求和法则(Sum Rule):
$$ p(x_{1:i-1}, x_{i+1:n}) = \int_{X_i(\Omega)} p(x_{1:i-1}, x_i, x_{i+1:n}) dx_i $$其中,我们通过对不感兴趣的变量 $X_i$ 在其所有可能取值(样本空间 $X_i(\Omega)$)上进行积分(或求和,如果 $X_i$ 是离散的)来得到边缘分布 $p(x_{1:i-1}, x_{i+1:n})$。