我们引入条件概率,最重要的原因是因为在客观世界中,有的时候我们获得不了普通概率,只能获得条件概率。
条件概率就是限定了条件,然后再讨论在固定的条件下,某件事情发生的概率。
在引入了条件概率之后,我们才有了独立性的概念,这些都是可以直观化的。
之所以在这一章介绍马尔科夫链,因为马尔科夫链中出现了大量条件概率。而且十分体现条件概率的思想。
马尔可夫性是命运的凌迟。时齐性是历史的嘲弄。初始分布是预言的收官。
一、条件概率
1.1 分类讨论
条件概率公式:
这个公式就很常见,不过正是因为其普遍性,我才忽略了其正确的意义,我们从来不会计算条件概率,我们只会用条件概率计算其他概率。而这种定义很容易让人有一种计算它的冲动,那么就落了下乘。
乘法公式:
乘法公式其实体现的是一种分布思想,就是说同时计算 $AB$ 发生的概率有些困难,但是计算事件 $B$ 的概率和在事件 $B$ 发生的前提下 $A$ 发生的概率就较容易,那么利用这个公式就可以很好计算。这里同样体现了条件概率是客观存在的,而普通概率是需要计算的思想。
全概率公式:
这里对事件组 ${B_i}$ 有要求,他们必须互斥,而且和事件是全集。可以看出,全概率公式就是乘法公式的拓展,它的分类讨论的思想更加明显,对于不同的条件事件 $B_i$ ,事件 $A$ 发生的概率。
1.2 破妄
贝叶斯公式:
如果只是数学推导的话,那么用乘法公式结合全概率公式就很容易就可以求出来,但是难点是在理解。所以我们把这个式子的变量换成一个更贴近实际的
其中 $H_i$ 是 hypothesis 即假设的缩写,而 $E$ 是 evidence 的缩写。对于一场实验,我们首先会做出多个假设,然后推导在诸多假设中 evidence 发生的概率,那么当我们做实验的时候,最后的结果是 evidence,那么我们希望得知真的 evidence 发生的时候,到底各个假设发生的概率是多少,即我们有多能相信我们的实验结果。
如果用医学检测做比较,我们在检测前就知道如果是病人真的有病的话($hypothesis_1$),那么检查结果是阳性($evidence$)的概率是多少,如果病人没有病的话($hypothesis_2$),那么检测结果是阳性($evidence$)的概率,那么当检测结果真的是阳性,我们现在想知道到的事情就是这个病人到底有没有病,我们应该做出怎样的判断。贝叶斯公式解决的就是这个问题。
二、马尔科夫链
2.1 命运的凌迟
设随机过程 ${X(t),t\in T}$ 的状态空间 $S$ 是有限集或可列集,如果对任意正整数 $n$ ,对于 $T$ 内任意 $n + 1$ 个参数 $t1<t_2<\cdots<t_n<t{n + 1}$ 和 $S$ 内任意个状态 $j1, j_2,\cdots,j_n, j{n+1}$ 条件概率
则此过程称为马尔科夫链,这个等式反映出的性质称为马尔科夫性或者后无效性。
马尔可夫性可以理解为在已知当前系统当前状态的条件下,系统将来的发展变化与系统的过去无关。这段话被各种励志书籍收录,说的意思都是“之前怎么样都无所谓,只要过好现在就好了”。但是我觉得这是不对的,后无效性的意思应该是影响下一状态的只能是当前状态,但是当前状态的取得却跟跟前一个状态有关,所以没有人可以摆脱过去。如果再说的详细写,我们得出的只是条件概率,但是条件概率不是真实的概率,我们还需要获得条件发生的概率,而这个概率是与过去息息相关的。我理解的马尔可夫性,是说,状态的转移是一步一步考虑的,换句话说,他是不可预料的,只有真的走到那一步,才能看到未来的下一步,而且仅仅能看到下一步的趋势,这不是一种幸运,而是一种不得不走下去的觉悟,是一种命运的凌迟。
2.2 转移概率
为了方便后面的种种应用或者推导,我们需要先定义一下标记写法,有
称为 $X(t)$ 在时刻 $t_m$ 时由状态 $i$ 经 $n$ 步转移到状态 $j$ 的 $n$ 步转移概率。这个写法一定要记清,因为以后会经常用到。
由这个概念可以引出科尔莫哥洛夫-查普曼方程,即
这是一个极难看懂而且还没啥用的方程,意思是说,如果想状态 $i$ 经由 $(n+l)$ 步到状态 $j$ ,那么分为两步,先由状态 $i$ 经由 $(n)$ 步到状态 $k$,然后再由状态 $k$ 经由 $(l)$ 步到状态 $j$。因为中间状态 $k$ 有很多种,每一条路径都是由可能的,而且是互斥的,所以对其进行一个累加,$k$ 需要遍历状态空间。
但是这个方程其实没法直接应用,毕竟我们不仅不知道 $p{ij}^{(n + l)}(t_m)$,我们还不知道 $p{ik}^{(n)}(tm),\space p{kj}^{(l)}(t_{m+n})$ 。所以其实这就是各递归的式子,只有将其递归到1步的情形,我们才方便计算。
2.3 历史的嘲弄
如果对任意的 $m$ ,有
那么就称此马尔可夫链具有齐次性或时齐性。也就是说,转移概率不再受时间参数的影响。就是说,这个状态无论发生在哪个时刻,决策都不会发生变化,就宛如那句名言 “人们能从历史中吸取的唯一教训,就是人们根本不会从历史吸取教训”。即使时间不同了,但是面对相同的境遇,人们还是会做出相同的选择,就好像没有记忆的金鱼一样。这就是历史的嘲弄。
2.4 预言的收官
首先定义绝对概率(或称为绝对概率)
可以看到,这个概率不再是条件概率,而是真实的概率,其实我们需要的就是这种概率,毕竟我们希望的某个时间真实的发生,而不是在我们臆想出的某个条件下,才能发生。此外,需要强调的是,我们一般不认为这是一个常量,而是将多个状态组合在一起组成一个行向量,也就是在这个状态下的概率分布。
当 $n = 0$ 的时候,此时称为初始分布,这里记为 $\pi_0$ 。由于马尔科夫链的诸多性质,初始分布与转移概率矩阵完全确定马尔科夫链的任何有限维分布,也就是
也可以写作更本质的
初始分布可以看做一个预言,而预言经过一步一步的前进,终于会迎来确定收官。
2.5 平稳分布
其实就是解一个方程
这个说明经过状态转移后,概率分布并不会发生改变,此时的 $\pi_0$ 称为平稳分布。