Hidden Markov Model
在哲学的意义上,这是人类认识的一个飞跃!
马尔可夫模型是一个并不复杂,且在自然语言处理领域最为快捷有效的方法,它通过概率的计算解决了生活中看似困难的问题。
通信模型
首先来看经典的通信模型,由Roman Jakobson提出通信的6要素:发送者、信道、接收者、信息、上下文、编码。
Encoder <–> Decoder 信息流通
那么问题就是如何根据接收端的信息 $o_1,o_2,o_3,…$ 来推测发送端的信息 $s_1,s_2,s_3,…$ 这个问题就转化为概率的问题。
即求最大的 $P(s_1,s_2,s_3,…|o_1,o_2,o_3,…)$,则最大的概率所代表的发送信息就是最有可能传过来的信息(但是这也不是一定的)。
上述公式也可以等价为:
$$\mathbf{\frac{P(s_1,s_2,s_3,…|o_1,o_2,o_3,…) \cdot P(s_1,s_2,s_3,…)}{p(o_1,o_2,o_3,…)} {\large } }$$
在贪心情况下我们认为此时的 $s_1,s_2,s_3,…$ 就是结果,但现实往往出现问题,这就导致了Attention
的出现(大名鼎鼎的Transformer
)。
隐马尔可夫模型
由于在随机过程中,都可能产生随即状态,这样就有了两个维度的不确定性。
为了简化所以马尔可夫认为每个随机状态不再是随机的,而是只与前一个状态有关。
即 $P(s_t|s_1,s_2,s_3,…,s_{t-1}) = P(s_t|s_{t-1})$,这就是马尔科夫链的数学假设。
隐马尔可夫模型在此基础增加每个时刻的输出 $o_t$,通过 $o_t$ :
我们便能计算某个时刻状态$s_1,s_2,s_3,…$产生输出$o_1,o_2,o_3,…$的概率:
$ P(s_1,s_2,s_3,…|o_1,o_2,o_3,…)$ = $ \prod_{t}p(s_t|s_{t-1})\cdot p(o_t|s_t)$ ,
将公式类比到通信模型的公式中得到:
$$P(o_1,o_2,o_3,…|s_1,s_2,s_3,…) = \prod_{t}p(o_t|s_t) $$
这样通过计算产生最大的概率就可以确定原始的发送信息,这样看似困难的语音识别与Seq2Seq问题就被解决了。