Information Entropy

QA

或许一直都有一个疑问，升入大学信息是一个非常宝贵的财富，我们都知道某些关键的信息或许真能改变一生，但是我们如何分辨哪些是关键信息，或者如何确定一条信息的价值呢？可能你能凭借直观的感受来评判，但这在数学上可不好，数学更喜欢公式，喜欢确定性和可计算的东西。于是，当我读到这一章，无不感受到信息熵的魅力。

考虑这种情况，如果我们越了解一个事务，那么他的不确定性就越小，我们就不需要获取更多的信息来填补这些不确定性的空白。因此，信息量就是不确定性的多少。

Free Stock Photo

总感觉，这个定义是根据股票交易所来的，通常来说，你了解的信息越多，你可能赚的也越多。但其实吧，我觉得每一个人不可能会把所有的不确定性消除，生活中总有那么些不如你所愿的事情，这可能也是支持每一个冒险者清晨起床的原因吧。

我们接着来看，大致方向把握住了，我们就来看看信息论之父香农的定义：

$$H(X) = -\sum_{x\in X}P(x)\log{P(x)} $$

该如何理解这个公式呢，《数学之美》中的例子在这被我借鉴了。假如我们去看今年2022的世界杯，假如有一个人穿越而来，他知道冠军是谁，但是她不愿直接告诉我而是让我去猜，每猜一次都要花费一元，该如何最快得到答案呢？

我相信各位都知道二分查找的算法，总共32支球队，我先询问在1-16号中吗？依次询问下去，我们最多只需要五次就可以得到答案 ($log{32} = 5$)。

带入上式公式，可知每个队伍的概率都是 $\frac{1}{32} $,最后化简即为 $log{32} = 5$。

然而我们知道，每个队伍实力不同，我们可以优先在夺冠热门的队伍中选择，这样我们付的钱就最少，代价就更低。当然可以用数学证明:

$$H(X) \le -log{\frac{1}{n} } $$ (n为球队总个数)

利用信息熵，我们大概也知道信息存储时的特点，在一本书中，10%的文本占常用字的95%以上，因此可以计算一本书的信息熵是很小的，因此将它存储在电脑中时，我们进行了压缩，这样它的实际内容没有变化，但所占字节数更小了。

因此可以看出重复内容越多的书籍，信息熵越少，我们能掌握它的代价也就越小，但可能它的质量就越坏。

从上文信息的定义入手，为了度量一条信息，我们引入了信息熵来计算这条信息的大小，然而我们确定信息价值的本质还是一样的，看信息能帮我消除多少不确定性。

在此，引入了条件熵的概念，《概率论与数理统计》中我们都有学到条件概率的概念，在 $P(y)$ 发生的概率下，$P(x)$ 发生的概率表示为：$P(x|y)$ ，条件熵也是如此：

$$H(X|Y) = -\sum_{x\in X,y\in Y} P(x,y)log{P(x|y)}$$

可以证明，$H(x)\ge H(X|Y) $,由此可以看出在得到 $Y$ 的条件后，信息熵变小，$X$ 的不确定性下降了。但是也得考虑一种情况，在得到某一信息时，不确定性并没有下降，这时等号就成立了。

最后就是如何评价两个信息的相关性了，好比如，今天是雾天，今天可能下雨，这两条信息的相关性大吗？

因此香农提出了“互信息”的概念(Mutual Information)，来度量两个信息之间的相关性，定义如下：

$$I(X;Y) = \sum_{x\in X,y\in Y}P(x,y)log\frac{P(x,y)}{P(x)P(y)} $$

其实这个公式就等于：

$$I(X;Y) = H(X) - H(X|Y)$$

即等于消除了多少的不确定性，或者条件熵之间的差异。

互信息经常用于消除词语的二义性的问题，很经典的问题是：用红墨水写一个“蓝”字，请问，这个字是红字还是蓝字？在这就需要用更多的信息去消除不确定，例如是红色的字还是单一个“红字”？

在例如，我们常使用的多义词，多音词，机器该怎么识别呢？可以通过识别与这个词相邻的词，通过互信息的大小来判断，谁的互信息大，谁的概率就高。然而这个始终是一个概率问题，他不能保证不会出错，因为贪心并不一定是全局最优解。

其实，发明信息度量之后，很多现象都可解释和度量，但是汉语言的很多问题还是不能解释，并且很多问题仍然是概率问题，而不是一个人思维的真正过程，机器总是做着最大概率的事情，这在人类世界是不可能的，我相信真正的机器智能与自然语言处理还有不少路可以走。