📓1. 熵和互信息
1.1 信息的介绍
信息论由克劳德·香农(Claude E. Shannon,1916-2001)通过《通信的数学理论》(A Mathematical Theory of Communication),发表于1948年《贝尔系统技术期刊》创立。
什么是信息?一些观察如下:
信息源自不确定性。
信息应与可能性的数量相关。
信息应具有“可加性”。
我们可以使用对数来缩小大量的可能性。
二进制排列用于表示所有的可能性。
信息的度量应考虑各种可能事件的概率。
因此,信息是:接收者未知的知识,是对不确定性的度量。
定义:给定消息 ,其发生的概率为 ,则每条消息所携带的信息量的度量为
单位是(比特)
单位是(奈特)
单位是(哈特莱)
信息量的性质:
当 时,;
当 时,;
如果 ,则 ;
若 和 统计独立,则
1.2 熵
给定长度为 的源向量。它有 个可能的符号 ,每个符号出现的概率分别为 。要表示该源向量,我们需要
平均而言,
称为源熵,表示每个源符号的平均信息量。它也可以理解为函数 的期望值:
不同底数的熵可以通过以下方式互换:
证明如下:
现在我们考虑两个随机变量 和 的熵, 和 的取值分别为 和 。和 的分布分别为 和 。因此我们有:
联合熵 :给定联合分布
条件熵 :
链式法则(联合熵与条件熵的关系):
证明如下:
如果 和 独立:
因此
该链式法则可以推广为:
1.3 互信息
我们有两个随机变量 和 , 和 的取值分别为 和 。 和 的分布分别为 和 。 和 的联合分布为 。
互信息 的定义为:
由以下关系可知:
因此:
注意:如果 和 独立,,则 。
互信息与熵的关系:
证明如下:
该证明还表明了互信息的对称性:
该关系也可以通过维恩图可视化表示。

推论:
结论如下:
;
如果 ,则 。类似地,如果 ,则 ;
,熵也称为自信息。
对于互信息,任意多个变量的链式法则如下:
假设 是传输信号, 是接收信号。

互信息 描述了一个变量 包含关于另一个变量 的信息量,或反过来为 。
1.4 信息论的进一步结果
相对熵:假设 和 是两个随机变量,取值分别为 和 。它们旨在描述同一事件,其概率质量函数分别为 和 。它们的相对熵定义为:
相对熵通常称为两个分布 和 之间的 Kullback-Leibler(KL 距离)。
当假设分布为 而真实分布为 时,它是一种低效性的度量。例如,事件可以用平均长度为 位描述。然而,如果我们假设其分布为 ,我们需要平均长度为 位来描述它。
它不是对称的,即 。
推论 1:
推论 2:
证明如下:
凸函数:若函数 在区间 上是凸的,即对于 且 ,有:
当且仅当 或 时,等号成立,则该函数为严格凸函数。

如果 是凸函数,则 是凹函数。
詹森不等式:如果函数 是凸的,则有:
詹森不等式可以用于证明一些关于熵的性质。
推论 2:
推论 3:
仅当 时,,即 和 独立。
推论 4(最大熵分布):
给定变量 ,其分布为 。我们有:
证明:
由于 是一个凹函数,基于詹森不等式,我们有:
注意:如果 在 上均匀分布,即 ,则有:
费诺不等式:设 和 是两个随机变量,其取值来自 。设 ,则有:
证明:我们构造一个二元变量 得:
因此
因此,。基于熵的链式法则:
注意,已知 和 时, 是确定的,且 。同样基于链式法则:
因此
注意: 是在 时描述 所需的比特数; 是在 时描述 所需的比特数。当 在所有 个值上均匀分布时,等号成立。
信息处理不等式:给定一个串联的数据处理系统:

马尔可夫链 表示在给定 的情况下, 和 条件独立,因此有以下关系:
因此我们有
得
证明:
数据处理无法增加信息。
Last updated
