Last updated
1.1 信息的介绍
信息论由克劳德·香农(Claude E. Shannon,1916-2001)通过《通信的数学理论》(A Mathematical Theory of Communication),发表于1948年《贝尔系统技术期刊》创立。
什么是信息?一些观察如下:
因此,信息是:接收者未知的知识,是对不确定性的度量。
定义:给定消息 M1,M2,...,Mq,其发生的概率为 P1,P2,...,Pq(P1+P2+...+Pq=1),则每条消息所携带的信息量的度量为
I(Mi)=logxPi−1,i=1,2,...,q x=2,:I(Mi)单位是bit(比特)
x=e,:I(Mi)单位是nats(奈特)
x=10,:I(Mi)单位是Hartley(哈特莱)
信息量的性质:
1.2 熵
平均而言,
不同底数的熵可以通过以下方式互换:
证明如下:
链式法则(联合熵与条件熵的关系):
证明如下:
因此
该链式法则可以推广为:
1.3 互信息
由以下关系可知:
因此:
互信息与熵的关系:
证明如下:
该证明还表明了互信息的对称性:
该关系也可以通过维恩图可视化表示。
推论:
结论如下:
对于互信息,任意多个变量的链式法则如下:
1.4 信息论的进一步结果
推论 1:
推论 2:
证明如下:
詹森不等式可以用于证明一些关于熵的性质。
推论 4(最大熵分布):
证明:
因此
因此
信息处理不等式:给定一个串联的数据处理系统:
因此我们有
得
证明:
数据处理无法增加信息。
当 Pi→1 时,I(Mi)→0;
当 0≤Pi≤1 时,I(Mi)≥0;
如果 Pj>Pi,则 I(Mi)>I(Mj);
若 Mi 和 Mj 统计独立,则 I(Mi&Mj)=I(Mi)+I(Mj)
给定长度为 N 的源向量。它有 U 个可能的符号 S1,S2,...,SU,每个符号出现的概率分别为 P1,P2,...,PU。要表示该源向量,我们需要
I=i=1∑UNPilog2Pi−1 bits H=NI=i=1∑UPilog2Pi−1 bits/symbol H 称为源熵,表示每个源符号的平均信息量。它也可以理解为函数 log2Pi−1 的期望值:
H=E[log2Pi−1]bits/symbol Hb(x)=Ha(x)logba Ha(x)Ha(x)logba=E[−logaP(x)]=lgblgaE[−lgalgP(x)]=E[−lgblgP(x)]=E[−logbP(x)]=Hb(x) 现在我们考虑两个随机变量 X 和 Y 的熵,X 和 Y 的取值分别为 x 和 y。X和 Y 的分布分别为 P(x) 和 P(y)。因此我们有:
联合熵 H(X,Y):给定联合分布P(x,y)
H(X,Y)=−x∈X∑y∈Y∑P(x,y)log2P(x,y)=−E[log2P(x,y)] H(Y∣X)=x∈X∑P(x)H(Y∣X=x)=−x∈X∑y∈Y∑P(x)P(y∣x)log2P(y∣x)=−x∈X∑y∈Y∑P(x,y)log2P(y∣x)=−E[log2P(y∣x)] H(X,Y)=H(X)+H(Y∣X)=H(Y)+H(X∣Y) H(X,Y)=−x∈X∑y∈Y∑P(x,y)log2P(x,y)=−x∈X∑y∈Y∑P(x,y)log2(P(y∣x)P(x))=−x∈X∑y∈Y∑P(x,y)log2P(x)−x∈X∑y∈Y∑P(x,y)log2P(y∣x)=−x∈X∑P(x)log2P(x)−x∈X∑y∈Y∑P(x,y)log2P(y∣x)=H(X)+H(Y∣X) H(X∣Y)=H(X) H(X,Y)=H(X)+H(Y) (1) H(X,Y∣Z)=H(X∣Z)+H(Y∣X,Z)(2) H(X1,X2,...,XN)=i=1∑NH(Xi∣Xi−1,Xi−2,...,X1) 我们有两个随机变量 X 和 Y,X 和 Y 的取值分别为 x 和 y。X 和 Y 的分布分别为 P(x) 和 P(y)。X 和 Y 的联合分布为 P(x,y)。
互信息 I(X,Y) 的定义为:
I(X,Y)=x∈X∑y∈Y∑P(x,y)log2P(x)P(x∣y)=E[log2P(x)P(x∣y)] P(x)P(x∣y)=P(x)P(y)P(x,y) I(X,Y)=x∈X∑y∈Y∑P(x,y)log2P(x)P(y)P(x,y)=E[log2P(x)P(y)P(x,y)] 注意:如果 X 和 Y 独立,P(x)P(y)=P(x,y),则 I(X,Y)=0。
I(X,Y)=H(X)+H(Y)−H(X,Y) I(X,Y)=x∈X∑y∈Y∑P(x,y)log2P(x)P(y)P(x,y)=x∈X∑y∈Y∑P(x,y)log2P(x,y)−x∈X∑P(x)log2P(x)−y∈Y∑P(y)log2P(y)=H(X)+H(Y)−H(X,Y) I(X,Y)=I(Y,X) I(X,Y)=H(X)−H(X∣Y)=H(Y)−H(Y∣X) 0≤I(X,Y)≤minH(X),H(Y);
如果 H(X)⊂H(Y),则 I(X,Y)=H(X)。类似地,如果 H(Y)⊂H(X),则 I(X,Y)=H(Y);
I(X,X)=H(X)−H(X∣X)=H(X),熵也称为自信息。
I(X1,X2,...,XN;Y)=H(X1,X2,...,XN)−H(X1,X2,...,XN∣Y)=i=1∑NH(Xi∣X1,X2,...,Xi−1)−i=1∑NH(Xi∣X1,X2,...,Xi−1,Y)=i=1∑NH(Xi∣X1,X2,...,Xi−1)−H(Xi∣X1,X2,...,Xi−1,Y)=i=1∑NI(Xi;Y∣X1,X2,...,Xi−1) 互信息 I(X,Y) 描述了一个变量 X 包含关于另一个变量 Y 的信息量,或反过来为 I(Y,X)。
相对熵:假设 X 和 X 是两个随机变量,取值分别为 x 和 x。它们旨在描述同一事件,其概率质量函数分别为 P(x) 和 P(x^)。它们的相对熵定义为:
D(P(x),P(x^))=x∈suppP(x)∑P(x)log2P(x^)P(x)=E[log2P(x^)P(x)] 相对熵通常称为两个分布 P(x) 和 P(x) 之间的 Kullback-Leibler(KL 距离)。
当假设分布为 P(x^) 而真实分布为 P(x) 时,它是一种低效性的度量。例如,事件可以用平均长度为 H(P(x)) 位描述。然而,如果我们假设其分布为 P(x),我们需要平均长度为 H(P(x))+D(P(x),P(x^)) 位来描述它。
它不是对称的,即 D(P(x),P(x^))=D(P(x^),P(x))。
When P(x)=P(x^),D(P(x),P(x^))=0. D(P(x),P(x^))≥0 −D(P(x),P(x^))=x∈suppP(x)∑P(x)log2P(x)P(x^)≤x∈suppP(x)∑P(x)(P(x)P(x^)−1)log2e=x∈suppP(x)∑P(x^)−x∈suppP(x)∑P(x)log2e≤(1−1)log2e=0 凸函数:若函数 f(x) 在区间 (a,b) 上是凸的,即对于 x1,x2∈(a,b) 且 0≤λ≤1,有:
f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2) 当且仅当 λ=0 或 λ=1 时,等号成立,则该函数为严格凸函数。
如果 f(x) 是凸函数,则 −f(x) 是凹函数。
詹森不等式:如果函数 f(x) 是凸的,则有:
f(E[x])≤E[f(x)] 推论 2: D(P(x),P(x^))≥0
−D(P(x),P(x^))=x∈suppP(x)∑P(x)log2P(x)P(x^)≤log2x∈suppP(x)∑P(x^)≤log21=0 推论 3: I(X,Y)≥0
I(X,Y)=x∈X∑y∈Y∑P(x,y)log2P(x)P(y)P(x,y)=D(P(x,y),P(x)P(y))≥0 仅当 P(x,y)=P(x)P(y) 时,I(X,Y)=0,即 X 和 Y 独立。
给定变量 X∈x1,x2,...,xU,其分布为 P1,P2,...,PU。我们有:
H(X)≤log2U 由于 log2(⋅) 是一个凹函数,基于詹森不等式,我们有:
H(X)≤log2(i=1∑UPiPi−1)=log2U 注意:如果 X 在 x1,x2,...,xU 上均匀分布,即 P1=P2=⋯=PU=U1,则有:
H(X)=log2U 费诺不等式:设 X 和 Y 是两个随机变量,其取值来自 x1,x2,...xk。设 Pe=Pr[X=Y],则有:
H(X∣Y)≤H(Pe)+Pelog2(k−1). Z=0,ifX=YZ=1,ifX=Y Pr(Z=0)=1−PePr(Z=1)=Pe 因此,H(Z)=H(Pe)。基于熵的链式法则:
H(XZ∣Y)=H(X∣Y)+H(Z∣XY)=H(X∣Y) 注意,已知 X 和 Y 时,Z 是确定的,且 H(Z∣XY)=0。同样基于链式法则:
H(XZ∣Y)=H(Z∣Y)+H(X∣YZ)≤H(Z)+H(X∣YZ) H(X∣YZ)=Pr(Z=0)H(X∣Y,Z=0)+Pr(Z=1)H(X∣Y,Z=1).=(1−Pe)⋅0+Pelog2(k−1)=Pelog2(k−1) 注意:H(Pe) 是在 X=Y 时描述 X 所需的比特数;log2(k−1) 是在 X=Y 时描述 X 所需的比特数。当 X 在所有 k−1 个值上均匀分布时,等号成立。
马尔可夫链 X→Y→Z 表示在给定 Y 的情况下,X 和 Z 条件独立,因此有以下关系:
P(z∣x,y)=P(z∣y)P(x∣y,z)=P(x∣y) P(x,y,z)=P(x,y)⋅P(z∣y)=P(x)P(y∣x)P(z∣y) I(X,Z)≤{I(X,Y)I(Y,Z) I(X,Z)=H(X)−H(X∣Z)≤H(X)−H(X∣ZY)=H(X)−H(X∣Y)=I(X,Y) 🐯
📓