信息论——Kraft不等式以及变长编码定理
上次介绍了香农无损编码定理以及一些不同类别的编码。这次介绍kraft不等式以及huffman编码,并且说明霍夫曼编码的最优性。
Kraft不等式为前缀码约束条件。在前缀码中,显然不能使用所有的最短的码字,这样的话前缀码的条件就无法满足。就用二叉树来编码(二进制编码)的时候,如果一个节点被作为码字,则它的子树结点都无法作为码字。
Kraft不等式
kraft不等式定义如下:
任意D-进制码前缀码其码长$l_1,l_2,…,l_m$,满足
$$
\sum_{i} D^{-l_i} \leq 1
$$
反之,如果码长约束满足上述不等式,则必然可以构造出具有此码长的前缀码。
Kraft不等式的证明是非常直接的:
- 必要性:
我们依然从D叉树来考虑这个问题。假如码字最长为$l_{max}$.当一个结点被选做码字的时候,假设这个结点的深度为$l_i$,也就是码长为$l_i$.那么因为它的存在,它子树的结点都不能再次作为码字。因此我们就损失了D^{l_{max} - l_i}个叶子结点(注意,这里说的是叶子结点)。
这棵树的所有叶子结点数目为:$D^{l_max}$.我们最多把所有的叶子结点都给剪掉。
现在假设一共有m个码字,则:
$$
\sum_{i=1}^m D^{l_{max} - l_i} \leq D^{l_{max} }
$$
两侧同时除以$D^{l_{max} }$,就得到了kraft不等式。
- 充分性
充分性更好证明。我们只要在树上就可以很容易构造出来这样的编码。
Kraft不等式给出了即时码的充要条件,但是和最优码长无关。
任意前缀码码长约束
对随机变量X进行D进制前缀码编码,得到的码长满足:
$$
L \ge H_D(X)
$$
等号当且仅当$D^{-l_i} = p_i$时候成立。这个L为平均码长。
证明如下:
$$
\begin{aligned}
L - H_D(X) &= \sum P_i l_i - \sum P_i \log_D \frac 1 {P_i}\
&= \sum P_i \log_D D^{l_i} +\sum P_i \log_D P_i\
&= \sum P_i \log_D P_i - \sum P_i \log _D D^{-l_i}\
&= \sum P_i \log_D \frac{P_i}{D^{-l_i} } —-(1)\
\end{aligned}
$$
也许大家会觉得从(1)可以直接得到:D(P\Vert D^{-l}),然后由互信息大于0从而完成证明。但这样是不严谨的,因为我们无法保证$\sum D^{-l_i} = 1$.
因此这里需要做一个归一化处理:
令:$r_i = \frac{D^{-l_i} }{\Delta},\Delta = \sum D^{-l_i}$
(这个地方真是不容易想到啊,很容易就不严谨了)
则(1)可以写为:
$$
\begin{aligned}
\sum P_i \log_D \frac{P_i}{D^{-l_i} } \
&=\sum P_i \log _D \frac{P_i}{r_i}\frac 1 {\Delta}\
&=\sum P_i \log_D \frac{P_i}{r_i} - \log_D \Delta \sum P_i\
&=D(P\Vert r) + \log \frac 1 \Delta
码长
码长
码长
而$D(P\Vert r) + \log \frac 1 \Delta \ge 0$(由对数性质,鉴别信息性质以及Kraft不等式决定).
所以,我们完成了对上述定理的证明。
最优前缀码定理(香农第一定理)
该定理描述如下:
对随机变量X进行D进制前缀编码,得到的最优码长满足下列不等式:
$$
H_D(X) \leq L^* < H_D(X)+1
$$
左侧是不用证明的,因为上个定理已经证明了。我们主要需要证明的是右侧。
香农通过构造香农码来证明右侧:
取$\lceil \log_D \frac 1{P_i} \rceil$为码字长度,这样的编码是满足kraft不等式的:
$$
\sum D^{-\rceil \log_D \frac 1 {P_i} } \leq \sum D^{-\log_D \frac 1 {P_i} } = \sum P_i = 1
$$
因此我们可以根据这个码长来构造出相应的前缀码。
我们知道:
$$
\log _D \frac 1 {P_i} \leq l_i \leq \log_D \frac 1 {P_i}+1
$$
如果对上述不等式的所有side求期望,得到:
$$
H_D(X) \leq \sum p_il_i \leq H_D(X) + 1
$$
这就是香农码。它不一定是最优,因此我们就完成了香农第一定理的证明。
分组前缀码
定长编码定理告诉我们,$\epsilon$可以任意小,而变长编码告诉我们,我们付出的代价小于1。能不能让这个代价能保证比1更小呢?这就是分组编码。
对于信源X进行分组前缀编码,得到的每消息符号数$L_n^*$满足不等式:
$$
\frac{H(X_1,X_2,…,X_n)}{n} \leq L_n^* \leq \frac{H(X_1,X_2,…,X_n)}{n} + \frac 1 n
$$
如果信源稳恒,则$L_n^* \rightarrow H(X)$.
这要求我们对X进行分组,因此会有解码延迟,也需要缓冲区。但是通过这个,可以使得平均码长代价更小。天下没有免费的午餐。
编码效率与互信息
最优前缀码的编码与信源的分布密切相关,但是我们不一定能准确知道信源的分布。如果信源分布估计出现偏差,则平均码长就会受到惩罚。
Penalty分析:
可以证明,对于服从p(x)信源X进行前缀编码,如果码字长度取$l(x) = \lceil \log \frac 1 {q(x)}\rceil$,则平均码长满足:
$$
H(p) + D(p\Vert q) \leq E_{p}l(X) < H(p) + D(p\Vert q) +1
$$
受到的惩罚中,互信息出来了。