信息论——连续随机变量的熵和互信息

Posted on 2018-11-01 Edited on 2025-09-18 In 信息论

如何将离散随机变量的这些概念推广到连续随机变量？

使用黎曼积分，我们可以得到：

$$
\begin{align}
H(X) &= -\sum_ {x} p(x)\Delta x \log p(x) \Delta x\
&= -\sum_ {x}p(x)\log p(x)\Delta x - -\sum_ {x}p(x)\log \Delta x\Delta x
\end{align}
$$

上式中，最后一项是趋于负无穷的。

这意味着连续随机变量包含的信息是无穷的。但是无穷的是无法研究的，因此香农重新给了一个微分熵的定义，它在数学上不够严格，但是在实际上却非常有用。

$$
h(X) = \int _ {-\infty }^{+\infty} p(x)\log p(x) dx
$$

可以看到它在形式上与离散形式的熵是非常相似的。

同时也有联合熵：
$$
h(X,Y) = -\int p(x,y)\log p(x,y) dxdy
$$

条件熵：
$$
h(X|Y) = -\iint p(x,y) \log p(x|y) dxdy = -\int p(y) \int p(x|y) \log p(x|y) dx dy
$$

不等式关系：
$
h(X,Y) = h(X) + h(Y|X) = h(Y) + h(X|Y)
$

$
h(X|Y) \leq h(X), h(Y|X) \leq h(Y)
$

$
h(X,Y)\leq h(X) + h(Y)
$

这些不等式都是存在的，与离散形式一致，但是要注意的是h(X)不一定是非负的了。

例如：
$$
X:p(x) = \left { \begin{array}{c}
\frac 1 {b-a} , a \leq x \leq b;\
0, otherwise;
\end{array}
\right.
$$

那么它的微分熵实际上等于$\log(b-a)$.当$b-a<1$的时候，这个熵是小于0的。

高斯分布的微分熵

高斯分布概率密度如下：

$X:p(x) = \frac{1}{\sqrt {2 \pi \sigma} } exp [-\frac{(x-m)^2}{2\sigma ^2}]$

而它的微分熵为$h(x) = \frac 1 2 \log 2 \pi e \sigma^2$.

这个需要记住。当然只要带进定义就可以推算出来的。值得注意的是，它的微分熵和m（期望）是无关的

给定m和$\sigma$的情况下，当连续变量服从高斯分布的时候，微分熵最大。

互信息

$I(X;Y) = \iint p(x,y) \log \frac{p(x,y)}{p(x)p(y)}dxdy$

可以直接使用黎曼积分得到，与离散的情况也非常一致。