信息量的计算公式推导:从贝叶斯到熵的数学之旅

在信息论、密码学及人工智能(特别是机器学习)的基石中,信息量的计算占据着核心地位。它不仅是衡量数据“包含多少未知信息”的标尺,更是区分确定性事件与随机事件、评估模型性能、设计编码方案以及训练深度神经网络工具。
这篇文章将深入探讨信息量定义,通过贝叶斯定理的推导揭示其物理意义,并逐步引入香农熵,展示如何从概率分布中提取出量化信息的通用公式。
信息量的基本定义
在信息论中,吉布斯(Julius R. Gibbs)最早提出了信息量的概念。对于一个随机变量 ,其信息量 定义为在观测到这个变量之前,我们对该变量取值总和的预期对数。
1 直观理解
如果说“不确定性”是对未来的预测概率(),那么“信息量”就是消除这种不确定性的程度。 若一个事件发生的概率极高( 0.99),那么宣布“这个事件发生了”所带来的信息量就极少,因为情况早已揭晓。 如果一个事件发生的概率极低( 0.01),那么宣布“这个事件发生了”才提供了很大的惊喜,从而带来了大的信息量。2 数学表达
设随机变量 的分布为 ,则信息量 定义为:其中:
表示观测到 这一事件所获得的信息量。
表示以 2 为底的对数(单位为比特,Bit)。
表示事件 发生的概率。
从概率到信息量的推导:贝叶斯视角
在深入讨论香农熵之前,我们需要理解信息量与概率之间关系。这个关系由贝叶斯公式给出。
1 贝叶斯公式回顾
假设我们有一个先验概率 ,观测到证据 后,我们更新得到后验概率 。贝叶斯公式为:其中:
是 在 条件下发生的条件概率(似然)。
是先验概率。
是边缘概率(归一化常数,确保总和为 1)。
2 信息量与对数似然的关系
根据对数的性质 ,我们可以对贝叶斯公式两边取负对数:在信息论中,我们首要关心的是观测到数据 带来的信息量 。我们假设 是一个已知背景概率(如背景噪音的概率),或者将其视为常数,因此 被归约为 0。
于是,观测到 带来的新信息量 简化为:
推导结论:
观测到证据 带来的信息量,等于先验概率的对数减去条件概率的对数(似然)。
先验概率越不确定( 越大, 越小),信息量越小。
条件概率越确定( 越大, 越大),信息量越大。
这解释了为什么在 确定的情况下,观测到 的意义:如果 变得非常大(趋近于 1),则 趋近于 ,即先验信息量。
香农熵:从概率分布到信息量的通用公式

贝叶斯推导展示了局部视角。为了构建一个通用的信息度量,我们需计算整个随机变量的期望。香农(Claude Shannon) 将这一概念推广到了多个取值的情况,并引入了熵(Entropy)的概念。
1 一般情况下的信息量
假设随机变量 有 个的取值,每个取值 发生的概率为 。 对于单个随机变量,其信息量 定义为:2 平均信息量(熵)
在复杂系统中,我们对多个变量实施联合观测。此时,总信息量即为各个结果信息量的期望值。将 代入上式:
这就是著名的香农熵公式(Shannon Entropy Formula)。
3 熵的物理意义
单位:比特 (Bit)。 含义: 表示在没有任何额外知识的情况下,随机变量 所能包含的平均信息量。 极端情况: 当 时(确定性事件),,没有任何信息。 当 且 时(均匀分布),,达到最大信息量。常见变体与数据说明
香农熵公式是通用公式,但在实际应用中,根据场景不同,常使用以下变体或近似公式。
1 二值随机变量(比特数 vs 信息量)
在传统通信中,我们常关注 的二元随机变量(0 或 1),此时 。 代入公式:所以对于二值变量,信息量在数值上直接等于其比特数。
2 数据压缩与编码效率
在数据压缩领域,设 为编码的平均长度, 为原始数据的熵。则编码效率 定义为:若 ,表示数据已被完美压缩,平均每个符号只运用了 1 个比特。
若 ,说明编码方法存在冗余,能够节省比特。
3 数据说明表格:不同概率分布下的信息量
下表展示了不同概率分布下,随机变量 的信息量(单位为比特)。这直观地反映了“不确定性越小,信息量越少的”直觉。
| 随机变量 的取值 | 概率分布 | 信息量 计算过程 | 信息量 (比特) | 解释 |
|---|---|---|---|---|
| 确定性事件 | 0 | 已知完全,无信息。 | ||
| 二值随机变量 | 1 | 最大信息量,完全不确定。 | ||
| 高概率事件 | 0.471 | 事件已发生概率高,提供较少惊喜信息。 | ||
| 低概率事件 | 0.998 | 事件发生概率极低,提供极大信息量。 | ||
| 均匀分布 (M=4) | (4次等概率) | 2 | 4 个完全不同值的均匀分布,信息量为 2。 |
总结
信息量的计算公式并非孤立存在,它是一条从贝叶斯概率更新出发,凭借对数运算转化为期望值,得出香农熵的严密数学链条。
1. 核心逻辑:信息量本质上是“减少不确定性的量度”,由先验知识 () 和证据 () 的博弈决定。
2. 通用性:香农熵公式 是衡量任意随机变量不确定程度的黄金标准。
3. 应用价值:无论是评估模型准确率、设计高效数据压缩算法,还是理解人类语言的编码(如霍夫曼编码),这一公式都发挥着独特的作用。
掌握这些推导与公式,是深入理解现代计算科学、网络安全及人工智能算法。
