信息量的计算公式推导-信息量公式推导

2026-06-19 06:51:22

✦ 本站观点：公式推导表明信息量（I）=H(X) - H(Y|X)，以 100 位用户数据为例，互信息可量化偏差。该公式揭示了信息增益依赖条件熵，是评估变量依赖性的核心依据。

信息量的计算公式推导：从贝叶斯到熵的数学之旅

在信息论、密码学及人工智能（特别是机器学习）的基石中，信息量的计算占据着核心地位。它不仅是衡量数据“包含多少未知信息”的标尺，更是区分确定性事件与随机事件、评估模型性能、设计编码方案以及训练深度神经网络工具。

这篇文章将深入探讨信息量定义，通过贝叶斯定理的推导揭示其物理意义，并逐步引入香农熵，展示如何从概率分布中提取出量化信息的通用公式。

信息量的基本定义

在信息论中，吉布斯（Julius R. Gibbs）最早提出了信息量的概念。对于一个随机变量，其信息量定义为在观测到这个变量之前，我们对该变量取值总和的预期对数。

1 直观理解

如果说“不确定性”是对未来的预测概率（），那么“信息量”就是消除这种不确定性的程度。若一个事件发生的概率极高（ 0.99），那么宣布“这个事件发生了”所带来的信息量就极少，因为情况早已揭晓。如果一个事件发生的概率极低（ 0.01），那么宣布“这个事件发生了”才提供了很大的惊喜，从而带来了大的信息量。

2 数学表达

设随机变量的分布为，则信息量定义为：

其中：
表示观测到这一事件所获得的信息量。
表示以 2 为底的对数（单位为比特，Bit）。
表示事件发生的概率。

从概率到信息量的推导：贝叶斯视角

在深入讨论香农熵之前，我们需要理解信息量与概率之间关系。这个关系由贝叶斯公式给出。

✦ 关键提示：信息量检测贝叶斯与香农熵，揭示数据未​知程度本质。经由概率分布量化观测带来的惊喜度，是区分确定性与随机事​件、评估 AI 性能及设计编码方案的核心基石​。

1 贝叶斯公式回顾

假设我们有一个先验概率，观测到证据后，我们更新得到后验概率。贝叶斯公式为：

其中：
是在条件下发生的条件概率（似然）。
是先验概率。
是边缘概率（归一化常数，确保总和为 1）。

2 信息量与对数似然的关系

根据对数的性质，我们可以对贝叶斯公式两边取负对数：

在信息论中，我们首要关心的是观测到数据带来的信息量。我们假设是一个已知背景概率（如背景噪音的概率），或者将其视为常数，因此被归约为 0。

于是，观测到带来的新信息量简化为：

推导结论：
观测到证据带来的信息量，等于先验概率的对数减去条件概率的对数（似然）。
先验概率越不确定（越大，越小），信息量越小。
条件概率越确定（越大，越大），信息量越大。

这解释了为什么在确定的情况下，观测到的意义：如果变得非常大（趋近于 1），则趋近于，即先验信息量。

香农熵：从概率分布到信息量的通用公式

贝叶斯推导展示了局部视角。为了构建一个通用的信息度量，我们需计算整个随机变量的期望。香农（Claude Shannon) 将这一概念推广到了多个取值的情况，并引入了熵（Entropy）的概念。

1 一般情况下的信息量

假设随机变量有个的取值，每个取值发生的概率为。对于单个随机变量，其信息量定义为：

2 平均信息量（熵）

在复杂系统中，我们对多个变量实施联合观测。此时，总信息量即为各个结果信息量的期望值。

✦ 关​键提示：贝叶斯公式更新概​率，结​合对数似然简化​推导：信息量由先验不确定性（熵）与条件确定性（似然）共同决定。先验越不确定、似然​越确定，信息​量越大；反之则越小，最终用于构建香农熵的通用​度量。

将代入上式：

这就是著名的香农熵公式（Shannon Entropy Formula）。

3 熵的物理意义

单位：比特 (Bit)。含义：表示在没有任何额外知识的情况下，随机变量所能包含的平均信息量。极端情况：当时（确定性事件），，没有任何信息。当且时（均匀分布），，达到最大信息量。

常见变体与数据说明

香农熵公式是通用公式，但在实际应用中，根据场景不同，常使用以下变体或近似公式。

1 二值随机变量（比特数 vs 信息量）

在传统通信中，我们常关注的二元随机变量（0 或 1），此时。代入公式：

所以对于二值变量，信息量在数值上直接等于其比特数。

2 数据压缩与编码效率

在数据压缩领域，设为编码的平均长度，为原始数据的熵。则编码效率定义为：

若，表示数据已被完美压缩，平均每个符号只运用了 1 个比特。
若，说明编码方法存在冗余，能够节省比特。

3 数据说明表格：不同概率分布下的信息量

下表展示了不同概率分布下，随机变量的信息量（单位为比特）。这直观地反映了“不确定性越小，信息量越少的”直觉。

随机变量的取值	概率分布	信息量 (比特)	解释
确定性事件		0	已知完全，无信息。
二值随机变量		1	最大信息量，完全不确定。
高概率事件		0.471	事件已发生概率高，提供较少惊喜信息。
低概率事件		0.998	事件发生概率极低，提供极大信息量。
均匀分布 (M=4)	(4次等概率)	2	4 个完全不同值的均匀分布，信息量为 2。

✦ 关键提示：将 代入​上​式得香农熵公式，表示​无额外知识下随机变量 的平均信息量。极端情况：确定性事件熵为 0，均匀分布最大；比特数直接等于信息量。适用于数据压缩，效率衡量冗余度，直观体现“不确定性越小，信息量越少”的原理​。

总结

信息量的计算公式并非孤立存在，它是一条从贝叶斯概率更新出发，凭借对数运算转化为期望值，得出香农熵的严密数学链条。

1. 核心逻辑：信息量本质上是“减少不确定性的量度”，由先验知识 () 和证据 () 的博弈决定。
2. 通用性：香农熵公式是衡量任意随机变量不确定程度的黄金标准。
3. 应用价值：无论是评估模型准确率、设计高效数据压缩算法，还是理解人类语言的编码（如霍夫曼编码），这一公式都发挥着独特的作用。

掌握这些推导与公式，是深入理解现代计算科学、网络安全及人工智能算法。

版权所属： 蔓简号百科
文章作者：
本文地址：http://www.xiaozhangclub.cn/school/8/134566.html
相关标签：

信息量的计算公式推导​：从贝​叶斯到熵的数学之旅