#

熵用来度量与结果的概率分布相关的不确定性,所以熵常常用来衡量意外。熵与方差不同,方差常常度量一个数值集合或数值分布的离散程度。熵是在概率分布上定义的,因此它可以应用于非数值数据分布,熵在数学上等于概率与它们的对数只和的相反数。

可以把信息熵理解为根据随机抛硬币的结果来衡量不确定性的一种方法,假设每个家庭都只有两个孩子,男孩和女孩的可能性相同,某个家庭孩子的性别列表就相当于抛两次硬币,因此结果分布的信息熵为2,它对应两个随机事件。以此类推,在有三个孩子的家庭中,性别列表相当于抛3次硬币,要了解这样家庭孩子的性别只需要提出三个是或否的问题。

从另外一个角度看,如果要了解N个孩子的性别,这N个问题区分出了2的N次方种可能的出生顺序,这种数学关系是:N个二元随机事件会产生2的N次方个可能的结果序列,并且与之等价,我们可以通过提出N个是与否问题悉知结果序列。在这种情况下,信息熵将不确定性水平N分配给了2的N次方个结果上的一个等可能分布。

在给定一个概率分布(p1,p2...pN),信息熵H2等于:

熵可以在均衡、周期性、随机性和复杂性这几个类别框架下建模,例如放在桌子上的铅笔处于均衡状态,绕太阳运转的行星处于循环当中,抛硬币的结果序列是随机的,人脑中的神经元发放是复杂的。平衡结果没有不确定性,因此其熵等于零,周期性过程具有不随时间变化的低熵,完全随机过程具有最大的熵,复杂性因为位于有序与随机性之间,所以其具有中等程度的熵。

# 最大熵和分布假设

在很多情况下,我们建模时丢必须要把不确定性包含进来,作为建模人员,必须对有关的分布做出必要的假设,在这里的原则是,我们要尽量避免做出任意特殊假设。例如假设我们要对一个房地产拍卖中的所有拍卖对象的总价值分布做出一个假设,总价值等于各个项目的价值总和,因此我们可以根据中心极限定理假设这是一个正态分布。

对于艺术品的可能价值,正态分布可能就没有意义,在这些情况下,我们可以假设一个具有最大不确定性的最大熵分布。最大熵分布的形状取决于各种约束条件,如果假设了一个最小值和最大值,那么均匀分布会使熵最大化。在某些情况下,我们可能知道分布的均值,也知道所有值都必定是正数,给定这些约束条件,最大熵分布必定具有长尾,因为我们要将分布置于更多的值上,从而必须使少数高值结果与许多低值结果保持平衡。

如果一种突变能够最大化熵,并且假设平均规模和总离散度是固定的,那么规模的分布将会是正态的。给定约束下最大化熵必定会导致正态分布,因此当我们看到正态分布时,它可能是最大化熵的结果。

# 熵的含义

我们可以将熵测度用于任何实际应用,可以用它来衡量对金融市场的干预是增加还是减少了不确定性,可以检验选举、体育赛事或博彩中的结果到底是不是随机的。在这些应用中,熵都是作为一个实证的衡量标准来使用的。在制定法规时,我们可能需要一种均衡行为模型,不希望有随机性。在规划城市时,我们可能会希望看到复杂性,这种情况下,更多的熵会很好。