# 幂律分布

幂律分布就是通常我们所说的长尾分布或重尾分布。把这种分布绘制在图上时,会产生对应大事件的沿水平轴运行的长尾,这些分布中,常常包括了非常大的事件。产生幂律分布要求非独立性,通常以正反馈的形式出现。关于幂律分布有两个比较重要的模型,一个是优先连接模型,它能够解释城市规模、图书销量和网络链接等事件。另一个是自组织临界模型,它能够解释交通拥堵、战争伤亡,以及地震,火灾雪崩大小等事件。

# 幂律分布的概念

在统计学中,幂律表示两个量之间的函数关系,其中一个量相对变化会导致另一个量的相应幂次比例的变化,表现为一个量是另一个量的幂次方。例如,长方形面积与边长的关系,如果边长长度扩大2倍,那么面积就扩大到了4倍。

幂函数为:y=x^a(a为有理数),指数函数为:y=a^x(a为常数且以a>0,a≠1),假设变量x服从参数为α的幂律分布,则其概率密度函数可以表示为:概率密度函数为f(x)=cx^-a-1(x→∞)。

1932年哈佛大学的语言学专家齐普夫(Zipf)在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为齐普夫定律,即对于指数为2的幂律分布(a=2),事件的等级排列序号乘以它的大小等于常数,也就是事件等级*事件大小=常数。

它表明在各种语言中,只有极少数的词被经常使用,而绝大多数词很少被使用。2016年,江南大学的研究者以诺贝尔文学奖得主莫言的《红高粱》《蛙》和《透明的红萝卜》为主要研究对象,采用字频统计软件和汉语词频统计软件,统计莫言作品中字频、词频,发现都能满足齐普夫定律。所得结果与包括英语、西班牙语、法语等在内的多种语言研究结果一致。

# 优先连接模型

假设一连串的人一个接一个的到达,第一个到达者创建一个实体,后续每次有人到达都应用以下规则:

  1. 在概率P(较小)的情况下,新到达者创造一个新的实体。
  2. 在概率(1-P)的情况下,新到达者加入现有的某个实体。

优先连接模型的结论是:最终加入某个特定实体的概率,等于该实体大小除以到目前为止所有到达者的数量。

我们可以想象一下大学新生进入大学校园的情景,第一个来到学校的学生创建了一个新社团,第二个到达的学生以较小的概率创建了自己的社团,更有可能的是他会加入第一个学生创建的社团,前10个到达的学生可能会创建3个社团,一个由7个成员,一个有2个成员,一个有1个成员。第11个到达的学生只会以极小的概率创建第4个社团,如果不创建社团,他就加入现有的社团。如果这样做,他有70%的概率加入已有7个学生的社团,有20%的概率加入已有两个学生的社团,只有10%的概率加入只有一个学生的社团。

优先连接模型有助于解释为什么网络链接、城市规模企业规模、图书销量、图书销量和学术引用分布都是幂律分布的。在这些情况下,一个行动会增加其他人也这样做的可能。如果我们从某家企业购买商品的概率与它在在当前市场的份额成正比,同时如果新企业进入市场的概率较低,那么优先连接模型预测企业规模的分布将是幂律分布。

# 森林火灾模型

假设树木可以在一个二维网络上生长,这些树木也可能会随机的被闪电击中,当树木的密度较低时,由闪电引发火灾的规模都会很小,最多只能蔓延到几个格点,当树木密度变得足够高时,再被闪电击中可能就会造成森林大火。

这个事件抽象成模型就是:森林最初只是一个N*N的网格,每个周期在网格上随机选择一个格点,如果该格为空,那么就以概率g在那里种上一棵树。如果该格点上已经有树,那么闪电就会以概率(1-g)击中该格点。如果该格点有一棵树,那么树会着火,火势会蔓延到连接该格点所有的树。

在这个模型中,当种树的速度接近1时,树木的密度会增加到一个临界状态,在这种临界状态下,森林的板块大小以及火灾大小的分布都满足幂律分布。森林会自然而然的趋向于这种密度水平,如果当前密度较低,那密度会逐渐增加(因为火灾影响小),如果密度超过了阈值,那么任何火灾都会毁掉整个森林,因此,树木密度自组织的达到了一个临界状态。

# 长尾分布的含义

与正态分布相比,长尾分布意味着少数几个大事件(大地震、大火灾)和很多的小事件,正态分布是关于均值对称的。在有线连接模型中我们可以看到,因为马太效应,正反馈创造了少数大赢家,长尾分布使社会影响增加了不平等。极端的成果本身表明,在我们生活中,很多时候中心极限定理是不成立的,因为在我们很多行为无法相互独立存在,都是互相影响的。

森林火灾模型也可以指导我们行动。例如,人们可以通过选择性的在森林中采伐一些树木来降低树木的密度,以防止大火灾的发生,也可以制造防火带来避免隐患,森林火灾模型可以让我们意识到临界密度的存在。

在长尾分布中,大事件的发生概率必须要加以考虑,比如我们要施工一条隧道,我们要把这个项目视为很多子项目的总和:挖掘深浇筑混凝土隧道、设计排水系统、建造墙壁和顶盖等等,项目的总成本等于各个子成本的总和。在这个项目中,各个子项目的成本是相互关联的,一个子项目出现了问题,不但会提高自己的成本,可能也会影响其他项目的部分,这种相互依赖性可能最终会导致一个大型的巨额投入。