# 正态分布

分布是以数学的方式刻画变量的变差(在某个类型内部的差异)和多样性(不同类型之间的差异),将变量表示为数值上或类别上定义的概率分布。正态分布的形状是钟形曲线,大多数物种的高度和重量都满足正态分布,它们围绕着均值对称分布,而且不会包含特别大或特别小的事件。

当然,也不是所有事件的规模都是正态分布的,地震、战争、死亡人数就是呈长尾分布,这种分布主要由很小的事件组成,也包括极少数非常大的大型事件。了解系统是否由于多种原因产生正态分布或长尾分布是非常重要的。

# 结构概念

分布为事件或价值分配概率,各种统计量将分布中包含的信息压缩为单个数值,例如均值,分布的平均值。均值之外的第二个重要统计量是方差,方差可以衡量一个分布的离散程度,也就是数据与均值之间距离平方的平均值。分布的标准差等于方差的平方根,它是另一个常用的统计量。

如上图所示,正态分布的均值是对称的,如果一个正态分布的均值等于0,那么抽取到大于3的概率等于抽取到小于-3的概率。正态分布的特征在于其均值和标准差,也就是说,所有的正态分布图形看起来都是相似的,大约68%的结果在均值的一个标准差内,大约95%的结果在两个标准差呢,超过99%的结果在三个标准差内。

我们可以利用正态分布的规律给各种范围的结果分配概率,例如2019年福特的汽车平均每加仑汽油可以行驶40英里,且标准差为每加仑1英里,那么超过99%的福特汽车每加仑汽油可以行驶37至43英里。

# 中心极限定理

非常多的现象都表现为正态分布,例如动物和植物体型的大小,我们日常考试中的成绩,商店每天的销售额等等。中心极限定理表明为什么对随机变量求和或取均值会产生正态分布。

中心极限定理:只要各随机变量是相互独立的,每个随机变量的方差都是有限的,且没有任何一个小部分随机变量贡献了大部分变差,那N≥20个随机变量的和就近似一个正态分布。

中心极限定理的一个非常重要的特征是,随机变量本身不一定是正态分布的,它们可以有任何分布,只要每一个随机变量都具有有限的方差,并且它们中任何一个小部分随机变量都不构成大部分方法即可。例如,在一个500人的学校中,人们的购买行为数据显示,每个人每个星期花费100元,在这些人中,可能有些人这个星期只花了50元,可能有些人花了150元,其他人可能每个星期花费在20-180元之间。只要每个人的支出都只有有限的变差,而且没有任何一小部分人贡献了大部分 变差,那么分布的总和必定是一个正态分布,其均值为50000元,每个星期支出也看起来是对称的,可能高于55000,也可能低于45000.

# 应用正态分布

为什么罕见结果在规模小的群体中更常见,为为什么最好的学校往往规模最小,为什么癌症发病率最高的郡县人口较少?

回想一下,在一个正态分布中,95%的结果位于两个标准差内,99%的结果位于三个标准差内,根据中心极限定理,一组独立随机变量的均值将是正态分布的,均值的标准差公式表明,大的总体标准差要比小的总体的标准差低得多(大的总体离散程度较低),由此可以推断,在小的群体中应该会观察到更多的好事以及更多的坏事。

如果不考虑样本量,直接根据异常值推断因果关系可能会出现一些错误。假设现在有两所学校,一所是只有100名学生的小学校,另一所是有1600名学生的大学校,这两所学校的成绩平均分均为100,标准差均为80.在小学校中,平均值的标准差为8(80/10),而在大学校中,平均值的标准差等于2(80/40)。

如果以平均分为标准,把平均成绩在110分以上的学校成为优秀,把平均成绩在120以上的学校称为非常优秀,那么只有小学才有可能达到这个标准,因为对于小学校而言,平均成绩为110分时,只高出1.25个标准差,平均成绩为120时,则比总体均值高出2.5个标准差。对大学校进行计算时,我们会发现优秀的阈值比均值高5个标准差,非常优秀阈值则比均值高10个标准差,这类事件很难发生。因此,学校规模小这个事实不能证明小学校表现的更好。

在数据样本量足够的情况下,我们可以利用正态分布的规律来检验各种平均值的显著性差异,例如利用正态分布去做安全生产监控,在工业生产过程中,监控参数高于三个标准差时我们就进行预警。利用标准差还可以打破平均数的陷阱,例如假设数据表明,成都的通勤时间为35分钟,重庆的通勤时间为34分钟,如果这两个数据集的均值标准差都是1分钟,那么我们可以认为两地的通勤时间基本相同,如果两地标准差相差很多,我们就不能根据平均值相近就认为两地通勤时间基本相同。

六西格玛就是一个目的减少误差的方法,该方法主要是根据正态分布对产品属性进行建模。六西格玛方法涉及缩减标准差的大小从而降低生产出不合格产品的可能性。各企业可以通过加强质量控制来降低误差率,降低标准差后,即便出现了超过6个标准差的误差,也可以一定程度的避免出现故障。

# 对数正态分布

中心极限定理要求我们对随机变量求和或求平均值,以获得正态分布。如果随机变量是不可相加而是以某种方式相互作用的,或者它们不是相互独立的,那么产生的分布就不一定是正态分布,独立随机变量之间的乘积不是正态分布,而是是对数正态分布。

对数正态分布缺乏对称性,因为大于1的数字乘积的增长速度比它们的和的增长速度快,比如4+4=8,但4*4=16,而小于1的数字成绩比它们的和小。如果将20个不均匀分布在0到10之间的随机变量相乘,那么多次相乘后所得到的乘积将会包括一些很接近与0的结果,和一些相当大的结果,如下图:

一个对数正态分布的尾部长度取决于随机变量相乘的方差,如果它们的方差很小,尾巴就会很短,如果方差很大,尾巴就会很长。在很多情况下都会出现对数正态分布,例如地球矿物质的浓度,新冠从收到感染到症状出现的时间等等。

统计的国家收入的分布也近似于对数正态分布,大多数企业和机构都按某种百分比来分配加薪,表现高于平均水平的人能够得到更高百分比的加薪,表现低于平均水平的人则只能得到更低百分比的加薪或者减薪。如果每一年的绩效都是相互独立且随机的,那么根据员工绩效按百分几加薪,就会产生一个对数正态分布,这样的话即便后来的表现相同,未来几年的收入差距也会加剧,这就是马太效应。

# 小结

正态分布可以用均值和标准差来表示。中心极限定理说明,当我们将有限方差的独立随机变量相加或求平均值时,正态分布是如何产生的,因此可以得出小的群体更有可能呈现异常事件,如果缺乏对这类事件的洞察力,就会做出不正确的推断并采取不明智的行动。

并不是每个量都可以写成独立随机变量的总和或平均值,因此并非所有事件都满足正态分布,有些量是独立随机变量之间的乘积,因此它们是对数正态分布的。高方差的随机变量相乘时,对数正态分布的尾巴会变得更长,长尾分布的可预测性较差,作为一个预测规则,我们倾向于规律性,我们希望随机冲击相加,而不是相乘,从而减少发生大事件的可能性。