# 线性模型

模型通常假定变量之间存在某种特定的函数关系,这种关系可以是线性的,也可以是非线性的。例如,房子的价值随他的面积线性增加,房屋面积扩大200平米所带来的价值增量,等于房屋面积扩大100的两倍,这种房屋面积与房屋价值的二元关系就是线性关系。

在线性模型中,自变量x的变化,会导致因变量y的线性变化,y=mx+b。其中,m等于直线的斜率,b等于截距。线性回归模型的目标是找到能够最小化到各数据点的直线。假设我们找到了一组年龄介于20岁到60岁之间的成人年龄数据以及他们每个星期走路的距离,可以发现如下回归方程:第i个人步行的英里数=-0.1x年龄i+12+εi

这个回归方程告诉我们,距离随着年龄的增长而减少,还告诉我们这种效应中年龄每增长1岁,距离就减少0.1英里。通过这个方程,我们就可以预测一个40岁的人每个星期步行8英里,而50岁的人每个星期步行7英里。但是,用于产生回归的数据不会全部都落在回归线上。下图显示了用于生产回归线的假想数据,其中有一个灰色圆圈代表的人40岁了,每个星期步行11英里,比模型的估计要多走3英里,为了使数据与模型一致,我们在方程中给每个数据点增加了一个误差项,用ε表示,它等于模型估计值与因变量实际值之间的差异,这个人的误差项为+3英里。

在社会环境和生物环境中,我们不能期待会有完美的线性拟合,结果通常个会取决于多个变量,但是根据定义,单变量回归只能包含一个变量。由于存在被省略的变量,所以预测值往往会偏离实际值。这个40岁的人走的路可能要比预期的更多,因为他的职业可能需要长期长途跋涉,这个模型没有把职业作为一个变量,误差项也可能由测量不当引起,例如这个人利用手机收集运动的数据,这种方式本身的误差就比较大。线性回归可以告诉我们关于自变量系数的如下内容:

  • 符号:自变量与因变量之间的正相关或负相关
  • 显著性(p值):系数上非零符号的概率
  • 大小:对自变量系数的最佳估计

统计学家用p值来表示系数的显著性,p值等于回归的系数不为0的概率,p值的标准阈值是5%和1%。为了阐明如何利用回归来指导行动,我们可以想象这样一家公司,这家公司供应超过100中商品,客户会购买包含6种、12种或24种商品的包装,客户下单后,员工负责包装盒运输,将每8小时班次的订单数量作为员工工作年限的函数进行回归,会得到如下结果:完成的订单数=200+20(1%)*工作年数。在这个方程中,工作年数前面的系数20的显著性水平为1%,这种因果关系可以用来预测每个员工每个班次可以完成的订单数量,用模型实例,既可以给出预测,也可以指导行动。

回归所揭示的是变量之间的相关关系,而不是因果关系,如果先构建了某个模型,然后用回归检验模型的结果是否得到数据的支持,那也不能证明因果关系。

# 多元线性模型

大多数现象都有不止一个因果变量和相关变量,一栋房子的价值可以要取决于室内面积、建筑类型以及附近学区质量等等,在解释房子价值的时候,可以把所有这些变量都包含在回归中。多元线性回归模型拟合了具有多变量的线性方程,这些方程包括每个自变量的系数,下面的方程反应了这样一个假设的回归输出:学生在数学考试中的成绩,是学生学习的小时数(HRS)、学生家庭社会经济状况(SES)和上补习班课程数量(AC)的函数:数学成绩=21.1+9.2(1%)*HRS+0.8*SES+6.9(5%)*AC

根据回归分析的结果,学生每多学习一个小时,数据成绩就会提高9.2分,这个系数在1%的水平上显著,意味着尽管没有因果关系,它们也有很强的相关性,这个方程还表明,没参加一个补习班,数学成绩能够提高接近7分,这个系数仅仅在5%的水平上显著。有了这样一个回归方程,我们就可以预测结果,根据这个明显,我们可以预测如果花7小时学习,并同时参加一个补习班课程,数学成绩就能达到90分左右。因为这个模型无法推断因果关系,所以用来指导行动需要保持谨慎。

虽然线性回归不能说明是什么原因导致数据呈现出来的特定模式,但是它可以帮助我们排除其他解释。例如,2016年美国白人家庭的平均财富是非洲裔美国人家庭和拉美裔美国人家庭的10倍。有各种各样的原因来解释这种差距,比如制度因素、收入差距、储蓄行为差异或结婚率差异等等。回归可以为其中一些解释提供支持,并排除其他解释,例如,回归分析表明非洲裔美国人的婚姻状况与家庭财富之间没有显著关系,因此婚姻状况不能成为这种财富差异的原因。

# 小结

线性回归揭示了自变量与我们感兴趣的因变量之间的相关程度,如果这种相关是因果关系,那么具有大系数变量的变化就会产生很大的影响。线性模型要假定效应大小不变,线性回归为我们对数据进行第一轮加工提供了一个强大的工具,有了它,我们就能够识别出变量的符号、大小和显著性。

我们不应该用线性模型对过于久远的未来进行预测,因为大部分的现象都不是线性的,因此回归模型通常会包括非线性项,例如变量的平方、平方根甚至对数。虽然线性可能是一个强大但不切实际的假设,但是它提供了一个比较好的起点,在给定了数据的情况下,可以使用线性模型来检验我们的直觉判断。