您当前的位置:首页 > 经济管理 > 思考,快与慢

第17章 回归均值

1 7

我曾为以色列空军的飞行教官讲授过高效训练的心理学课程,其间经历了职业生涯中最令人欣慰的一次顿悟。我告诉他们,技能培训的重要原则是:奖励进步比惩罚错误更有效。大量研究证据支持这一观点,研究对象包括鸽子、老鼠、人类和其他动物。

热情洋溢的课程结束后,一位最有经验的教官举手示意,谈了自己的看法。他承认奖励进步可能对鸟类有用,但认为它并不适用于飞行学员。他说:“很多时候,我会称赞学员出色的特技表现,但下次他们飞同样的动作时,通常会表现得较差。相反,学员表现不好时,我经常朝他们大吼,总体而言,他们下次的表现会较好。所以,请不要告诉我们奖励有效,惩罚无效,因为情况恰恰相反。”

我教授这则统计学原理已有多年,这一刻能从新的角度看待它,真是令人愉快。教官说得对,但同时也大错特错!他的观察敏锐而精准:在称赞学员之后,他们的表现很可能令人失望,而惩罚学员之后通常会看到他们的进步。但他对奖惩效果的推断错得离谱。他观察到的是所谓的“回归均值”,是表现质量随机波动的结果。当然,他只在学员表现异常出色时才予以表扬,但学员的这次表现可能只是运气使然,因此无论是否受到表扬,学员的后续表现都可能较差。同样,只有当学员表现非常差时,教官才会朝他们发火,但由于向均值回归,无论教官做了什么,学员的表现都可能有所提升。教官是用因果关系来解释随机过程中不可避免的波动。

我得回应教官发起的挑战,但给他们讲有关预测的代数课,他们不会感兴趣。于是,我用粉笔在地上画了一个靶子。我让教官们背过身,不许回头,朝靶子连续扔两次硬币。我们测量了硬币与靶子的距离,将每个人得到的两个结果写在黑板上。然后,我们将结果按照从最佳到最差的顺序排序。很明显,大多数(但不是所有)第一次表现好的人,第二次的表现不佳,而第一次表现不佳的人,第二次的总体表现有所提高。我告诉教官,黑板上的结果与飞行员连续的特技表现类似:在没有任何奖惩的情况下,飞行员表现糟糕之后通常会有所改观,而表现出色之后则会发挥欠佳。

那天,我发现飞行教官陷入了偶然性困局之中:他们在学员表现不佳时给予惩罚,因此,当学员后续表现有所提升,他们以为惩罚起了作用,这实际上跟惩罚毫不相干。处于这种困境的不只是教官。我无意中发现了有关人类状态的一个重要事实:生活给予我们的反馈是反常的。别人合我们心意时,我们就善待他们;反之,就怠慢他们。但从统计学角度看,我们会因与人为善而受到惩罚,因与人交恶而得到回报。

几年前,电子杂志《边缘》的编辑约翰·布罗克曼请一些科学家说说他们“最喜欢的公式”,以下是我的回复:

成功=天赋+好运

巨大的成功=稍多一点儿天赋+大量好运

成功往往是运气使然,这一点不足为奇。在高水平的高尔夫锦标赛头两天的比赛中,我们用它来分析选手表现,却产生了出乎意料的结果。为简单起见,假设那两天选手的平均成绩是72杆。我们关注的选手在第一天表现出色,以66杆结束了比赛。我们从中获得了什么信息?直接推论是,相比其他选手,他更有天赋。成功公式表明,另一个推论同样合理:第一天表现出色的选手,当天的运气好于平均水平。如果你承认成功离不开天赋和好运,那么认定成功的高尔夫选手是幸运的,与认定他是有天赋的一样在理。

同样,如果你关注的球员当天成绩超过标准杆5杆,你有理由推断他的技术很差,当天的运气也不好。当然,你知道这两个推论都是不确定的。还有一种情况也完全有可能——这位打出77杆的选手非常有天赋,只是今天很不走运。我们从第一天的分数中得出以下推论,尽管并不确定,该推论却是合理的,而且正确的概率比错误的概率大。

第一天得分高于平均水平=天赋高于平均水平+第一天运气好

第一天得分低于平均水平=天赋低于平均水平+第一天运气差

现在,假设你知道高尔夫选手第一天的得分,要求预测第二天的成绩。你期望选手第二天稳定发挥,所以最佳猜测是第一位选手得分“高于平均水平”,第二位选手得分“低于平均水平”。当然,运气是另一回事。由于无法预测选手第二天(或任何一天)的运气,你的最佳猜测是运气一般,既不好也不坏。这意味着在没有任何其他信息的情况下,对选手第二天得分的最佳猜测不应重复他们第一天的表现。以下是最恰当的回答:

· 第一天表现出色的选手,第二天也可能获得成功,但得分低于第一天,因为第一天的好运不太可能持续下去。

· 第一天表现不佳的选手,第二天的表现可能会低于平均水平,但会有所提升,因为坏运气不太可能持续下去。

我们也预计,第二天两位高尔夫选手的差距会缩小,尽管最佳猜测是第一位选手的表现仍比第二位选手好。

对选手第二天表现的最佳预测趋于中庸,预测结果并不基于第一天的得分,而是更接近平均水平。听到这一说法,我的学生总是感到惊讶。这种模式正是向均值回归。最初的分数越极端,我们期望的回归就大,因为很高的分数意味着运气极好。回归预测是合理的,但不能保证准确性。如果选手的运气持续走高,第一天66杆,第二天会表现得更好。大多数选手第二天的表现更差,因为他们的运气不再好于平均水平。

现在让时间倒转。根据选手第二天的表现,猜测他们第一天的成绩。你会发现相同的回归均值模式。选手第二天的表现最好,可能是因为当天的运气好,最佳猜测是他们第一天的运气较差,表现欠佳。根据后发事件预测先发事件,你观察到了回归现象,这应该能让你相信,回归没有什么因果解释。

回归效应无处不在,对其误导性的因果解释也比比皆是。众所周知的例子是“《体育画报》的诅咒”——运动员若是登上《体育画报》的封面,下一赛季注定表现不佳,原因是过度自信,以及人们对他期望过高,让他倍感压力。但更简单的解释是:登上《体育画报》封面的运动员在上一赛季的表现一定非常出色,可能是运气助了一臂之力,而运气是变幻莫测的。

我和阿莫斯曾写过一篇关于直觉预测的论文。写作期间,我碰巧观看了冬奥会男子跳台滑雪比赛。运动员有两次机会,两次结果合并得出最终分数。当运动员准备第二跳时,我惊讶地听到解说员如此评论:“挪威队第一跳很棒,现在他一定很紧张,希望保持领先地位,第二跳可能不理想。”“瑞典队第一跳很糟糕,现在他知道自己没什么可失去的了,他会放松下来,这有利于他取得好成绩。”解说员显然觉察到了回归均值现象,编造出一套没有证据的因果说辞,这种说法甚至有可能是正确的。如果每次起跳前测量运动员的脉搏,我们可能会发现,在经历了第一跳的失败后,运动员确实更放松了。当然,情况也可能相反。我们要记住的是,运动员两次成绩的变化不需要因果解释。运气在第一跳中发挥了作用,从数学角度来看,其结果是必然的。这一说法听起来不那么令人满意(我们更喜欢因果解释),但事实上只是回归均值。

回归现象对人类思维来说是陌生的,其原因或许是未能察觉,抑或是解释错误。万有引力和微分学原理出现200年后,人们才首次发现并理解回归。19世纪,一位才华横溢的英国科学家经过艰难的探索,揭开了回归的面纱。

19世纪末,查尔斯·达尔文的表弟、著名学者弗朗西斯·高尔顿爵士发现并提出了“回归均值”这个概念。1886年,他发表了一篇论文,题为《遗传身高向中庸回归》。你可以从中感受到这一发现带来的惊喜。论文列出了连续数代人的身高数据,以及孩子身高与父母身高的对比数据。高尔顿这样描述他的子代研究:

这些数据得出的结果值得关注,我将其作为1877年2月9日皇家学会的演讲材料。从实验中可以看出,子女的身高并不像父母,但总是比他们更接近中庸水平——如果父母较高,子女就会比父母矮;如果父母较矮,子女就会比父母高……实验进一步表明,趋向中庸的平均子代回归与父代向中庸的偏离成正比。

Michael Bulmer, Francis Galton: Pioneer of Heredity and Biometry (Baltimore: Johns Hopkins University Press, 2003).

英国皇家学院是世界上最古老的独立研究机构,高尔顿在此谈论这个“值得关注的观察结果”,显然期待学识渊博的听众为之震惊。真正值得关注的是,回归均值如我们呼吸的空气一样稀松平常,而他对这一统计规律感到惊讶。回归效应无处不在,但我们并没有看清它的本质。它们隐匿于众目睽睽之下。高尔顿进行了数年研究,才将子代的身高回归规律发展到更宽泛的概念,即当两个度量不完全相关时,回归就会不可避免地发生。他需要当时最杰出的统计学家的帮助才能得出这一结论。Michael Bulmer, Francis Galton: Pioneer of Heredity and Biometry (Baltimore: Johns Hopkins University Press, 2003).

高尔顿必须攻克的难题是,如何测量两个不同尺度的变量(如体重和钢琴演奏水平)之间的回归。解决方法是将总体作为参考标准。想象一下,对一所小学所有年级的100名儿童的体重和钢琴演奏水平进行了测量,将两个结果从高到低进行排序。如果简的钢琴演奏水平排第3名,体重排第27名,那么,说她是更好钢琴演奏者比说她身材高挑要更恰当些。以下是我们的简化假设:

无论多大年龄,

· 钢琴演奏水平只取决于每周的练习时间。

· 体重只取决于冰激凌的摄入量。

· 冰激凌的摄入量与每周的钢琴练习时间不相关。

通过减去平均值并将结果除以标准差,研究人员将每个原始分数转换为标准分数。标准分数的均值为0,标准差为1,可以跨变量进行比较(特别是当原始分数的统计分布相似时),并且具有许多理想的数学性质,高尔顿必须弄清楚这些性质才能理解相关性和回归的本质。

现在,使用排序(或统计学家惯用的术语标准分数)的形式,通过减去平均值并将结果除以标准差,研究人员将每个原始分数转换为标准分数。标准分数的均值为0,标准差为1,可以跨变量进行比较(特别是当原始分数的统计分布相似时),并且具有许多理想的数学性质,高尔顿必须弄清楚这些性质才能理解相关性和回归的本质。可写出以下公式:

体重=年龄+冰激凌摄入量

钢琴演奏水平=年龄+每周练习时长

你可以看到,当我们根据体重预测钢琴演奏水平时,会出现回归均值现象,反之亦然。如果只知道汤姆的体重第12名(远高于平均水平),你就可以根据统计数据推断,他的年龄可能大于平均年龄,而且他吃的冰激凌可能比其他孩子多。如果只知道芭芭拉的钢琴成绩是第85名(远低于平均水平),你就可以推断出她年龄可能很小,而且钢琴练习时间可能比大多数孩子少。

在孩子营养不良的环境中,这个相关性就不正确。营养差异将变得重要,共有因素的比例会降低,父母的身高与儿童身高之间的相关性也会随之降低(除非营养不良儿童的父母在童年时也因饥饿发育迟缓)。

两种度量的相关系数在0到1之间变化,是它们共有因素的相对权重。例如,每个人都继承了父母一半的基因,而对于身高这种受环境因素影响较小的特征,父母和孩子之间的相关系数约为0.50。在孩子营养不良的环境中,这个相关性就不正确。营养差异将变得重要,共有因素的比例会降低,父母的身高与儿童身高之间的相关性也会随之降低(除非营养不良儿童的父母在童年时也因饥饿发育迟缓)。为了理解相关性度量的含义,我们列举了一些相关系数的例子:

· 以英制单位或公制单位测量物体的尺寸,相关系数为1。影响某度量的任意因素也会影响另一度量,二者的决定因素是100%共有的。

该相关性是根据美国人口的一个非常大的样本(盖洛普-健康之路身心健康指数)计算的。

· 美国成年男性自我报告的身高和体重的相关系数为0.41。该相关性是根据美国人口的一个非常大的样本(盖洛普-健康之路身心健康指数)计算的。如果将女性和儿童包括在内,相关性会高得多,因为个体的性别和年龄会影响身高和体重,从而提高共有因素的相对权重。

· SAT(学习能力倾向测验)成绩与大学GPA的相关系数约为0.60。然而,研究生的能力测试与成功之间的相关性要小得多,这主要是因为该群体的能力差异很小。如果大家的能力差不多,那么能力差异就不太可能在测量成功方面发挥重要作用。

· 美国人收入和教育水平的相关系数约为0.40。 [ 1 ]

· 家庭收入与家庭电话号码后4位的相关系数为0。

弗朗西斯·高尔顿花了几年时间才发现相关性和回归不是两个概念——

当这两个变量都以标准分数测量时,情况就是这样——也就是说,通过减去平均值并用结果除以标准差来转换每个分数。

它们只是从不同视角阐述了同一概念。当这两个变量都以标准分数测量时,情况就是这样——也就是说,通过减去平均值并用结果除以标准差来转换每个分数。一般规则很简单,但结果却出乎意料:两个变量不完全相关时,就会出现回归均值现象。为了说明高尔顿的见解,看看这个大多数人都觉得有趣的观点:

高智商的女人通常会嫁给智商比自己低的男人。

你可以在聚会上询问该现象背后的原因,以此开启一段愉快的交流,你的朋友会很乐意为你做出解释。即使是跟统计数据打交道的人也会不由自主地用因果关系来解释。有些人可能会认为,高智商女人希望避免与同样聪明的男人一争高下,或者因为聪明男人不想与聪明女人竞争,她们才被迫在择偶时做出妥协。人们在相谈甚欢的聚会上会做出更牵强的解释。现在思考下面这句话:

夫妻的智力得分不完全相关。

这句话显然是正确的,而且平淡无趣。谁会期望它完全相关呢?这没什么可解释的。但从代数角度看,有趣的说法和无趣的说法是等效的。如果配偶的智力不完全相关(并且,如果男性和女性的平均智商没有差异),那么从数学上讲,高智商女人必然会嫁给智商比她们低的男人(当然,反之亦然)。与不完全相关相比,观察到的回归均值并不会更有趣,也没有更多的解释空间。

你可能会同情高尔顿在回归概念上的艰难探索。事实上,统计学家戴维·弗里德曼曾说过,如果回归的话题出现在刑事或民事审判中,那么不得不向陪审团解释回归的一方将败诉。为什么理解回归这么难?主要原因是:我们的思维强烈偏向于因果解释,不擅长处理“纯粹的统计数据”。这也是本书反复出现的主题。我们关注某件事时,关联记忆会寻找事件发生的原因——更准确地说,促发会在潜意识中扩散,寻找存储在记忆中的所有原因。察觉到回归,因果解释就会被激活,但因果解释是错的,因为回归均值有解释,但没有原因。在高尔夫锦标赛中,第一天表现出色的选手后续表现通常不佳,这吸引了我们的注意。最好的解释是,那些选手在第一天非常幸运,但这种解释缺乏思维所偏爱的因果力。事实上,我们付给人很高的报酬,让他们对回归效应做出有趣的解释。如果一位商业评论员称“今年的生意会更好,因为去年的业绩很差”,尽管说得没错,但过不了多久他大概就会被辞退。

我们很难理解回归的概念,根源在于系统1和系统2。没有受过特别训练的人,不清楚相关性和回归之间的关系,甚至接受了统计学训练的人也是如此。系统2发现,很难理解和认识回归,部分原因在于对因果解释的强烈需求,这是系统1的一个特点。

在接受能量饮料治疗的三个月内,抑郁儿童的病情明显好转。

这是我编造的新闻标题,但它报道的是真事:如果用能量饮料治疗抑郁的孩子,经过一段时间,他们的病情就会明显好转。同样,抑郁儿童每天倒立或抱猫20分钟,病情也会好转。这类标题的大多数读者会不由自主地推断,能量饮料或抱猫行为发挥了作用,但该结论毫无道理。抑郁儿童是极端群体,他们比大多数儿童更消沉,但随着时间的推移,极端群体会回归均值。连续的抑郁测试得分之间不完全相关,因此会回归到均值:随着时间的推移,即使抑郁的孩子不抱猫,不喝红牛,病情也会好转。为了得出能量饮料或其他治疗方法有效的结论,必须将接受治疗的患者与不接受治疗(最好是服用安慰剂)的“对照组”进行比较。预计对照组仅通过回归就能改善病情。实验目的是确定实验组的改善程度是否超过回归所能解释的程度。

Howard Wainer,“The Most Dangerous Equation,”American Scientist 95 (2007): 249-56.

对回归效应错误的因果解释并不限于大众媒体的读者,很多著名的研究者也将纯粹的相关性与因果关系混为一谈。Howard Wainer,“The Most Dangerous Equation,”American Scientist 95 (2007): 249-56.统计学家霍华德·魏纳罗列了很多犯错学者的名单。回归效应是研究中常见问题的根源,经验丰富的科学家会对无端的因果推断保持合理的警惕。

马克斯·巴泽曼写了一本书,名为《管理决策中的判断》。我最喜欢的直觉预测错误案例就是根据书中的内容改编而来的:

假设你是一家百货连锁店的销售预测员。所有连锁店的规模和商品大致相同,但由于地点、竞争和随机因素,它们的销售额不同。你得到了2011年的销售数据,要预测2012年的销售额。你必须接受经济学家的总体预测,即销售额增长10%。你将如何填写表17-1?

表17-1

读完这一章,你知道将每家店的销售额增加10%显然是错的。你希望预测符合回归效应,这需要给业绩不佳的店的销售额增加10%以上,给其他店增加较少的比例(甚至降低比例)。但如果你去问别人这个问题,他们会疑惑,你为什么要问这种显而易见的问题?高尔顿历经艰辛才发现,回归并非一目了然的概念。

“她说经验告诉她,批评比赞扬更有效。她不明白,这一切都是回归均值的表现。”

“他的第二次面试没有第一次那么令人印象深刻,或许是因为他担心让我们失望,但更大的可能是,他第一次的表现太出色了。”

“我们的筛选程序很好,但并不完美,所以我们应该期望出现回归现象。最优秀的候选人往往达不到我们的期望,对此我们不应该感到惊讶。”

[ 1 ]这种相关性似乎令人印象深刻,但多年前,我从社会学家克里斯托弗·詹克斯那里了解到,如果人人都接受同样的教育,收入不平等(以标准差测量)只会减少约9%。其公式为其中r为相关系数。

上一章 封面 书架 下一章