第17章回归均值

第 1 7 章

回归均值

我曾为以色列空军的飞行教官讲授过高效训练的心理学课程，其间经历了职业生涯中最令人欣慰的一次顿悟。我告诉他们，技能培训的重要原则是：奖励进步比惩罚错误更有效。大量研究证据支持这一观点，研究对象包括鸽子、老鼠、人类和其他动物。

热情洋溢的课程结束后，一位最有经验的教官举手示意，谈了自己的看法。他承认奖励进步可能对鸟类有用，但认为它并不适用于飞行学员。他说：“很多时候，我会称赞学员出色的特技表现，但下次他们飞同样的动作时，通常会表现得较差。相反，学员表现不好时，我经常朝他们大吼，总体而言，他们下次的表现会较好。所以，请不要告诉我们奖励有效，惩罚无效，因为情况恰恰相反。”

我教授这则统计学原理已有多年，这一刻能从新的角度看待它，真是令人愉快。教官说得对，但同时也大错特错！他的观察敏锐而精准：在称赞学员之后，他们的表现很可能令人失望，而惩罚学员之后通常会看到他们的进步。但他对奖惩效果的推断错得离谱。他观察到的是所谓的“回归均值”，是表现质量随机波动的结果。当然，他只在学员表现异常出色时才予以表扬，但学员的这次表现可能只是运气使然，因此无论是否受到表扬，学员的后续表现都可能较差。同样，只有当学员表现非常差时，教官才会朝他们发火，但由于向均值回归，无论教官做了什么，学员的表现都可能有所提升。教官是用因果关系来解释随机过程中不可避免的波动。

我得回应教官发起的挑战，但给他们讲有关预测的代数课，他们不会感兴趣。于是，我用粉笔在地上画了一个靶子。我让教官们背过身，不许回头，朝靶子连续扔两次硬币。我们测量了硬币与靶子的距离，将每个人得到的两个结果写在黑板上。然后，我们将结果按照从最佳到最差的顺序排序。很明显，大多数（但不是所有）第一次表现好的人，第二次的表现不佳，而第一次表现不佳的人，第二次的总体表现有所提高。我告诉教官，黑板上的结果与飞行员连续的特技表现类似：在没有任何奖惩的情况下，飞行员表现糟糕之后通常会有所改观，而表现出色之后则会发挥欠佳。

那天，我发现飞行教官陷入了偶然性困局之中：他们在学员表现不佳时给予惩罚，因此，当学员后续表现有所提升，他们以为惩罚起了作用，这实际上跟惩罚毫不相干。处于这种困境的不只是教官。我无意中发现了有关人类状态的一个重要事实：生活给予我们的反馈是反常的。别人合我们心意时，我们就善待他们；反之，就怠慢他们。但从统计学角度看，我们会因与人为善而受到惩罚，因与人交恶而得到回报。

天赋与运气

几年前，电子杂志《边缘》的编辑约翰·布罗克曼请一些科学家说说他们“最喜欢的公式”，以下是我的回复：

成功=天赋+好运

巨大的成功=稍多一点儿天赋+大量好运

成功往往是运气使然，这一点不足为奇。在高水平的高尔夫锦标赛头两天的比赛中，我们用它来分析选手表现，却产生了出乎意料的结果。为简单起见，假设那两天选手的平均成绩是72杆。我们关注的选手在第一天表现出色，以66杆结束了比赛。我们从中获得了什么信息？直接推论是，相比其他选手，他更有天赋。成功公式表明，另一个推论同样合理：第一天表现出色的选手，当天的运气好于平均水平。如果你承认成功离不开天赋和好运，那么认定成功的高尔夫选手是幸运的，与认定他是有天赋的一样在理。

同样，如果你关注的球员当天成绩超过标准杆5杆，你有理由推断他的技术很差，当天的运气也不好。当然，你知道这两个推论都是不确定的。还有一种情况也完全有可能——这位打出77杆的选手非常有天赋，只是今天很不走运。我们从第一天的分数中得出以下推论，尽管并不确定，该推论却是合理的，而且正确的概率比错误的概率大。

第一天得分高于平均水平=天赋高于平均水平+第一天运气好

第一天得分低于平均水平=天赋低于平均水平+第一天运气差

现在，假设你知道高尔夫选手第一天的得分，要求预测第二天的成绩。你期望选手第二天稳定发挥，所以最佳猜测是第一位选手得分“高于平均水平”，第二位选手得分“低于平均水平”。当然，运气是另一回事。由于无法预测选手第二天（或任何一天）的运气，你的最佳猜测是运气一般，既不好也不坏。这意味着在没有任何其他信息的情况下，对选手第二天得分的最佳猜测不应重复他们第一天的表现。以下是最恰当的回答：

· 第一天表现出色的选手，第二天也可能获得成功，但得分低于第一天，因为第一天的好运不太可能持续下去。

· 第一天表现不佳的选手，第二天的表现可能会低于平均水平，但会有所提升，因为坏运气不太可能持续下去。

我们也预计，第二天两位高尔夫选手的差距会缩小，尽管最佳猜测是第一位选手的表现仍比第二位选手好。

对选手第二天表现的最佳预测趋于中庸，预测结果并不基于第一天的得分，而是更接近平均水平。听到这一说法，我的学生总是感到惊讶。这种模式正是向均值回归。最初的分数越极端，我们期望的回归就大，因为很高的分数意味着运气极好。回归预测是合理的，但不能保证准确性。如果选手的运气持续走高，第一天66杆，第二天会表现得更好。大多数选手第二天的表现更差，因为他们的运气不再好于平均水平。

现在让时间倒转。根据选手第二天的表现，猜测他们第一天的成绩。你会发现相同的回归均值模式。选手第二天的表现最好，可能是因为当天的运气好，最佳猜测是他们第一天的运气较差，表现欠佳。根据后发事件预测先发事件，你观察到了回归现象，这应该能让你相信，回归没有什么因果解释。

回归效应无处不在，对其误导性的因果解释也比比皆是。众所周知的例子是“《体育画报》的诅咒”——运动员若是登上《体育画报》的封面，下一赛季注定表现不佳，原因是过度自信，以及人们对他期望过高，让他倍感压力。但更简单的解释是：登上《体育画报》封面的运动员在上一赛季的表现一定非常出色，可能是运气助了一臂之力，而运气是变幻莫测的。

我和阿莫斯曾写过一篇关于直觉预测的论文。写作期间，我碰巧观看了冬奥会男子跳台滑雪比赛。运动员有两次机会，两次结果合并得出最终分数。当运动员准备第二跳时，我惊讶地听到解说员如此评论：“挪威队第一跳很棒，现在他一定很紧张，希望保持领先地位，第二跳可能不理想。”“瑞典队第一跳很糟糕，现在他知道自己没什么可失去的了，他会放松下来，这有利于他取得好成绩。”解说员显然觉察到了回归均值现象，编造出一套没有证据的因果说辞，这种说法甚至有可能是正确的。如果每次起跳前测量运动员的脉搏，我们可能会发现，在经历了第一跳的失败后，运动员确实更放松了。当然，情况也可能相反。我们要记住的是，运动员两次成绩的变化不需要因果解释。运气在第一跳中发挥了作用，从数学角度来看，其结果是必然的。这一说法听起来不那么令人满意（我们更喜欢因果解释），但事实上只是回归均值。

理解回归

回归现象对人类思维来说是陌生的，其原因或许是未能察觉，抑或是解释错误。万有引力和微分学原理出现200年后，人们才首次发现并理解回归。19世纪，一位才华横溢的英国科学家经过艰难的探索，揭开了回归的面纱。

19世纪末，查尔斯·达尔文的表弟、著名学者弗朗西斯·高尔顿爵士发现并提出了“回归均值”这个概念。1886年，他发表了一篇论文，题为《遗传身高向中庸回归》。你可以从中感受到这一发现带来的惊喜。论文列出了连续数代人的身高数据，以及孩子身高与父母身高的对比数据。高尔顿这样描述他的子代研究：

这些数据得出的结果值得关注，我将其作为1877年2月9日皇家学会的演讲材料。从实验中可以看出，子女的身高并不像父母，但总是比他们更接近中庸水平——如果父母较高，子女就会比父母矮；如果父母较矮，子女就会比父母高……实验进一步表明，趋向中庸的平均子代回归与父代向中庸的偏离成正比。

Michael Bulmer, Francis Galton: Pioneer of Heredity and Biometry (Baltimore: Johns Hopkins University Press, 2003).

英国皇家学院是世界上最古老的独立研究机构，高尔顿在此谈论这个“值得关注的观察结果”，显然期待学识渊博的听众为之震惊。真正值得关注的是，回归均值如我们呼吸的空气一样稀松平常，而他对这一统计规律感到惊讶。回归效应无处不在，但我们并没有看清它的本质。它们隐匿于众目睽睽之下。高尔顿进行了数年研究，才将子代的身高回归规律发展到更宽泛的概念，即当两个度量不完全相关时，回归就会不可避免地发生。他需要当时最杰出的统计学家的帮助才能得出这一结论。 Michael Bulmer, Francis Galton: Pioneer of Heredity and Biometry (Baltimore: Johns Hopkins University Press, 2003).

高尔顿必须攻克的难题是，如何测量两个不同尺度的变量（如体重和钢琴演奏水平）之间的回归。解决方法是将总体作为参考标准。想象一下，对一所小学所有年级的100名儿童的体重和钢琴演奏水平进行了测量，将两个结果从高到低进行排序。如果简的钢琴演奏水平排第3名，体重排第27名，那么，说她是更好钢琴演奏者比说她身材高挑要更恰当些。以下是我们的简化假设：

无论多大年龄，

· 钢琴演奏水平只取决于每周的练习时间。

· 体重只取决于冰激凌的摄入量。

· 冰激凌的摄入量与每周的钢琴练习时间不相关。

通过减去平均值并将结果除以标准差，研究人员将每个原始分数转换为标准分数。标准分数的均值为0，标准差为1，可以跨变量进行比较（特别是当原始分数的统计分布相似时），并且具有许多理想的数学性质，高尔顿必须弄清楚这些性质才能理解相关性和回归的本质。

现在，使用排序（或统计学家惯用的术语标准分数）的形式，通过减去平均值并将结果除以标准差，研究人员将每个原始分数转换为标准分数。标准分数的均值为0，标准差为1，可以跨变量进行比较（特别是当原始分数的统计分布相似时），并且具有许多理想的数学性质，高尔顿必须弄清楚这些性质才能理解相关性和回归的本质。可写出以下公式：

体重=年龄+冰激凌摄入量

钢琴演奏水平=年龄+每周练习时长

你可以看到，当我们根据体重预测钢琴演奏水平时，会出现回归均值现象，反之亦然。如果只知道汤姆的体重第12名（远高于平均水平），你就可以根据统计数据推断，他的年龄可能大于平均年龄，而且他吃的冰激凌可能比其他孩子多。如果只知道芭芭拉的钢琴成绩是第85名（远低于平均水平），你就可以推断出她年龄可能很小，而且钢琴练习时间可能比大多数孩子少。

在孩子营养不良的环境中，这个相关性就不正确。营养差异将变得重要，共有因素的比例会降低，父母的身高与儿童身高之间的相关性也会随之降低（除非营养不良儿童的父母在童年时也因饥饿发育迟缓）。

两种度量的相关系数在0到1之间变化，是它们共有因素的相对权重。例如，每个人都继承了父母一半的基因，而对于身高这种受环境因素影响较小的特征，父母和孩子之间的相关系数约为0.50。在孩子营养不良的环境中，这个相关性就不正确。营养差异将变得重要，共有因素的比例会降低，父母的身高与儿童身高之间的相关性也会随之降低（除非营养不良儿童的父母在童年时也因饥饿发育迟缓）。为了理解相关性度量的含义，我们列举了一些相关系数的例子：

· 以英制单位或公制单位测量物体的尺寸，相关系数为1。影响某度量的任意因素也会影响另一度量，二者的决定因素是100%共有的。

该相关性是根据美国人口的一个非常大的样本（盖洛普-健康之路身心健康指数）计算的。

· 美国成年男性自我报告的身高和体重的相关系数为0.41。该相关性是根据美国人口的一个非常大的样本（盖洛普-健康之路身心健康指数）计算的。如果将女性和儿童包括在内，相关性会高得多，因为个体的性别和年龄会影响身高和体重，从而提高共有因素的相对权重。

· SAT（学习能力倾向测验）成绩与大学GPA的相关系数约为0.60。然而，研究生的能力测试与成功之间的相关性要小得多，这主要是因为该群体的能力差异很小。如果大家的能力差不多，那么能力差异就不太可能在测量成功方面发挥重要作用。

· 美国人收入和教育水平的相关系数约为0.40。 [ 1 ]

· 家庭收入与家庭电话号码后4位的相关系数为0。

弗朗西斯·高尔顿花了几年时间才发现相关性和回归不是两个概念——

当这两个变量都以标准分数测量时，情况就是这样——也就是说，通过减去平均值并用结果除以标准差来转换每个分数。

它们只是从不同视角阐述了同一概念。当这两个变量都以标准分数测量时，情况就是这样——也就是说，通过减去平均值并用结果除以标准差来转换每个分数。一般规则很简单，但结果却出乎意料：两个变量不完全相关时，就会出现回归均值现象。为了说明高尔顿的见解，看看这个大多数人都觉得有趣的观点：

高智商的女人通常会嫁给智商比自己低的男人。

你可以在聚会上询问该现象背后的原因，以此开启一段愉快的交流，你的朋友会很乐意为你做出解释。即使是跟统计数据打交道的人也会不由自主地用因果关系来解释。有些人可能会认为，高智商女人希望避免与同样聪明的男人一争高下，或者因为聪明男人不想与聪明女人竞争，她们才被迫在择偶时做出妥协。人们在相谈甚欢的聚会上会做出更牵强的解释。现在思考下面这句话：

夫妻的智力得分不完全相关。

这句话显然是正确的，而且平淡无趣。谁会期望它完全相关呢？这没什么可解释的。但从代数角度看，有趣的说法和无趣的说法是等效的。如果配偶的智力不完全相关（并且，如果男性和女性的平均智商没有差异），那么从数学上讲，高智商女人必然会嫁给智商比她们低的男人（当然，反之亦然）。与不完全相关相比，观察到的回归均值并不会更有趣，也没有更多的解释空间。

你可能会同情高尔顿在回归概念上的艰难探索。事实上，统计学家戴维·弗里德曼曾说过，如果回归的话题出现在刑事或民事审判中，那么不得不向陪审团解释回归的一方将败诉。为什么理解回归这么难？主要原因是：我们的思维强烈偏向于因果解释，不擅长处理“纯粹的统计数据”。这也是本书反复出现的主题。我们关注某件事时，关联记忆会寻找事件发生的原因——更准确地说，促发会在潜意识中扩散，寻找存储在记忆中的所有原因。察觉到回归，因果解释就会被激活，但因果解释是错的，因为回归均值有解释，但没有原因。在高尔夫锦标赛中，第一天表现出色的选手后续表现通常不佳，这吸引了我们的注意。最好的解释是，那些选手在第一天非常幸运，但这种解释缺乏思维所偏爱的因果力。事实上，我们付给人很高的报酬，让他们对回归效应做出有趣的解释。如果一位商业评论员称“今年的生意会更好，因为去年的业绩很差”，尽管说得没错，但过不了多久他大概就会被辞退。

我们很难理解回归的概念，根源在于系统1和系统2。没有受过特别训练的人，不清楚相关性和回归之间的关系，甚至接受了统计学训练的人也是如此。系统2发现，很难理解和认识回归，部分原因在于对因果解释的强烈需求，这是系统1的一个特点。

在接受能量饮料治疗的三个月内，抑郁儿童的病情明显好转。

这是我编造的新闻标题，但它报道的是真事：如果用能量饮料治疗抑郁的孩子，经过一段时间，他们的病情就会明显好转。同样，抑郁儿童每天倒立或抱猫20分钟，病情也会好转。这类标题的大多数读者会不由自主地推断，能量饮料或抱猫行为发挥了作用，但该结论毫无道理。抑郁儿童是极端群体，他们比大多数儿童更消沉，但随着时间的推移，极端群体会回归均值。连续的抑郁测试得分之间不完全相关，因此会回归到均值：随着时间的推移，即使抑郁的孩子不抱猫，不喝红牛，病情也会好转。为了得出能量饮料或其他治疗方法有效的结论，必须将接受治疗的患者与不接受治疗（最好是服用安慰剂）的“对照组”进行比较。预计对照组仅通过回归就能改善病情。实验目的是确定实验组的改善程度是否超过回归所能解释的程度。

Howard Wainer,“The Most Dangerous Equation,”American Scientist 95 (2007): 249-56.

对回归效应错误的因果解释并不限于大众媒体的读者，很多著名的研究者也将纯粹的相关性与因果关系混为一谈。 Howard Wainer,“The Most Dangerous Equation,”American Scientist 95 (2007): 249-56. 统计学家霍华德·魏纳罗列了很多犯错学者的名单。回归效应是研究中常见问题的根源，经验丰富的科学家会对无端的因果推断保持合理的警惕。

马克斯·巴泽曼写了一本书，名为《管理决策中的判断》。我最喜欢的直觉预测错误案例就是根据书中的内容改编而来的：

假设你是一家百货连锁店的销售预测员。所有连锁店的规模和商品大致相同，但由于地点、竞争和随机因素，它们的销售额不同。你得到了2011年的销售数据，要预测2012年的销售额。你必须接受经济学家的总体预测，即销售额增长10%。你将如何填写表17-1？

表17-1

读完这一章，你知道将每家店的销售额增加10%显然是错的。你希望预测符合回归效应，这需要给业绩不佳的店的销售额增加10%以上，给其他店增加较少的比例（甚至降低比例）。但如果你去问别人这个问题，他们会疑惑，你为什么要问这种显而易见的问题？高尔顿历经艰辛才发现，回归并非一目了然的概念。

谈谈回归均值

“她说经验告诉她，批评比赞扬更有效。她不明白，这一切都是回归均值的表现。”

“他的第二次面试没有第一次那么令人印象深刻，或许是因为他担心让我们失望，但更大的可能是，他第一次的表现太出色了。”

“我们的筛选程序很好，但并不完美，所以我们应该期望出现回归现象。最优秀的候选人往往达不到我们的期望，对此我们不应该感到惊讶。”

[ 1 ]这种相关性似乎令人印象深刻，但多年前，我从社会学家克里斯托弗·詹克斯那里了解到，如果人人都接受同样的教育，收入不平等（以标准差测量）只会减少约9%。其公式为其中r为相关系数。

第17章 回归均值

第17章回归均值