第18章驯服直觉性预测

第 1 8 章

驯服直觉性预测

生活中需要预测的事情很多。经济学家预测通货膨胀和失业率，金融分析师预测收入，军事专家预测伤亡人数，风险投资家预测盈利能力，出版商和制片人预测受众，承包商预测完成项目所需的时间，主厨预测菜单上菜肴的需求，工程师预测建筑需要的混凝土量，消防指挥官预测灭火所需的消防车数量。在个人生活中，我们预测配偶对搬家提议的反应，或自己适应新工作的情况。

有些预测性判断，例如工程师的判断，主要靠查找表、精确计算以及对类似情况下观察结果的详尽分析。有些预测则涉及直觉和系统1。一些直觉主要来自技能和专业知识，它们是经验积累的结果。在《如何作出正确决策》等书中，加里·克莱因描述了国际象棋大师、消防指挥官和医生快速、自动的判断和选择，说明了技术性直觉的特点。专业人员能识别熟悉的线索，很快想到当前问题的解决方案。

有些直觉与技术性直觉在主观上无法区分，它们源于启发式运作，通常用一个简单的问题代替被问的较难的问题。即使基于对弱证据的非回归性评估，也可以产生非常自信的直觉判断。当然，很多判断，尤其是专业领域的判断，会受到分析和直觉的共同影响。

非回归性直觉

来看看我们之前认识的人：

朱莉现在是某州立大学大四的学生。她4岁时就能流利地阅读。她的GPA是多少？

熟悉美国教育制度的人很快就会想到，她的GPA通常在3.7或3.8左右。这个判断是怎么做出的？它涉及系统1的几项运作。

· 寻求证据（朱莉的阅读能力）和预测目标（她的GPA）之间的因果关系。这种关系可以是间接的。在该例中，儿时的阅读能力和高GPA都是学术天赋的标志。某些关联是必要的。你（你的系统2）可能会拒绝朱莉的无关信息，比如在钓鱼比赛中获胜，或高中时期在举重方面表现出色等。这个过程是有效的二分法。我们能够拒绝无关或虚假的信息，但系统1无法调整证据中的小缺陷。因此，直觉性预测对证据的实际预测质量几乎完全不敏感。一旦发现联系，比如朱莉儿时的阅读能力，“所见即一切”法则就开始发挥作用：你的关联记忆快速自动地从可用信息中构建出可能性最大的故事。

· 接下来，比照相关规范对证据进行评估。一个4岁就能流利阅读的孩子，其早慧程度如何？这种能力对应的相对排名或百分位数是多少？与朱莉进行比较的群体（我们称之为参照群体）并不十分明确，但这也是正常的谈话习惯：如果有人说某个大学毕业生“非常聪明”，你无须去问：“当你说‘非常聪明’时，想到的是哪个参照群体？”

· 下一步涉及替代和强度匹配。对朱莉儿时认知能力不可靠证据的评估，被用来回答她大学的GPA问题。给朱莉的GPA和儿时的阅读成就分配相同的百分位数的分数。

· 这个问题明确规定，答案必须是GPA等级，这需要另一种强度匹配。先形成对朱莉学术成就的总体印象，再寻找与她的才华证据相匹配的GPA。最后一步是转换，将你对朱莉相对学业级别的印象转换为相应的GPA。

通过强度匹配形成的预测与它们所依据的证据一样极端，导致人们对两个截然不同的问题给出相同的答案：

朱莉在阅读早慧方面的百分位数是多少？

朱莉的GPA百分位数是多少？

现在，你很容易就发现，以上活动都体现了系统1的特征。我将其罗列为一个有序的步骤，但关联记忆的激活扩散不是这样运作的。你需要想象一个激活扩散过程，它由证据和问题引发，可以自我反馈，最终形成最合乎逻辑的解决方案。

辅导员在访谈基础上对8名大一新生进行了描述。我和阿莫斯让受试者根据描述对他们做出判断。每个描述由5个形容词组成，例如：

聪明、自信、好学、勤奋、好奇

我们请一些受试者回答两个问题：

就学术能力而言，这一描述给你留下的印象有多深刻？

在对大一新生的描述中，你认为给你留下更深刻印象的描述的比例是多少？

要回答上述问题，你得通过比较来评估证据，比较对象是辅导员描述的内容和它们在你心中的规范。规范的存在本身就很了不起。尽管你并不知道自己是从哪里学到这些规范的，但你能明确感觉到描述所传达的热情：辅导员认为这个学生不错，但不是特别优秀。还有比聪明（才华横溢、有创造力）、好学（博学、博大精深、学识渊博）和勤奋（热情、精益求精）更高级的形容词。你的判断是：该生很有可能位于前15%，但不太可能是前3%。至少在同一种文化中，这样的判断会使人们达成鲜明的共识。

对其他受试者，我们提出了不同的问题：

你估计该生的GPA是多少？

获得更高GPA的大一新生的比例是多少？

你需要再次审题，才能发现这两组问题之间的细微差别。区别应该是显而易见的，但事实并非如此。第一组问题只需评估证据，第二组问题则不同，涉及大量的不确定性。这组问题问的是大一结束时学生的成绩。访谈后的一年里发生了什么？根据5个形容词，你预测学生大一成绩的准确性有多高？如果辅导员通过访谈来预测GPA，她的预测会非常精准吗？

本研究的目的是比较受试者的两个百分位数，其中一个通过证据评估做出判断，另一个通过预测最终结果做出判断。结果很容易描述：两个判断完全相同。尽管这是两组不同的问题（一组与描述有关，另一组与学生未来的成绩有关），但受试者将它们看作同一个问题。正如朱莉的例子，对未来的预测没有与对当前证据的评估区分开——预测与评估一致。这也许是我们所掌握的替代作用的最好证据。你请人们做出预测，他们却用评估证据来代替预测，没有注意到自己答非所问。这么做注定会产生带有系统偏差的预测结果，他们完全忽视了回归均值现象。

在以色列国防部队服役期间，我曾在某单位工作过，该单位的任务是根据面试和实地测试选拔负责军官培训的候选人。预测成功的标准是学员在军校的毕业成绩。评估的效度很差（我将在下一章中详细介绍）。多年后，我成为一名教授，与阿莫斯合作研究直觉判断，这个单位仍在。我和单位里的人关系融洽，请他们帮了一个忙。除了要求用他们的评分系统来评估候选人，我还让他们预测每个学员在军校的毕业成绩。他们收集了几百份预测资料。做预测的军官都熟悉军校的字母评级系统，也知道A、B各级的大致比例。结果令人震惊：评估中各等级的相对频率几乎与预测的毕业成绩等级的频率相同。

这些发现为替代和强度匹配提供了令人信服的例子。做预测的军官将以下两项任务混为一谈：

· 他们的日常任务，即评估候选人在本单位的表现。

· 我要求他们执行的任务，即预测学员未来的成绩。

他们只是应用强度匹配，简单地将自己的评级转换到军校使用的量表上。他们没有处理预测中（极大）的不确定性，做出了完全非回归性的预测。

修正直觉性预测

回到早慧读者朱莉的例子。我们在上一节介绍过预测其GPA的正确方法。之前，在讨论连续的高尔夫球赛事、体重和钢琴演奏排名时，我写过相关公式。现在，我也为决定阅读年龄和大学成绩的因素写个大概的公式：

阅读年龄=共有因素+决定阅读年龄的特殊因素=100%

GPA=共有因素+决定GPA的特殊因素=100%

共有因素包括由基因决定的天赋、家庭对学业兴趣的支持程度，以及成为早慧读者和青年才俊的其他影响因素。当然，很多因素只影响其中一个结果，对另一个结果没有影响。朱莉的父母可能望女成凤，在她很小的时候就逼她阅读；一段痛苦的恋情可能导致她的大学成绩下降；她少女时期可能发生过一次滑雪事故，导致智力轻微受损；等等。

回想一下，两个测度之间的相关性（本例中是阅读年龄和GPA）等于共有因素在决定因素中的比例。你对这个比例的最佳猜测是什么？我最乐观的猜测是30%左右。假设这个估计成立，我们就有了产生无偏差预测所需的一切。通过以下4个简单步骤，我们可以完成无偏差预测：

（1）估计GPA的平均值。

（2）根据你对证据的印象，确定与其相匹配的GPA。

（3）估计你的证据和GPA之间的相关性。

（4）如果相关系数为0.30，从平均值向匹配的GPA移动二者之间30%的距离。

标准回归是预测问题的最优解，这一证明假设误差是通过与正确值的平方偏差进行加权求和得到的。这是公认的最小二乘准则。其他损失函数导致不同的解决方案。

第一步提供了基线，即除了知道朱莉是即将毕业的大四学生，你对她一无所知时，你预测的GPA。在缺乏信息的情况下，你的预测结果应该是平均值。（这类似于你对汤姆的预测，在对他一无所知时，应根据工商管理专业学生的基础比率预测其所选专业的概率。）第二步是你的直觉性预测，它符合你对证据的评估。第三步由基线向直觉靠拢，但移动的距离取决于你对相关性的估计。第四步得出预测结果，它受到直觉的影响，但其影响力要小得多。标准回归是预测问题的最优解，这一证明假设误差是通过与正确值的平方偏差进行加权求和得到的。这是公认的最小二乘准则。其他损失函数导致不同的解决方案。

这种预测方法是通用的。你可以用它来预测定量变量，比如GPA、投资利润或公司的发展。这种方法以你的直觉为基础，但会调节直觉，使它向均值回归。如果你有充分的理由相信直觉性预测的准确性，即证据和预测之间高度相关，调整的幅度就会很小。

直觉性预测需要修正，它们不是回归的，因此有偏差。假设我预测所有高尔夫球手第二天的得分与第一天相同。这一预测并未考虑到向均值回归：第一天表现很好的人，第二天的平均表现会稍差；第一天表现不佳的人，第二天大多会有所提升。将实际结果与预测进行比较时，会发现不考虑回归的预测是有偏差的。对旗开得胜者的预测通常过于乐观，对开局不利者的预测又过于悲观。这些预测和证据一样极端。同样，如果用童年的成就预测大学成绩，不将预测回归到均值，你通常会对很早学会阅读的人的学业成绩感到失望，对较晚学会阅读的人的成绩感到惊讶。修正后的直觉性预测消除了这些偏差，因此预测高估和低估真实值的可能性大致相等。即使预测没有偏差，你仍然会犯错，但错误较小，不会偏向极端结果。

为极端预测辩护？

我之前以汤姆的例子说明了如何对离散结果（如所学专业或考试成功）进行预测，这些预测通过为特定事件分配概率来表示（在汤姆的例子中，是将结果按照概率从大到小排序）。常见的离散预测偏差出现的原因包括忽视基础比率和对信息质量不敏感，我描述了避免这种偏差的步骤。

我们在预测中发现的偏差是以某种等级（如GPA或公司收入）来表示的，类似于判断结果概率时观察到的偏差。

二者的修正程序也类似：

· 如果你对当前案例一无所知，你就需要做基线预测。在类别案例中，基线是基础比率。在数量案例中，基线是相关类别的平均结果。

· 二者都包含直觉性预测，它表达了你头脑中想到的数字，无论是概率还是GPA。

· 在这两种情况下，你的目标都是让预测值处于基线和直觉反应之间。

· 在缺乏有用证据的默认情况下，预测应与基线一致。

· 在其他极端情况下，你也可以坚持最初的预测。当然，条件是在审慎检查支持预测的证据之后，对最初的预测仍然有十足的把握。

· 在大多数情况下，你要找到一些理由，怀疑你的直觉判断和真相之间不完全相关，最终做出介于两者之间的预测。

该程序经过适当的统计分析，得到的是可能结果的近似值。如果成功，它将近似于无偏差的预测、合理的概率评估和适度的数值预测。两个程序都旨在避免同一种偏差：直觉性预测往往过于自信和极端。

修正直觉性预测是系统2的任务。找到相关参考类、估测基线并评估证据的质量需要付出极大的努力。只有当风险很高，而且你极力想避免犯错时，这种努力才合情合理。此外，你应该知道，纠正直觉可能会使你的生活复杂化。无偏差预测的一个特点是，只有在信息完整有效的前提下，才可以预测罕见或极端事件。如果你期望预测的有效性适中，那么你永远不会猜测到罕见或极端结果。如果你的预测是无偏差的，你将永远不会拥有预测到极端情况的满意体验。当你在法学院最优秀的学生成为最高法院法官时，或者当你曾经看好的初创企业大获成功时，你将永远无法说：“我早就知道是这样！”考虑到证据的局限性，你永远无法预测一名优秀的高中生会成为普林斯顿大学的优等生。出于同样的原因，没有人会告诉风险投资家，初创企业起步阶段的成功概率“非常高”。

有人对协调直觉性预测的原则提出反对意见，我们必须认真对待这些意见，因为消除偏差并不总是最重要的事。如果我们对所有方向的预测误差一视同仁，那么对无偏差预测的偏好就是合理的。但在有些情况下，某类错误比另一类错误更严重。风险投资家在寻找“下一次大投资”时，相比适度投资初创公司却失败的风险，错过下一个谷歌或脸书的风险要大得多。风险资本家的目标是正确预测极端情况，即使其代价是高估了许多其他风险投资的前景。对发放大额贷款的保守银行家来说，相比拒绝几个履行义务的潜在客户的风险，某个借款人破产的风险更大。在这种情况下，使用极端语言（“前景非常好”“严重的违约风险”）可能会成为安慰人的理由，即使这些判断所依据的信息有效性并不高。

对理性人来说，无偏差预测和适度预测不应该成为问题。毕竟，理性的风险投资家知道，即使是最有前途的初创企业，成功的机会也并不大。她认为自己的工作是从现有赌注中选择最有希望的赌注，没必要自我欺骗，去强调计划投资的创业公司前景大好。同样，理性人对公司收入的预测不会局限于一个数字——他们会围绕可能性最大的结果考虑不确定性的范围。如果成功的回报足够大，理性人会大量投资于最有可能失败的企业，而不会在成功概率上自我欺骗。但我们并不都是理性人，有些人可能需要非客观估计的安全性来避免无能为力的状态。如果你选择接受极端预测来欺骗自己，那么你最好意识到这是一种自我沉溺。

我提出的修正步骤最有价值的贡献或许是，它们需要你思考自己掌握了多少信息。下面的例子在学术界很常见，可直接类比到生活的其他领域。大学某系想聘请一位年轻教授，希望此人拥有最强的科研能力。招聘委员会已将选择范围缩小到两名候选人：

金是刚毕业的研究生。推荐信对她的评价很高，她在面试过程中对答如流，给大家留下了深刻的印象。但她没有实质性的科研成果。

简在过去三年里一直是博士后。她的学术成果丰硕，科研成绩优异，但面试表现没有金那么精彩。

直觉倾向于选择金，因为她给人留下了更深刻的印象，而且“所见即一切”。但金的信息比简的信息少得多。我们又回到了小数定律。事实上，金的信息样本比简的信息样本小，在小样本中更容易观察到极端结果。在小样本的结果中，运气的成分更大，因此，在预测金未来的表现时，回归均值的程度应该更大。如果考虑到金可能比简回归得更多，你最终会选择简，尽管你对她的印象没那么深刻。在选择学者方面，我会投票给简，但我的直觉印象是金更有前途，要克服这个印象需付出很大的努力。跟随直觉比违背直觉更自然，也更令人愉快。

你很容易在不同情境下想象类似的问题。比如，风险投资家要在两家处于不同市场的初创企业之间做选择。一家企业有产品，可以精确估计其产品需求。另一家企业更振奋人心，凭直觉判断更有希望，但未来并不确定。考虑到不确定性，是否还会认为第二家企业成功的机会更大，这个问题值得认真思考。

回归的双系统观

做出极端预测以及自动根据不可靠的证据预测罕见事件，都是系统1的表现。关联机器很自然地将预测的极端性与所感知证据的极端性相匹配——这就是替代的运作方式。系统1很自然地产生了过度自信的判断。正如我们了解到的，自信取决于故事的连贯性，而这个故事是你从所掌握的证据中得出的最合乎逻辑的说法。请注意：直觉会产生非常极端的预测，你会过于相信它们。

回归也是系统2的问题。向均值回归的概念本身就是陌生的，很难解释和理解。高尔顿经过艰难的探索才理解回归。这个话题让许多统计学老师犯难，到头来，学生对这个关键概念也只是似懂非懂。这正说明系统2需要进行特殊训练。将预测与证据相匹配不仅是我们的直觉行为，似乎也合情合理。我们无法根据经验理解回归。即使认识到回归（就像飞行教官的例子），我们也会给出一个因果解释，而这个解释往往是错的。

谈谈直觉性预测

“这家初创公司的概念验证做得很出色，但我们不应该期望它未来的运营同样出色。这些概念离获得市场成功还差得很远，回归的空间很大。”

“我们的直觉性预测很赞同它，但可能预测得太高了。让我们考虑证据的效力，将预测回归到均值。”

“这项投资可能很好，即使最佳猜测是它会失败。不要说我们真的相信它是下一个谷歌。”

“我看到有关该品牌的一条好评。不过，这可能是偶然事件。让我们只考虑那些有大量评论的品牌，从中选择最好的那个。”

第18章 驯服直觉性预测

第18章驯服直觉性预测