我和阿莫斯所做的一项实验涉及一个虚构人物——琳达女士。这是我们最著名也最具争议的实验。实验目的是为启发式在判断中的作用及其与逻辑的矛盾提供确凿证据。
以下是我们对琳达的描述:
琳达,31岁,单身,直言不讳,非常聪明。她主修哲学。学生时代,她非常关注歧视和社会公正问题,还参加了反核示威活动。
在20世纪80年代听过这段描述的人会笑起来,因为他们会立即知道琳达曾就读于加州大学伯克利分校,当时该校以其热衷政治的激进学生而闻名。实验中,我们向受试者列出了琳达的8种可能情况。与汤姆问题一样,一些人根据代表性排序,另一些人根据概率排序。琳达问题与汤姆问题相似,但略有不同。
琳达是小学教师。
琳达在书店工作,还去上瑜伽课。
琳达积极参与女权运动。
琳达是精神病学社会工作者。
琳达是女性选民联盟的成员。
琳达是银行出纳员。
琳达是保险销售员。
琳达是银行出纳员,积极参与女权运动。
该问题从几个方面暴露了年代信息。女性选民联盟不再像以前那样热门,女权“运动”听起来也过时了,这证明过去30年女性地位发生了变化。然而,即使在脸书时代,人们仍然很容易达成近乎完美的判断共识:琳达非常符合积极的女权主义者形象,也挺像在书店工作并且上瑜伽课的人,与银行出纳员或保险销售员的形象相距甚远。
现在,请注意列表中的关键项:琳达看起来更像银行出纳员,还是积极参与女权运动的银行出纳员?所有人都认为,相比银行出纳员,琳达更像是“女权主义银行出纳员”。刻板印象中的银行出纳员不是女权主义积极分子,添加细节会使故事更加连贯。
琳达问题与汤姆问题的不同之处在于对可能性的判断上,因为对琳达的两种预测存在逻辑关系。让我们借助维恩图来思考。每个女权主义银行出纳员都是银行出纳员,前者完全包含在后者的集合中。所以,琳达是女权主义银行出纳员的概率肯定低于她是银行出纳员的概率。详细说明可能的事件,只会降低它的概率。因此,该问题在代表性直觉与概率逻辑之间设置了冲突。
我们最初的实验用的是被试间设计。所有受试者看到的是7个结果,其中只有一个关键项(“银行出纳员”或“女权主义银行出纳员”)。一组受试者根据相似性排序,另一组根据可能性排序。与汤姆问题的情况一样,两组的平均排序结果一致。“女权主义银行出纳员”排在“银行出纳员”前面。
然后,我们的实验进一步深入,使用了被试内设计。我们设计了你现在看到的这份问卷,其中“银行出纳员”排在第六位,“女权主义银行出纳员”排在最后。我们确信,受试者会注意到这两个结果之间的关系,他们的排序会符合逻辑。我们对这个预测信心十足,甚至认为不值得专门进行实验。我的助理正在实验室进行另一项实验,她要求受试者在签退时填写新的琳达问卷,之后就能拿到报酬。
助理桌上的文件盒里大约有10份回收的问卷,我漫不经心地看了一眼,发现所有受试者都认为,相比“银行出纳员”,琳达更可能是“女权主义银行出纳员”。我非常惊讶。那一刻成为我的“闪光灯记忆”——灰色的金属桌,以及每个人当时所在的位置都历历在目。我兴奋地打电话给阿莫斯,告诉他我们的发现:我们让逻辑与代表性对抗,结果,代表性赢了!
用本书的语言来表达,我们观察到系统2的失职:我们的受试者有很好的机会察觉逻辑规则的相关性,因为这两个结果同时出现在列表中,但他们错失了这个机会。我们做了更多的实验,发现样本中89%的本科生违反了概率逻辑。我们确信,统计专业的受试者会有更好的表现,于是对斯坦福大学商学院决策科学项目的博士生进行了同样的问卷调查,他们都学过概率论、统计学和决策论等高阶课程。结果再次令我们惊讶:85%的受试者认为琳达更有可能是“女权主义银行出纳员”,而不是“银行出纳员”。
为消除错误,我们做了很多尝试,然而却“越来越绝望”。我们向很多人描述琳达的特点,并提出一个简单的问题:
以下哪种情况的可能性更大?
琳达是银行出纳员。
琳达是银行出纳员,她积极参与女权运动。
这个极简版问题让琳达在某些领域小有名气,也让我们的研究多年以来争议不断。85%~90%的主要大学本科生选择了与逻辑相悖的第二项。值得注意的是,他们似乎并不引以为耻。我有些恼怒地问大班课的本科生:“你们意识到自己违反了基本的逻辑规则吗?”后排有人喊道:“那又怎样?”一位犯了同样错误的研究生说:“我以为你只是征求我的意见。”
通常,当人们没能运用明显相关的逻辑规则时,就会出现“谬误”。我和阿莫斯创造了“合取谬误”(conjunction fallacy,又译作结合谬误)的概念,人们判断两个合取事件(本例是银行出纳员和女权主义者)比单一事件(银行出纳员)发生的可能性更大时,就会犯合取谬误。
Stephen Jay Gould, Bully for Brontosaurus (New York: Norton, 1991).就像穆勒-莱尔错觉一样,即使你能识别它,它仍有极大的迷惑性。博物学家斯蒂芬·杰·古尔德描述了自己在琳达问题上的困扰。他当然知道正确答案,但他写道:“我脑子里有个小矮人不停地上蹿下跳,对我大喊大叫——‘她不可能只是银行出纳员,好好读一下描述’。”
这个小人儿正是古尔德喋喋不休的系统1。(他写这篇文章时,两个系统的术语还没有出现。)
关于简易版的琳达问题,我们只在一个实验中获得了多数正确的答案,受试者是斯坦福大学和伯克利大学社会科学专业的研究生,64%的人判断正确,即琳达是“女权主义银行出纳员”的可能性比“银行出纳员”小。在有8个结果的原始版本中,只有15%的研究生做出了正确的选择。这种差异很有启发性。较长的版本通过一个干预项(保险销售员)将两个关键结果分开,受试者独立判断每个结果,没对二者进行比较。相比之下,简易版要求进行明确的比较,这调动了系统2,让大多数受过统计学训练的学生避免了合取谬误。遗憾的是,这个学识渊博的群体中有不少人(36%)选择错误,我们没有探究其中的原因。
在汤姆问题和琳达问题中,受试者的概率判断与代表性判断(类似于刻板印象)完全一致。代表性是一组密切相关的基础评估,这些评估可能会同时形成。最具代表性的结果与个性描述相结合,产生了最连贯的故事。这种故事不一定最有可能发生,却貌似可信。粗心大意的人很容易将连贯性、可信性和概率混为一谈。
当我们将情景当作预测工具时,不加批判地用可信性代替概率会对判断造成不利影响。研究人员将以下两种情景呈现给不同的小组,要求估计它们的概率:
明年北美某地将发生洪灾,造成1000多人溺亡。
明年某个时候加利福尼亚州将发生地震,地震引发的洪灾造成1000多人溺亡。
加利福尼亚州的地震情景比北美的洪灾更可信,尽管其发生概率肯定更小。不出所料,人们会违反逻辑,认为更丰富、更详细的情景发生的概率更大。这对预测者及其委托人来说是一个陷阱:在情景中添加细节会增强说服力,但它发生的可能性更小。
为了理解可信性的作用,请思考以下问题:
以下哪种描述更有可能出现?
马克有头发。
马克有一头金发。
以下哪种描述更有可能出现?
简是老师。
简是老师,她走路去上班。
这两个问题与琳达问题的逻辑结构相同,但它们不会导致谬误,因为更详细的结果只是添加了细节——它不是更可信、更连贯或更吸引人的故事。对可信性和连贯性的评估并不能为概率问题带来启发和答案。当逻辑无须与直觉对抗时,逻辑就在判断中起主导作用。
少 即 是 多 , 甚 至 在 联 合 评 估 中 也 如 此
芝加哥大学的奚恺元让受试者为当地一家商店清仓大甩卖中的餐具定价,餐具价格通常为30~60美元。受试者分为三组。其中一组看到的是下面的全部信息,奚恺元将其标记为“联合评估”,因为他们可以对两套餐具进行比较。另外两组只看到其中一套的信息,他们做的是“单独评估”。联合评估是被试内实验,单独评估是被试间实验。

假设这两套餐具的质量一样,哪套更值钱?这个问题很简单。你可以看到,A套中包含了B套,还多出了7件完好无损的餐具,A套肯定更值钱。确实,联合评估组的受试者愿意为A套支付的钱会比B套多一点儿,分别为32美元和30美元。
在单独评估中,结果发生了逆转,B套的定价远高于A套,分别是33美元和23美元。我们知道原因所在。套装(包括餐具套装)通过规范和原型表示。你可以立即感觉到,A套餐具的平均价值远低于B套,因为没有人愿意购买破损的餐具。如果将平均值作为评估的主要因素,那么B套的价格更高就不足为奇了。奚恺元将该结果的模式称为“少即是多”。从A套中去掉16件餐具(其中7件完好无损),它的价值就提升了。
实验经济学家约翰·李斯特在真实的棒球卡市场中复制了奚恺元的发现。他竞拍到一套10张高价值的棒球卡,在其中添加了3张价值不高的卡片。与餐具实验一样,在联合评估中,人们认为数量多的组合比数量少的组合更有价值,但在单独评估中,前者的价值更低。从经济学理论的角度来看,这一结果令人担忧:一套餐具或一组棒球卡的经济价值是求和变量。将正值项添加到集合中只能增加其价值。
琳达问题和餐具问题的结构完全相同。与经济价值一样,概率是一个求和变量,如下所示:
琳达是银行出纳员的概率=琳达是女权主义银行出纳员的概率+
琳达是非女权主义银行出纳员的概率
就像奚恺元的餐具实验一样,对琳达问题的单独评估会产生“少即是多”的模式。系统1进行了平均而不是相加,所以当非女权主义银行出纳员从集合中删除后,主观概率会增加。但是,其变量的求和性质在概率上表现得不如金钱那么明显。因此,联合评估只消除了奚恺元实验中的错误,却无法消除琳达实验中的错误。
让人在联合评估中出错的并不只是琳达问题。在许多其他判断中,我们发现了违反逻辑的类似行为。其中一项研究要求受试者对下一届温布尔登锦标赛的4种可能结果由高到低排序。进行这项研究时,比约·博格是网球世界的霸主。4种结果如下:
A.博格将赢得比赛。
B.博格将输掉首局。
C.博格将输掉首局,但最终赢得比赛。
D.博格将赢得首局,但最终输掉比赛。
结果中的关键项是B和C。B是包含更多内容的事件,其概率必然高于它所包含的事件的概率。72%的受试者违反了逻辑,顺应了代表性或可信性,认为B的概率小于C——这又是一个在直接比较中“少即是多”的例子。合取谬误再次出现——被判断为更有可能的情况一定更接近事实,这符合人们对世界一流网球运动员的认知。
有人可能会提出反对意见,称合取谬误产生的原因是对概率的误解。为了避免这种情况,我们设计了一个需要进行概率判断的问题,但没有用语言描述事件,“概率”一词根本没有出现。我们告诉受试者,有一个标准的六面体骰子,其中四面是绿色的,两面是红色的,将骰子投掷20次。我们展示了三组预设的结果,要求他们选择一组。如果他们选择的那组出现,他们将(假设性地)赢得25美元。三组序列为:
(1)红绿红红红
(2)绿红绿红红红
(3)绿红红红红红
骰子的绿面是红面的2倍,所以第一组特别缺乏代表性——就像琳达是银行出纳员一样。第二组包含6次投掷结果,更符合我们对骰子的期望,因为绿色出现了2次。然而,这组序列是通过在第一组序列的开头添加一个“绿”来构建的,所以它的可能性只能比第一组小。这相当于“琳达是女权主义银行出纳员”的非语言表达。与琳达研究一样,代表性在判断中占了上风。近2/3的受试者更愿意在第二组上下注,而不是第一组。但是,在向受试者说明这两种选择的理由后,大多数人发现正确的理由(倾向于第一组)更有说服力。
接下来的问题带来了突破,因为我们终于找到了减少合取谬误的条件。两组受试者看到的是同一个问题,只是版本略有不同:

回答左栏问题的小组,有65%的人判断错误,回答右栏问题的小组,仅有25%的人判断错误。
相比百分比问题,数量问题要容易得多,原因何在?一种可能的解释是,提到100个人会让人想到空间表征。想象一下,在一个房间里,要求人们自行分组。“名字首字母是A到L的人聚集到房间的左前方。”然后,要求他们进一步分组。现在,包含关系很明显了,你可以看到名字以C开头的人在左前方人群的子集中。在医学调查问题中,心脏病发作的人最终聚在房间一角,其中一些人不到55岁。并不是每个人都能想象出这种栩栩如生的画面,但后续的许多实验表明,“频率表示”可以让人轻松理解某一群体完全包含在另一群体中的情形。询问数量会让你想到个体,但询问百分比没有这个效果。这似乎正是问题的谜底。
从这些研究中,我们能了解到系统2的哪些运作特点?一个算不上新颖的结论是,系统2的警觉性没那么高。参与我们合取谬误研究的本科生和研究生当然知道维恩图的逻辑,但即使所有相关信息都摆在眼前,他们也不能正确运用。在奚恺元的餐具研究中,“少即是多”的荒谬性显而易见,我们很容易在数量描述中识别它,但在最初版本的琳达问题和其他类似问题中,对犯合取谬误的数千人来说,“少即是多”的荒谬性并不明显。在这些例子中,合取事件貌似可信,并且足以让系统2支持这种直觉印象。
系统2的懒惰是判断错误的原因之一。如果受试者的下一次假期取决于答案的正确与否,如果给他们无限的时间思考,告诉他们要遵循逻辑,确定答案正确之后再提交,我相信大多数受试者都会避免合取谬误。然而,他们的假期并不取决于正确答案。他们花很少的时间思考,对自己的回答心满意足,就好像这个问题只是在“征求他们的意见”。系统2的懒惰是一个重要事实,而代表性可能会阻碍人们运用显而易见的逻辑规则。这一观察结果也颇为有趣。
琳达问题的特别之处在于,它与餐具研究形成了对比。这两个问题具有相同的结构,但产生了不同的结果。当看到餐具套装中有破损的盘子时,受试者就会将它的价格定得很低,他们的行为反映了直觉法则。同时看到两套餐具的受试者则遵循了逻辑规则,即更多的餐具只会增加价值。在被试间设计条件下,直觉支配了判断;在联合评估中,逻辑规则占了上风。相反,在琳达问题中,即使在联合评估中,直觉也经常战胜逻辑,尽管我们能识别逻辑占上风的条件。
在显而易见的问题中观察到人们公然违反概率逻辑的行为,让我和阿莫斯觉得很有趣,认为值得向同行报告实验结果。我们还相信,这些结果支持了我们对判断启发式影响力的论证,会让怀疑者心服口服。但我们的想法大错特错。相反,琳达问题成了关于规范研究的一个有争议的案例。
Ralph Hertwig and Gerd Gigerenzer, “The ‘Conjunction Fallacy’ Revisited: How Intelligent Inferences Look Like Reasoning Errors,”Journal of Behavioral Decision Making 12 (1999): 275-305; Ralph Hertwig, Bjoern Benz, and Stefan Krauss, “The Conjunction Fallacy and the Many Meanings of And,”Cognition 108 (2008): 740-53.琳达问题引发了广泛的关注,也吸引了判断启发式的批评者。一些研究人员发现,指令加暗示可以降低谬误的发生率,这与我们的实验结果一致;一些人则认为,在琳达问题的情景中,受试者将“概率”理解为“可信性”。这些论辩有时添油加醋,暗示我们的研究有误导性,让人们误以为,如果某个重大的认知错觉可以被削弱,或通过解释消除,那么其他错觉也可以。
这种推理忽视了合取谬误的独特性,即它是直觉与逻辑的冲突。在被试间实验(包括对琳达问题的研究)中,我们为启发式构建的证据并没有受到质疑——没有人对证据提出意见,人们只关注合取谬误,实验的亮点被忽视了。琳达问题的最终效应是,我们的研究在公众中的知名度提高了,我们的方法在该领域学者中的可信度却略有下降。这完全不是我们所期望的。
如果观察过法庭的辩护过程,你就会发现律师主要采用两种批判方式:为推翻案件,他们会质疑最有力的论据;为诋毁证人,他们会集中攻击证词中最薄弱的部分。在政治辩论中,攻击弱点也是常态。我认为,这种做法并不适用于科学争议,但我接受了一个事实,即社会科学中的辩论并不会将政治辩论的风格拒之门外,在危急关头对重大问题的辩论尤为如此——而人类判断中普遍存在的偏差就是一个重大问题。
Barbara Mellers, Ralph Hertwig, and Daniel Kahneman, “Do Frequency Representa-tions Eliminate Conjunction Effects? An Exercise in Adversarial Collaboration,”Psychological Science 12 (2001): 269-75.在我写作本书的几年前,我与拉尔夫·赫特维格进行了一次友好的交谈,他一直是琳达问题的批评者。我曾与他合作,试图化解我们之间的分歧,结果一无所获。
我问他,为什么批评者只关注合取谬误,却忽视那些支持我们立场的有力证据。他笑着说:“因为这么做更有趣。”他还说,琳达问题已经引起了很大反响,我们没什么理由抱怨。
谈 谈 “ 少 即 是 多 ”
“他们构建了一个非常复杂的场景,坚持认为它极有可能是真实的。事实并非如此——这只是貌似可信的故事而已。”
“他们为贵重商品附赠了一份廉价礼物,降低了交易的吸引力。这就是‘少即是多’。”
“在大多数情况下,直接比较会让人们更谨慎、更有逻辑性。但并非总是如此。有时,即使正确答案就在眼前,直觉也会战胜逻辑。”