
阿莫斯·特沃斯基、丹尼尔·卡尼曼
许多决策都基于对不确定事件可能性的信念,如选举结果、被告的罪行或美元的未来价值。这些信念通常用“我认为……”、“可能性是……”和“不太可能……”等语句来表达。有时,关于不确定事件的信念以数的形式表示,比如概率或主观概率。是什么决定了这种信念?人们如何估计不确定事件的概率,或不确定数量的值?本文表明,人们依赖几种启发式原理,将概率估计和数值预测的复杂任务简化为较简单的判断操作。通常情况下,这些启发式非常有用,但有时会导致严重的系统误差。
对概率的主观估计类似于对物理量(比如,距离或大小)的主观估计。这些判断都基于效度有限的数据,这些数据是根据启发式法则处理的。例如,物体的视距在某种程度上取决于其清晰度。物体看起来越清晰,似乎就离我们越近。该法则有一定的有效性,因为在任何给定的场景中,较远的物体看起来不如较近的物体清晰。然而,依赖该法则会导致距离估计的系统误差。具体来说,由于物体的轮廓模糊而能见度差时,距离经常被高估。相反,物体清晰可见时,距离往往被低估。因此,将清晰度作为距离的判断指标,会导致常见的偏差。这种偏差也存在于对概率的直觉判断中。本文描述了用于概率估计和数值预测的三种启发式,列举了它们所引发的偏差,探讨了观察结果的应用意义和理论意义。
代 表 性
人们关注的许多概率问题都属于下列类型之一:对象A属于类别B的概率是多少?事件A源自过程B的概率是多少?过程B导致事件A的概率是多少?在回答这些问题时,人们通常依赖代表性启发式,即通过A代表B的程度,也就是说,通过A类似B的程度来估计概率。例如,当A高度代表B时,人们会判断A源自B的概率大。相反,如果A与B不相似,则判断A源自B的概率小。
D.Kahneman and A.Tversky,“On the Psychology of Prediction,”Psychological Review 80 (1973): 237-51.为说明根据代表性所做的判断,我们来看一个人,他以前的邻居这样描述他:“史蒂夫非常腼腆,少言寡语,乐于助人,但对他人或现实世界没什么兴趣。他性情温和,干净利落,做事井然有序,关注细节。”人们如何从几种职业(例如,农民、销售员、飞行员、图书管理员或医生)中估计史蒂夫从事某一特定职业的概率?人们如何将这些职业按可能性由高到低排序?运用代表性启发式,人们通过史蒂夫代表或类似于图书管理员刻板印象的程度来估计他从事该职业的概率。事实上,相关研究表明,人们根据概率排序的结果与根据相似性排序的结果完全相同。
这种判断概率的方法会导致严重的错误,因为影响概率判断的因素并不影响相似性或代表性。
对结果的先验概率不敏感 。对代表性没有影响,但对概率有重大影响的一个因素是结果的先验概率,又称基础比率频率。以史蒂夫为例,总体中农民的数量比图书管理员多得多。人们在理性估计“史蒂夫是图书管理员而不是农民”的概率时,应考虑到这一事实。然而,考虑基础比率频率并不影响史蒂夫与图书管理员或农民的刻板印象的相似性。因此,人们如果通过代表性来估计概率,就会忽视先验概率。一项实验检验了该假设,这项实验操纵了先验概率。
研究人员让受试者看了几个人的性格简述,告诉他们这些样本是从100名专业人员(工程师和律师)中随机抽取的,然后请他们估计每个描述对象是工程师而非律师的概率。在某一实验条件下,告诉受试者,抽样群体由70名工程师和30名律师组成。在另一种条件下,告诉受试者,抽样群体由30名工程师和70名律师组成。在工程师占多数的第一种条件下,任何特定的描述对象是工程师而非律师的概率都应该高于律师占多数的第二种条件。具体来说,运用贝叶斯法则可以证明,两种描述发生比的比率应该是(0.7/0.3) 2或5.44。
受试者在这两种条件下做出了完全相同的概率判断,这严重违反了贝叶斯法则。显然,受试者是根据某一描述代表两种刻板印象的程度来估计描述对象是工程师而非律师的可能性的,很少或根本没考虑类别的先验概率。
受试者在没掌握其他信息时能正确使用先验概率。没有个性描述时,在两个基础比率的条件下,他们判断未知个体是工程师的概率分别为0.7和0.3。但是看到描述后(即使描述中完全不含相关信息),先验概率就被忽视了。受试者对以下描述的反应说明了这一现象:
迪克,30岁,男性,已婚,无子女。他能力出众、积极进取,有望在自己的领域获得成功。他深受同事们的喜爱。
D.Kahneman and A.Tversky,“On the Psychology of Prediction,”Psychological Review 80 (1973): 237-51.该描述有意不传递迪克是工程师还是律师的信息。因此,迪克是工程师的概率应该等于样本群体中工程师的比例,与没有给出任何描述的情况一样。然而,无论样本群体中工程师的比例是0.7还是0.3,受试者判断迪克是工程师的概率都是0.5。显然,面对两种情况(没有证据和有无价值的证据),人们的反应是不同的。没给出具体证据时,人们会正确利用先验概率;给出毫无价值的证据时,人们就会忽视先验概率。
对样本量不敏感。为估计用从特定总体中抽取的样本获得某个具体结果的概率,人们通常会使用代表性启发式。比如,在评估10名男性随机样本的平均身高时,人们考虑的是样本结果与相应参数(男性总体的平均身高)的相似性,从而将结果估计为6英尺。样本统计量与总体参数的相似性不取决于样本量的大小。因此,如果概率是通过代表性来估计的,那么样本统计量的判断概率在本质上与样本量无关。事实上,当受试者评估不同样本量的平均身高分布时,他们得出的是相同的分布。例如,对于1000、100和10名男性样本,平均身高超过6英尺的概率被赋予了相同的值。
此外,即使描述问题时强调了样本量的作用,受试者也没有意识到这一点。请思考以下问题:
某市有两家医院。大医院每天约有45名婴儿出生,小医院每天约有15名婴儿出生。众所周知,男婴的出生比例约为50%。然而,确切的百分比每天都不同。有时可能高于50%,有时低于50%。
两家医院都记录了一年内出生男婴占比超过60%的天数。你认为哪家医院记录的这类天数更多?
大医院(21)
小医院(21)
大致相同(差异小于5%)(53)
括号中的数字是选择该答案的受试者(本科生)人数。
大多数受试者认为,小医院和大医院男婴出生率超过60%的概率是相同的,大概是因为这些事件是由相同的统计量描述的,因此在总体中具有同样的代表性。但是,抽样理论表明,小医院男婴出生率超过60%的期望天数要比大医院多得多,因为大样本不太可能偏离50%。统计学这个基本概念显然不是人们直觉的一部分。
在后验概率(即样本是从一个总体而不是从另一个总体中抽取的概率)的判断中,也有类似对样本量不敏感的报告。请思考以下例子:
想象一个装满小球的罐子,其中一种颜色占2/3,另一种颜色占1/3。一个人从罐子中取出了5个球,发现其中4个是红色的,1个是白色的。另一个人从中取出了20个球,发现12个是红色的,8个是白色的。谁会更自信地认为罐子里2/3是红色球、1/3是白色球,而不是相反的情况?他们给出的概率各应是多少?
令H表示“罐子里2/3是红球,1/3是白球”的假设,H′表示“罐子里1/3是红球,2/3是白球”的假设;令D表示“4:1的样本”,D′表示“12:8的样本”。假设P(H)=P(H′)(即H与H′的先验概率相等),根据贝叶斯法则,不难得到,以D为条件的后验发生比是P(H|D)/P(H′|D)=P(D|H)/P(D|H′)=8。类似地,以D′为条件的后验发生比是P(H|D′)/P(H′|D′)=P(D′|H)/P(D′|H′)=16。——译者注 D.Kahneman and A.Tversky,“Subjective Probability: A Judgment of Representativeness,”Cognitive Psychology 3 (1972): 430-54. W.Edwards,“Conservatism in Human Information Processing,”in Formal Representation of Human Judgment, ed.B.Kleinmuntz (New York: Wiley, 1968), 17-52.假设先验概率相等,在该问题中,4:1样本正确的后验概率是8:1,12:8样本正确的后验概率是16:1。
然而,大多数人认为,第一个样本为罐子里主要是红球的假设提供了更有力的证据,因为第一个样本中红球的比例比第二个样本的大。这再次证明,直觉判断受样本比例的支配,基本上不受样本量的影响,而样本量在决定实际后验概率方面起着至关重要的作用。
此外,对后验概率的直觉估计远没有正确值那么极端。在这类问题中,我们反复观察到人们低估了证据的影响。
该现象被称为“保守主义”。
对概率的误解 。人们期望由随机过程生成的事件序列能够表现出该过程的基本特征,即使序列很短。例如,在考虑硬币抛出的正反面时,人们认为“正—反—正—反—正”序列比“正—正—正—反—反—反”序列更有可能发生,因为后者不像是随机的;它也比“正—正—正—正—反—正”序列更有可能发生,因为后者没有体现硬币的公平性。
因此,人们期望过程的基本特征不仅体现在整个序列中,还体现在每个局部中。然而,具有局部代表性的序列包含了太多的交替和太少的顺子,系统地偏离了预期概率。相信局部代表性的另一个后果是众所周知的赌徒谬误。例如,观察到轮盘多次出现红色后,大多数人错误地认为现在应该出现黑色,可能是因为相比再次出现红色,出现黑色会形成更具代表性的序列。我们通常将概率看作自我纠正的过程,认为它朝某一方向偏离后,就会朝相反的方向偏离,以回到平衡状态。事实上,随着概率过程的展开,偏离并不是被“纠正”了,只是被稀释了。
误解概率的不只是缺乏经验的受试者。一项统计直觉调查
以经验丰富的研究型心理学家为对象,揭示了一种顽固的信念,即所谓的“小数定律”。根据小数定律,即使是小样本也能高度代表其抽样总体。调查对象的答复表明了一种预期,即关于总体的有效假设由样本中具有统计显著性的结果来表示,几乎没考虑样本的大小。其后果是,研究人员过于相信小样本的结果,并严重高估了这些结果的可重复性。在实际研究中,这种偏差导致所选的样本量不足,以及对研究结果的过度解读。
对可预测性不敏感 。人们有时会被要求做出数值预测,比如股票的未来价值、商品需求量或足球比赛结果等。这种预测往往是根据代表性做出的。例如,假设某人看了一家公司的描述,被要求预测其未来的利润。如果描述是非常正向的,那么高额利润似乎最能代表该描述;如果描述是平庸的,那么平庸的业绩显得最具代表性。描述的有利程度不受描述的可靠性或预测精准度的影响。因此,如果人们仅仅根据描述的有利性进行预测,其预测就对证据的可靠性和预测的预期精度不敏感。
在标准的统计理论中,对可预测性的考量限定了预测的极端状态和范围。上述判断模式与之背道而驰。当可预测性为零时,在所有情况下都应做出相同的预测。例如,如果对公司的描述没有提供与利润相关的信息,那么应给予所有公司相同的预测值(比如平均利润)。当然,如果可预测性达到最佳状态,预测值就应等于实际值,预测范围应等于结果的范围。总体而言,可预测性越高,预测值的范围就越广。
Kahneman and Tversky,“On the Psychology of Prediction.”几项关于数值预测的研究表明,直觉预测违反了这一规则,受试者很少或根本不考虑可预测性。
在其中一项研究中,研究人员给受试者看了几段文字,每段都描述了一位实习教师在某节实习课上的表现。研究人员要求一些受试者根据描述以百分位数来评估其课程相对于特定总体的质量,要求其他受试者也以百分位数的形式预测每位实习教师5年后的表现。受试者在两种情况下做出的判断完全相同。也就是说,对远期标准(教师5年后成功)的预测等同于对预测所基于的信息(实习课的质量)的评估。做出预测的学生肯定意识到,仅凭5年前的一次试课来预测教师的教学能力,其可预测性是有限的,然而他们的预测和评估一样极端。
有效性错觉 。我们已经了解到,人们通常会选择最能代表输入信息(例如,对某人的描述)的结果(例如,职业),以此进行预测。他们对预测的信心主要取决于代表性的程度(即所选结果和输入之间的匹配质量),很少或根本不考虑限制预测准确性的那些因素。因此,当某人的性格描述与图书管理员的刻板印象相匹配时,人们会信心十足地预测他是图书管理员,即使这种描述不充分、不可靠或者已过时。因预测结果和输入信息的吻合而产生的盲目自信被称为有效性错觉。即使受试者意识到有些因素限制了预测的准确性,这种错觉也仍然存在。我们经常观察到一个现象,即进行选拔面试的心理学家对自己的预测充满信心,即使他们知道,大量文献表明,选拔面试很容易出错。尽管研究一再证明这种面试的缺陷,但人们仍将其作为选拔方式,这充分说明了有效性错觉的威力。
Kahneman and Tversky,“On the Psychology of Prediction.”预测建立在输入的基础上,输入模式的内部一致性是决定预测信心的主要因素。例如,学生甲第一年的成绩都是B,学生乙第一年的成绩包含了很多A和C。人们对前者的平均学分绩点预测更有信心。当输入变量高度冗余或相关时,人们最常观察到高度一致的模式。因此,人们往往对基于冗余的输入变量所做的预测满怀信心。然而,来自相关性统计的基本结果表明,如果输入变量具有规定的效度,当这些变量相互独立时,其预测准确性比变量冗余或相关时更高。因此,尽管输入中的冗余增强了预测信心,但是它却降低了预测的准确性。人们经常对很可能会出错的预测充满信心。
对回归的误解 。假设一大群孩子接受了两个等价版本的能力测试。我们如果从一个版本中选出10个表现最好的孩子,通常会发现他们在第二个版本中的表现不尽如人意。相反,我们如果从一个版本中选出10个表现最差的孩子,则会发现,平均而言,他们在另一版本测试中的表现较好。说得更概括一些,假设两个变量X和Y具有相同的分布,选择一些人,他们的X平均分偏离X的均值k个单位,那么他们的Y平均分偏离Y的均值通常不足k个单位。这些观察结果揭示了一种普遍现象,即回归均值。这是100多年前由高尔顿首次证明的。
Kahneman and Tversky,“On the Psychology of Prediction.”在日常生活中,人们会遇到许多回归均值的例子。比如,父子身高的比较、夫妻智力的比较,或个人在连续的测验中成绩的比较。但是,人们并没有对此形成正确的直觉。首先,在很多必然会发生回归的情况下,人们并未期望出现回归。其次,在认识到回归发生时,人们经常编造虚假的因果解释。
我们认为,回归现象难以捉摸,是因为它不符合我们的信念。我们认为,预测结果应最大限度地代表输入信息,所以,结果变量的值应该和输入变量的值一样极端。
认识不到回归的重要性或许会产生有害的后果,以下观察结果说明了这一点。
在一次关于飞行训练的讨论中,经验丰富的教官指出,学员出色地完成了平稳着陆,对其表现予以称赞,他的下一次着陆表现通常会较差;而在糟糕的着陆后予以严厉批评,他的下一次表现通常会有所改善。教官们得出的结论是,口头奖励不利于学习,口头惩罚有利于学习。这与公认的心理学理论背道而驰。这个结论没有根据,因为存在着向均值回归的现象。与其他重复测验的情况一样,即使教练在学员第一次着陆后并没有做出回应,糟糕的表现之后通常也是进步,出色的表现之后通常也是退步。因为在学员完成出色的着陆后表扬了学员,在学员完成糟糕的着陆后批评了他们,教官们就得出一个错误且可能有害的结论:惩罚比奖励更有效。
不懂回归效应导致人们高估惩罚的有效性,低估奖励的有效性。在社交互动和训练中,表现好时通常会被给予奖励,表现差时通常会被给予惩罚。仅因为回归这一个因素,行为在惩罚后最有可能得到改善,在奖励后则最有可能退步。结果是,人们碰巧因惩罚他人而获得奖励,也因奖励他人而受到惩罚。人们通常意识不到这种偶然性。事实上,回归对于奖惩后果难以捉摸的作用似乎没有引起该领域研究者的注意。
在某些情况下,人们通过想到案例或事件的容易程度来估计某个类别的频率或事件的概率。例如,通过回忆熟人的心脏病发作情况来评估中年人心脏病发作的风险。同样,人们通过想象一家企业可能遇到的各种困难来评估其失败的概率。这种判断启发式被称为“可得性”。在估计频率或概率时,可得性是一个有用的线索,因为相比较低频率类别的例子,人们能更好、更快地想到大类别的例子。然而,除了频率和概率,可得性还受其他因素的影响。因此,对可得性的依赖会导致可预测的偏差,下面介绍其中的几种偏差。
A.Tversky and D.Kahneman,“Availability: A Heuristic for Judging Frequency and Probability,”Cognitive Psychology 5 (1973): 207-32.由事例的可提取性导致的偏差 。当人们根据事例的可得性来判断类别的规模时,事例容易提取的类别会比不易提取的同等频率的类别显得更大。在证明该效应的初级实验中,受试者听到一份知名男女的名单,随后被要求判断名单中的男性是否多于女性。实验人员向不同的受试组提供不同的名单。有些名单中男性比女性更有名,另一些名单中女性比男性更有名。对于两份名单,受试者都做出了错误的判断:名人较多的类别(性别)人数较多。
除了熟悉度,显著性等其他因素也影响事例的可提取性。例如,相比在当地报纸上读到火灾的消息,目睹房子着火对此类事故的主观概率产生的影响更大。此外,近期事件可能比早期事件的可得性更强。我们都有这样的体验:当看到有车翻倒在路边时,交通事故的主观概率会暂时升高。
A.Tversky and D.Kahneman,“Availability: A Heuristic for Judging Frequency and Probability,”Cognitive Psychology 5 (1973): 207-32.由搜索集合的有效性导致的偏差 。假设某人从英语文本中随机抽取一个单词(包含三个以上字母)。r是单词的首字母和r是第三个字母的可能性哪个更大?人们解决该问题的方法是,回忆以r开头的词(例如road)和r是第三个字母的词(例如car),并根据想起这两类词的容易程度来评估其相对频率。因为搜索首字母单词比搜索第三个字母的单词要容易得多,所以大多数人认为,以给定辅音字母开头的词比该辅音字母出现在第三位的词数量多。即使有些辅音字母(比如r或k)出现在第三位的频率比出现在首位的频率更高,人们也会做出同样错误的判断。
不同的任务引发不同的搜索集合 。例如,假设要求你估计书面语中抽象词(例如思想、爱)和具体词(例如门、水)出现的频率。回答该问题自然而然的方法是搜索这些词可能出现的语境。相比想起涉及具体词(例如“门”)的语境,想起涉及抽象概念的语境(爱情故事中的“爱”)似乎更容易。如果你对词出现的频率的估计是根据其语境的可得性来进行的,你就会认为抽象词多于具体词。最近的一项研究
观察到了这种偏差。该研究表明,人们判断抽象词出现的频率远高于具体词,这与客观频率一致。人们还判断,抽象词出现的语境也比具体词多。
可想象性偏差 。有时,需要估计某个类别的频率,记忆中没有存储此类别的事例,但可以根据特定的规则生成。在这种情况下,人们通常会生成几个事例,并通过构建相关事例的容易程度来估计频率或概率。然而,构建事例的容易程度并不总能反映它们的实际频率,这种估计模式容易产生偏差。为了说明这一点,请想象一个10人小组,他们要组建包含k名成员的委员会(2≤k≤8)。请问,可以组建多少个不同的有k名成员的委员会?这个问题的正确答案可由二项式系数
得出,当k=5时,达到最大值252。显然,k名成员的委员会数量等于(10-k)名成员的委员会数量,因为任何由k名成员组成的委员会都确定了由(10-k)名非成员组成的唯一群体。
无须计算就能回答该问题的方法是,在脑海中构建有k名成员的委员会,并根据想到的容易程度来估计其数量。成员较少的委员会(比如2名)比成员较多的委员会(比如8名)更容易构建。构建委员会最简单的方法是将群体划分为不相交的集合。显然,我们很容易构建由2名成员组成的5个不相交的委员会,却不可能构建由8名成员组成的2个不相交的委员会。因此,如果频率是根据构建的可想象性或可得性来估计的,我们就会判断小型委员会多于大型委员会,这与正确答案(委员会数量呈钟形函数分布)形成鲜明对比。事实上,要求无经验的受试者估计不同规模的委员会数量时,他们的估计是委员会规模的单调递减函数。
例如,2人委员会数量的中位数估计为70,8人委员会数量的中位数估计为20,而二者的正确答案都是45。
可想象性在现实生活的概率估计中起着重要作用。例如,人们在评估探险过程中的风险时,靠的是想象探险队无法应对的突发事件。如果将许多想象中的困难生动地描绘出来,探险就会显得极其危险,尽管想象灾难的容易程度并不一定反映实际发生的可能性。相反,如果一些可能的危险很难想象到,或者根本想不到,那么其风险可能会被严重低估。
L.J.Chapman and J.P.Chapman,“Genesis of Popular but Erroneous Psychodiagnostic Observations,”Journal of Abnormal Psychology 73 (1967): 193-204; L.J.Chapman and J.P.Chapman,“Illusory Correlation as an Obstacle to the Use of Valid Psychodiagnostic Signs,”Journal of Abnormal Psychology 74 (1969): 271-80.幻觉相关性 。L.J.查普曼和J.P.查普曼
描述了一种有趣的偏差,这种偏差是在判断两个事件同时发生的频率时出现的。他们向无经验的受试者提供了几个假想的精神病患者的信息。每位患者的数据包括临床诊断和患者画的人像。然后,他们要求受试者评估每种诊断(如偏执狂或多疑)伴随画像各种特征(如奇怪的眼睛)出现的频率。受试者明显高估了自然关联物(比如多疑与奇怪的眼睛)共同出现的频率。这种效应被称为幻觉相关性。无经验的受试者对接触的数据做出了错误的判断,“重新发现”了许多常见但没有根据的临床知识,以此解释“画人测试”的含义。幻觉相关性效应极其抗拒互相矛盾的数据,即使症状和诊断之间是负相关的,它也依然存在,让判断者无法发现真实的相关关系。
可得性为幻觉相关性效应提供了合理的解释。人们对两个事件同时发生的频率判断基于二者之间的关联强度。关联很强时,人们可能会得出两个事件经常成对发生的结论。因此,强关联被判断为经常一起出现。例如,根据这种观点,多疑和眼睛的奇特画法之间存在幻觉相关性,原因是相比其他身体部位,猜疑更容易与眼睛关联在一起。
毕生的经验告诉我们,一般来说,相比低频率类别的事例,我们能更好更快地回想起大类的事件;可能发生的事比不可能发生的事更容易想象;当事件频繁地同时发生,事件之间的关联就会增强。结果,人类拥有了可得性启发式程序,通过提取、构建或关联等相关心理运作的容易程度来估计类别的规模、事件发生的可能性或共现的频率。然而,正如前面的例子所表明的,这种有价值的估计过程会导致系统误差。
调 整 与 锚 定
P.Slovic and S.Lichtenstein,“Comparison of Bayesian and Regression Approaches to the Study of Information Processing in Judgment,”Organizational Behavior&Human Performance 6 (1971): 649-744.在许多情况下,人们的估计是从一个初始值开始的,该初始值经过调整后成为最终答案。初始值或起点可能受到问题表述的影响,也可以是部分计算的结果。无论哪种情况,调整通常都是不够的。
也就是说,不同的起点会让人们做出不同的估计,这些估计会偏向于初始值。我们将这种现象称为锚定。
调整不足 。为证明锚定效应,受试者被要求以百分比形式估计各种数量。例如,非洲国家在联合国中的占比。为了得到一个数字(0~100),实验人员在受试者面前转动幸运轮盘,得出一个数字。他们首先要求受试者指出这个数字是高于还是低于估计值,然后通过从给定的数字向上或向下移动来估计这个值。给不同小组的数字各不相同,这些随机数字对估计值有显著的影响。例如,两个小组看到的数字分别是10和65,他们对非洲国家在联合国中占比估计的中位数分别是25和45。即使猜对了有奖励,锚定效应也并没有因此而减少。
锚定不只发生在给受试者提供起点的情况下,受试者基于不完全计算的结果进行估计时也会发生锚定。关于直觉性数值估计的研究说明了这一效应。让两组高中生在5秒内估算黑板上乘法算式的结果。一组估算的是:
8×7×6×5×4×3×2×1。
另一组估算的是:
1×2×3×4×5×6×7×8。
为了快速回答问题,人们会进行几步运算,并通过外推或调整来估算结果。由于调整通常不够充分,该流程应该会导致对结果的低估。此外,由于乘法算式的前几步(从左到右执行)计算结果在降序中比在升序中高,因此高中生会判断第一个算式的结果大于第二个。两个预测都得到了证实。对于升序序列,高中生估计结果的中位数是512,而对于降序序列,高中生估计结果的中位数是2250。正确答案是40320。
M.Bar-Hillel,“On the Subjective Probability of Compound Events,”Organizational Behavior&Human Performance 9 (1973): 396-406. J.Cohen, E.I.Chesnick, and D.Haran,“A Confirmation of the Inertial-Ψ Effect in Sequential Choice and Decision,”British Journal of Psychology 63 (1972): 41-46.对合取事件和析取事件的估计偏差 。巴尔-希勒尔
近期的一项研究,要求受试者在两个事件中选择一个下注。研究采用了三类事件:(1)简单事件,例如,从装有50%红色弹珠和50%白色弹珠的袋子里抽到一颗红色弹珠;(2)合取事件,例如,从装有90%红色弹珠和10%白色弹珠的袋子中有放回地连续7次抽到一颗红色弹珠;(3)析取事件,例如,从装有10%红色弹珠和90%白色弹珠的袋子中有放回地连续抽取7次,至少抽到一颗红色弹珠。对于这个问题,大多数受试者更倾向于将赌注押在合取事件上(概率为0.48),而不是押在简单事件上(概率为0.50)。受试者也更愿将赌注押在简单事件上,而不是概率为0.52的析取事件上。 [ 1 ]因此,在两次比较中,大多数受试者都把赌注押在了可能性较小的事件上。这种选择模式说明了一个普遍的发现。关于赌博选择和概率判断的研究表明,人们倾向于高估合取事件的概率
,低估析取事件的概率。这些偏差很容易用锚定效应来解释。简单事件(任一阶段的成功)的设定概率为估计合取事件和析取事件的概率提供了一个自然起点。在起点进行的调整通常是不足的,因此在这两种情况下,最终估值仍然非常接近简单事件的概率。请注意,合取事件的整体概率低于每个简单事件的概率,而析取事件的整体概率高于每个简单事件的概率。锚定的结果是,在合取问题中,整体概率会被高估,而在析取问题中,整体概率会被低估。
在做规划时,复合事件评估中的偏差尤为严重。成功完成某个任务,例如新产品的开发,通常具有合取性质:要获得事业成功,系列事件中的每个事件都必须发生。即使每个事件发生的可能性很大,但如果事件数量繁多,成功的整体概率也会很低。在评估计划成功或项目按时完成的可能性时,高估合取事件可能性的普遍倾向会导致过度乐观。相反,在风险估计中通常会遇到析取结构。一个复杂系统,比如核反应堆或人体,其中任何重要部分出现问题,整个系统就会出现问题。如果整体中部分的数量众多,即使每个部分发生故障的可能性很小,整体故障的概率也可能很高。锚定效应的存在让人们经常低估复杂系统失败的概率。因此,锚定偏差的方向有时可以从事件的结构中推断出来。合取的链状结构导致高估概率,析取的漏斗状结构导致低估概率。
主观概率分布估计中的锚定 。在决策分析中,专家经常需要以概率分布的形式表达他们对某个量的信念,比如某天的道琼斯指数。要构建这种分布,通常需要人们选择一个数值,该数值对应其主观概率分布的特定百分位数。例如,可能会要求判断者选择一个实数X 9 0,表示他认为该数高于道琼斯指数的主观概率是0.90。也就是说,选择X 9 0意味着他愿意接受“道琼斯指数不超过该值”的发生比是9:1。根据几个与不同百分位数相对应的判断,人们可以构建道琼斯指数的主观概率分布。
收集了许多不同量的主观概率分布之后,人们可以检验判断者的校准是否适当。如果估计量的真值,恰好有Π%低于判断者的设定值X Π,说明他在一系列问题中进行了适当的(或外部)校准。例如,有1%的量,其真值应低于X 0 1;有1%的量,其真值应高于X 9 9。因此,98%的问题真值应该落在X 0 1和X 9 9之间的置信区间内。
M.Alpert and H.Raiffa, unpublished manuscript; C.A.Stael von Holstein,“Two Techniques for Assessment of Subjective Probability Distributions: An Experimental Study,”Acta Psychologica 35 (1971): 478-94; R.L.Winkler,“The Assessment of Prior Distributions in Bayesian Analysis,”Journal of the American Statistical Association 62 (1967): 776-800.一些研究者
已经从大量的判断者那里获得了许多量的概率分布。这些分布与正确的校准之间存在巨大且系统性的偏离。在大多数研究中,大约有30%的问题估计量,其实际值要么小于X 0 l,要么大于X 9 9。也就是说,受试者给出的置信区间过窄,说明他们对估计量的认识过于自信。无论受试者的经验是否丰富,这种偏差都很普遍,而且无法通过引入适当的评分规则加以消除,这些规则为外部校准提供了激励。该效应部分可归因于锚定。
举个例子,要选择X 9 0作为道琼斯指数的值,你会很自然地先考虑道琼斯指数的最佳估计,然后向上调整这个值。如果这种调整,像大多数其他调整一样,是不够的,那么X 9 0就不够极端。类似的锚定效应也会出现在X 1 0的选择中,这是通过向下调整最佳估计来获得的。因而,X 1 0和X 9 0之间的置信区间会过窄,并且估计的概率分布会过于紧致。为了支持这一解释,可证明主观概率会被一个程序系统地改变,在这个程序中,个体的最佳估计并不充当锚点。
获得某个量(道琼斯指数)的主观概率分布有两种不同的方式:(1)要求受试者选择道琼斯指数的一个值,该值与其主观概率分布的特定百分位数相对应;(2)要求受试者估计道琼斯指数的真值超过某些特定值的概率。这两个程序在形式上是等价的,应该产生相同的分布。然而,它们表明了不同锚点的不同调整模式。在程序(1)中,自然起点是个体对量的最佳估计。在程序(2)中,受试者可能被锚定在问题中所给的值上。或者,他可能被锚定在相等的概率(或者50-50的概率)上,这是估计可能性的自然起点。在任何一种情况下,程序(2)产生的极端概率都应低于程序(1)。
为了对比这两个程序,研究人员向一组受试者提供了24个量(例如,从新德里到北京的航空距离),要求他们对每个问题估计X 1 0或X 9 0。另一组受试者看到了第一组对24个量中每个量的判断中位数。他们被要求估计每个给定值超过相关量真值的胜算。在没有任何偏差的情况下,第二组应提取第一组的胜算,即9:1。然而,如果用相等的概率或设定的值充当锚点,第二组的胜算应该不那么极端,即更接近1:1。事实上,在所有问题中,第二组给出的胜算中位数是3:1。研究者在对两组的判断进行外部校准检验时,发现第一组的受试者过于极端,这与之前的研究一致。他们确定的概率为0.10的事件,实际发生率是24%。相比之下,第二组的受试者过于保守。他们确定的平均概率为0.34的事件,实际发生率是26%。这些结果说明,校准程度取决于程序的促发方式。
讨 论
Kahneman and Tversky,“Subjective Probability”; Tversky and Kahneman,“Availability.”本文探讨的是因判断启发式依赖而产成的认知偏差。这些偏差不能归因于动机效应,如一厢情愿的想法,或因奖惩做出的错误判断。尽管研究人员鼓励受试者做出准确的判断,并对其正确答案给予奖励,但本文提及的一些严重的判断错误依然会出现。
对启发式的依赖和偏差的普遍性并不局限于外行人。经验丰富的研究者凭直觉思考时也容易出现同样的偏差。例如,有些人受过大量的统计学训练,我们在其直觉判断中仍会观察到一种倾向,即在没有充分考虑先验概率的情况下,预测出最能代表数据的结果。
尽管统计学专业人士避免了基本错误,比如赌徒谬误,但在更复杂、更模糊的问题上,他们的直觉判断也容易出现类似错误。
尽管代表性和可得性偶尔会导致预测或估计误差,但这类有用的启发式被保留了下来不足为怪。或许,出乎意料的是,人们没能从毕生经验中推断出基本的统计规则,比如向均值回归,或样本量对抽样变异性的影响。尽管在日常生活中,人人都会接触到许多事例,应该可以从中归纳出这些统计规则,但很少有人能自己发现抽样和回归的原理。统计原理不是从日常经验中学到的,因为相关事例没有得到适当的编码。例如,人们不会发现文本中连续几行的平均词长差异大于连续几页的平均词长差异,因为我们根本不关注单行或单页的平均词长。因此,人们不了解样本量和抽样变异性之间的关系,尽管用于这类学习的数据非常丰富。
人们通常无法发现概率判断中的偏差,还有一个原因是缺乏适当的行为规范。可以想象,通过统计自己赋予相同概率的事件的实际发生比例,人们可以了解其判断是否经过了外部校准。然而,根据判断概率对事件进行分类是不自然的做法。例如,在没进行分类的情况下,人们不可能发现,其预测概率为0.9或更高的事件,实际发生比例只有50%。
L.J.Savage, The Foundations of Statistics (New York: Wiley, 1954).在判断概率的理论和应用方面,认知偏差的实证分析具有启示意义。现代决策理论
认为,主观概率是理想化的人的量化看法。具体来说,给定事件的主观概率是指,某人愿意接受的关于该事件的一组赌注。如果这个人的选择符合某些原理,即理论公理,我们就可以推导出其主观概率,它具有内部一致性,或者说逻辑自洽。推导出的概率是主观的,因为不同的个体对同一事件可以持不同的概率。该方法的主要贡献是,它为独特事件的概率提供了严谨的主观解释,并被纳入理性决策的一般理论之中。
也许应该指出的是,虽然主观概率有时可以从投注偏好中推断出来,但它们通常不是以这种方式形成的。一个人把赌注押在A队而不是B队,是因为他相信A队更有可能获胜,他不是从自己的投注偏好中推断出这种信念的。因此,在现实中,主观概率决定了投注偏好,它并不是像理性决策的公理理论那样从偏好中推导而来的。
概率固有的主观性使许多研究者相信,连贯性或内部一致性是评估判断概率的唯一有效标准。从主观概率形式理论的角度来看,任何内部一致的概率判断,都像其他判断一样好。这个标准并不完全令人满意,因为一组内部一致的主观概率可能与个体持有的其他信念不相容。比如,某人对抛硬币游戏所有可能结果的主观概率,体现的其实是赌徒谬误。也就是说,他对某次抛出反面的概率估计,会随着之前连续抛出正面的次数增加而增加。此人的判断可能是内部一致的,因此根据形式理论的标准,可以被认为是合格的主观概率。然而,人们的普遍信念是,硬币没有记忆,因此无法产生序列依存关系。这些概率与这一信念是不相容的。要使判断概率充分、合理,仅有内部一致性是不够的。判断必须与个人持有的整个信念网络相互兼容。遗憾的是,没有哪个简单的规范程序可以评估概率判断与判断者整个信念体系的兼容性。尽管内部一致性更容易实现和评估,但理性的判断者仍会努力寻求兼容性。特别是,他会力求概率判断与其掌握的主题知识、概率定律及其判断启发式和偏差相互兼容。
结 语
本文描述了在不确定状况下做判断时所使用的三种启发式。(1)代表性:人们在被要求判断对象A或事件A属于类别B或过程B的概率时,通常会使用该方式;(2)事例或场景的可得性:当被要求估计某个类别的频率,或某一事态发展的可能性时,人们通常会使用该方式;(3)从锚定开始调整:在数值预测中,当相关值可用时,人们通常会使用该方式。这些启发式非常经济,通常是有效的,但它们会导致系统误差和可预测的误差。更好地理解这些启发式及其导致的偏差,可以改善不确定状况下的判断和决策。
[ 1 ]在合取事件中,有放回地连续7次抽到红色弹珠的概率是0.9 7≈0.48。在析取事件中,有放回地连续抽取7次,至少抽到一颗红色弹珠的概率是1-0.9 7≈0.52。——译者注