您当前的位置:首页 > 经济管理 > 思考,快与慢

第21章 直觉与公式

2 1

保罗·米尔是位奇才,也是20世纪最多才多艺的心理学家之一。他曾在明尼苏达大学的多个系里任教,包括心理学系、法律系、精神病学系、神经病学系和哲学系。他的论文涉及宗教、政治学和老鼠的学习。米尔还是精通统计学的资深科研人员,强烈反对临床心理学的空谈,另外他还是一位执业心理分析师。他写的关于心理学研究的哲学基础论文发人深省,读研时我几乎能全文背诵下来。我从未见过米尔,但自从读了他的《临床与统计预测——理论分析和证据综述》(Clinical vs. Statistical Prediction: A Theoretical Analysis and a Review of the Evidence)一书,他就成了我心中的英雄。

后来,米尔将那本书称为“我那令人不安的小书”。他在书中回顾了20项研究成果,这些研究分析了受过训练的专业人员根据主观印象所做的临床预测是否比根据规则结合分数或评级所做的统计预测更准确。在一项典型研究中,受过训练的辅导员在期末预测了大一新生的成绩。辅导员与每个学生面谈了45分钟,还获得了学生的高中成绩、几次能力测试成绩和一份长达4页的个人陈述。统计算法只使用了其中的一小部分信息,即高中成绩和一次能力测试成绩。然而,由公式得出的预测结果比14名辅导员中的11名预测得更准确。米尔在其他各种预测中报告了类似结果,包括对是否违反假释规定、飞行员培训是否成功和刑事累犯情况等的预测。

米尔的书让临床心理学家震惊和怀疑,它引发的争议带来一系列研究,在出版50多年后的今天仍在继续,这不足为奇。比较临床预测和统计预测的论文已有200篇左右,但算法和人类的竞争得分没有改变。约60%的研究表明,算法的准确性明显更高。其他比较在准确性上不分胜负,但这就等于说统计规则更胜一筹,其使用成本通常比专家判断的成本低得多。关于这一点,没有任何例外得到了令人信服的证明。

预测结果的范围已扩展到医学变量,如癌症患者的寿命、住院时间、心脏病诊断以及婴儿对猝死综合征的易感性;经济指标,如新公司的成功前景、银行对信贷风险的评估以及员工未来的职业满意度;政府机构感兴趣的问题,包括评估养父母是否合适、少年犯累犯概率以及其他形式暴力行为的可能性;对各种结果的评估,比如科学报告、足球比赛的获胜方以及波尔多葡萄酒未来的价格。这些领域的每个结果都有很大程度的不确定性和不可预测性。我们称其为“低效度环境”。在所有情况下,简单算法的预测准确性都超过了专家预测,或与其不相上下。

Paul Meehl,“Causes and Effects of My Disturbing Little Book,”Journal of Personality Assessment 50 (1986): 370-75.

著作出版30年后,米尔自豪地指出:“在社会科学中,如此多质化的研究与该研究殊途同归,这一点毫无争议。”Paul Meehl,“Causes and Effects of My Disturbing Little Book,”Journal of Personality Assessment 50 (1986): 370-75.

例如,在1990-1991年的拍卖季,一箱1960年的拉图酒庄的葡萄酒在伦敦的售价为464美元,而一箱1961年的葡萄酒(有史以来最好的葡萄酒之一)平均售价为5432美元。

普林斯顿经济学家和葡萄酒爱好者奥利·阿申菲尔特提供了一个令人信服的证据,证明了简单统计数字可以超越世界知名专家。阿申菲尔特希望通过生产年份信息预测波尔多优质葡萄酒的未来价值。这个问题很重要,因为优质葡萄酒需要数年才能达到最佳质量,而出自同一葡萄园的葡萄酒在不同酿造年份的价格差异很大,相隔仅12个月的瓶装酒价值可能相差10倍或更多。例如,在1990-1991年的拍卖季,一箱1960年的拉图酒庄的葡萄酒在伦敦的售价为464美元,而一箱1961年的葡萄酒(有史以来最好的葡萄酒之一)平均售价为5432美元。预测未来价格的能力具有很大的价值,因为投资者购买葡萄酒就像购买艺术品一样,是出于升值的预期考量。

人们普遍认为,年份会产生影响只是因为葡萄生长季节的气候变化。最好的葡萄酒是在温暖干燥的夏季生产的,这使波尔多葡萄酒业成为全球变暖的受益者。湿润的春季也有利于增加葡萄酒的产量,但对质量影响不大。阿申菲尔特将传统知识转化为一个统计公式,该公式针对特定性质和特定年份,通过气候的三个特征来预测葡萄酒价格,它们分别是,夏天生长季的平均温度、收获时的降雨量和上一年冬天的总降雨量。他的公式提供了未来几年甚至几十年的准确价格预测。事实上,相比根据新酿葡萄酒的当前价格进行预测,他的公式更准确地预测了未来价格。专家观点有助于确定早期价格,这个“米尔模式”的新例子挑战了专家的能力,也挑战了经济理论,即价格应反映包括气候在内的所有可用信息。阿申菲尔特的公式非常准确——他的预测和实际价格之间的相关系数超过了0.90。

为什么专家不如算法?米尔认为,原因之一是专家做预测时想卖弄聪明,跳出固有思维模式,考虑复杂的特征组合。复杂性可能在少数情况下起作用,但通常会降低有效性。简单的特征组合效果会更好。几项研究表明,即使人类决策者获得了公式建议的分数,他们的预测也不如预测公式有效!人们自以为掌握了更多信息就可以推翻公式,但这往往是错的。根据米尔的说法,只有在很少的情况下,用判断代替公式才是明智的。他在一个著名的思想实验中描述了一个公式,预测某人今晚是否会去看电影。他指出,如果知道此人今天摔断了腿,那就应该忽略这个公式。“断腿法则”的说法一直沿用至今。当然,关键是断腿非常罕见,但也是决定性因素。

Paul J.Hoffman, Paul Slovic, and Leonard G.Rorer,“An Analysisof-Variance Model for the Assessment of Configural Cue Utilization in Clinical Judgment,”Psychological Bulletin 69 (1968): 338-39. Paul R.Brown, “Independent Auditor Judgment in the Evaluation of Internal Audit Functions,”Journal of Accounting Research 21 (1983): 444-55. James Shanteau,“Psychological Characteristics and Strategies of Expert Decision Makers,”Acta Psychologica 68 (1988): 203-15.

专家判断能力低下的另一个原因是,人类在对复杂信息做出总结判断时,存在屡教不改的不一致性。当被要求对同一信息进行两次评估时,人们经常给出不同的答案。不一致的程度往往是真正令人担忧的问题。经验丰富的放射科医生在不同场合看到同一张胸部X光片,对“正常”或“异常”的评估有20%的时间会自相矛盾。Paul J.Hoffman, Paul Slovic, and Leonard G.Rorer,“An Analysisof- Variance Model for the Assessment of Configural Cue Utilization in Clinical Judgment,”Psychological Bulletin 69 (1968): 338-39.一项研究要求101名独立审计师评估公司内部审计的可靠性,结果显示存在类似程度的不一致性。Paul R.Brown, “Independent Auditor Judgment in the Evaluation of Internal Audit Functions,”Journal of Accounting Research 21 (1983): 444-55.针对审计师、病理学家、心理学家、公司经理和其他专业人士的41项判断可靠性的独立研究综述表明,即使在几分钟内重新评估案件,这种不一致程度也很明显。James Shanteau,“Psychological Characteristics and Strategies of Expert Decision Makers,”Acta Psychologica 68 (1988): 203-15.对任何事情的有效预测都不能依赖不可靠的判断。

Danziger, Levav, and Avnaim-Pesso,“Extraneous Factors in Judicial Decisions.”

普遍的不一致性可能是由系统1对环境的极端依赖造成的。通过促发研究我们知道,环境中未被注意的刺激会极大地影响我们的思想和行为。这些影响每时每刻都在变动。炎热的日子里,凉风带来的一时惬意可能会让你对当时的评估更积极乐观。罪犯获得假释的可能性会在假释官两次就餐的间隔时间内发生重大变化。Danziger, Levav, and Avnaim- Pesso,“Extraneous Factors in Judicial Decisions.”人们无法直接了解自己大脑中的意念起伏,因此,你永远不会知道,面对差异甚微的不同情况,自己可能做出了不同的判断或决定。公式不存在此类问题。给定相同的输入,总是得出相同的答案。当可预测性较差时(米尔及其追随者评论的大多数研究都是如此),不一致性会破坏所有预测的有效性。

Richard A.DeVaul et al.,“Medical-School Performance of Initially Rejected Students,”JAMA 257 (1987): 47-51.Jason Dana and Robyn M.Dawes,“Belief in the Unstructured Interview: The Persistence of an Illusion,”working paper, Department of Psychology, University of Pennsylvania, 2011. William M.Grove et al., “Clinical Versus Mechanical Prediction: A Meta-Analysis,”Psychological Assessment 12 (2000): 19-30.

这项研究提出了一个出人意料的结论:为了最大限度地提高预测准确性,最终的决定应该交给公式去做,尤其是在低效度环境中。例如,在医学院的录取决定中,最终决定者通常是面试官。虽然证据不完整,但有充分的理由推测:如果最终由面试官做出录取决定,那么面试选拔程序的准确性可能会降低。面试官过于相信自己的直觉,因而会过于看重个人印象,不太重视其他信息源,从而降低了最终决定的有效性。Richard A.DeVaul et al.,“Medical- School Performance of Initially Rejected Students,”JAMA 257 (1987): 47-51.Jason Dana and Robyn M.Dawes,“Belief in the Unstructured Interview: The Persistence of an Illusion,”working paper, Department of Psychology, University of Pennsylvania, 2011. William M.Grove et al., “Clinical Versus Mechanical Prediction: A Meta-Analysis,”Psychological Assessment 12 (2000): 19-30.同样,通过评估新酿葡萄酒的质量预测未来价格的专家有一个信息源:他们可以品尝葡萄酒。这对于预测来说有害无益。当然,还有一点,即使他们了解气候对葡萄酒质量的影响,也无法像公式那样保持一致性。

Robyn M.Dawes,“The Robust Beauty of Improper Linear Models in Decision Making,”American Psychologist 34 (1979): 571-82. Jason Dana and Robyn M.Dawes,“The Superiority of Simple Alternatives to Regression for Social Science Predictions,”Journal of Educational and Behavioral Statistics 29 (2004): 317-31.

继米尔的原创研究之后,该领域最重要的进展来自罗宾·道斯的著名论文《决策制定中不当线性模型的稳健之美》。Robyn M.Dawes,“The Robust Beauty of Improper Linear Models in Decision Making,”American Psychologist 34 (1979): 571-82.社会科学中的主要统计实践是通过遵循一种被称为多元回归的算法来为不同的预测因子分配权重,该算法现已内置于常规软件中。多元回归的逻辑无懈可击,因为它找到了将各种预测因子分量在一起的最佳公式。然而,道斯观察到,复杂的统计算法几乎毫无价值。选择一组对预测结果有一定效度的分数,调整这些值使其具有可比性(使用标准分数或排序法),也可以预测得很好。预测新案例时,以等权重将预测因子组合在一起的公式,可能与原始样本中最佳多元回归公式一样准确。后来的研究更为深入:为所有预测因子分配等权重的公式通常更有效,因为它们不受抽样意外的影响。Jason Dana and Robyn M.Dawes,“The Superiority of Simple Alternatives to Regression for Social Science Predictions,”Journal of Educational and Behavioral Statistics 29 (2004): 317- 31.

等权重方案出人意料的成功具有重要的实际意义:在没有任何统计研究的情况下,我们有可能开发出实用的算法。基于现有统计数据或常识的简单等权重公式,通常是显著结果的优质预测器。在一个令人难忘的例子中,道斯给出了有效预测婚姻稳定性的公式:

做爱次数减去吵架次数。

你不希望你的结果是负数。

该研究的重要结论是,粗略构建的算法足以与最优分量公式媲美,当然也比专家的判断更精准。这种逻辑可以应用于许多领域,包括投资组合经理的选股以及医患对医疗方案的选择。

该方法的经典应用是一个简单算法,它挽救了无数婴儿的生命。一直以来,产科医生都知道,呼吸异常的婴儿在出生几分钟内有很高的脑损伤或死亡风险。医生和助产士以其临床经验来判断婴儿是否处于痛苦之中。他们关注的线索各不相同,有人观察呼吸问题,有人监测婴儿多久开始啼哭。直到1953年,麻醉师弗吉尼亚·阿普加引入了一种方法,才改变了局面。没有标准化程序,人们很容易错过危险信号,导致许多新生儿死亡。

Virginia Apgar,“A Proposal for a New Method of Evaluation of the Newborn Infant,”Current Researches in Anesthesia and Analgesia 32 (1953): 260-67.Mieczyslaw Finster and Margaret Wood,“The Apgar Score Has Survived the Test of Time,”Anesthesiology 102 (2005): 855-57. Atul Gawande, The Checklist Manifesto: How to Get Things Right (New York: Metropolitan Books, 2009).

一天早餐后,一位住院医生问阿普加医生,如何对新生儿进行系统评估。Virginia Apgar,“A Proposal for a New Method of Evaluation of the Newborn Infant,”Current Researches in Anesthesia and Analgesia 32 (1953): 260-67.Mieczyslaw Finster and Margaret Wood,“The Apgar Score Has Survived the Test of Time,”Anesthesiology 102 (2005): 855- 57.阿普加说:“这很简单,你可以这么做。”她写下5个变量(心率、呼吸、反射、肌肉张力和肤色)和3个分数(0、1或2,取决于每种迹象的稳健性)。阿普加意识到,这可能是适用于所有产房的重要发现,于是她在婴儿出生一分钟后根据这条规则进行评分。总分为8分或8分以上的婴儿,皮肤呈粉红色、扭动身体、啼哭、有面部表情,脉搏100或以上——表明身体状况良好。评分为4分或4分以下的婴儿,肤色偏蓝、软弱无力、被动、脉搏缓慢或微弱——表明需要立即干预。使用阿普加的评分系统,产房工作人员终于有了一致的标准来确定婴儿是否有问题,该公式在降低婴儿死亡率方面做出了重要贡献。阿普加量表至今仍应用于各个产房。阿图·葛文德在著作《清单革命》中,提供了许多关于清单益处的案例以及简单的规则。Atul Gawande, The Checklist Manifesto: How to Get Things Right (New York: Metropolitan Books, 2009).

从一开始,临床心理学家就对米尔的观点充满敌意和怀疑。显然,他们深陷于技能错觉,以为自己具备做长期预测的能力。反思一下,你很容易明白这种错觉是如何产生的,也很容易理解临床医生为何排斥米尔的研究。

统计证据表明,临床判断是不准确的,这与临床医生对其判断质量的日常体验相抵触。与患者打交道的心理学家在每次治疗过程中都会产生很多预感,预测患者对干预的反应,猜测接下来会发生什么。许多预感得到了证实,说明临床技能是真实存在的。

问题是,正确判断来自治疗访谈背景下的短期预测,是治疗师经过多年实践而获得的技能。他们搞不定的任务通常涉及对患者未来的长期预测。这些任务要难得多,即使是最好的公式也只能达到中等程度的准确性,而且临床医生没有机会从任务中学习——与临床治疗期间的即时反馈不同,他们必须等待数年才能得到反馈。然而,临床医生的可为与不可为界限并不清晰,当然,他们也很难分辨。他们知道自己是有技能的,但不一定知道其技能的边界。因此,当有人提出这一观点,即几个变量的机械组合胜过人类微妙复杂的判断时,经验丰富的临床医生认为它是错的就不足为怪了。

关于临床预测和统计预测优点的争论始终存在道德层面的考量。米尔写道,经验丰富的临床医生批评统计方法是“机械的、不连贯的、相加的、一成不变的、人为的、不真实的、武断的、不完整的、死气沉沉的、迂腐的、分离的、琐碎的、强迫的、静态的、肤浅的、僵化的、贫瘠的、学究式的、伪科学的和盲目的”。而临床方法则被其支持者誉为“动态的、全面的、有意义的、整体的、微妙的、有同情心的、结构化的、模式化的、有组织的、丰富的、深刻的、真诚的、敏感的、复杂精妙的、真实的、有生机的、具体的、自然的、生动的和体谅的”。

Paul Rozin,“The Meaning of‘Natural’: Process More Important than Content,”Psychological Science 16 (2005): 652-58.

这是一种我们都能识别的态度。当人类与机器竞争时,我们都同情自己的人类同胞,无论是挥舞大锤与钻机竞赛的约翰·亨利,还是与计算机“深蓝”对决的国际象棋天才加里·卡斯帕罗夫。很多人厌恶让算法做出影响人类的决策,这源于对自然而非合成或人工的强烈偏好。当被问及愿意吃有机苹果还是商业化栽培的苹果时,大多数人更喜欢“纯天然”的苹果。即使被告知它们的味道、营养价值相同,同样有益健康之后,大多数人仍偏好有机水果。Paul Rozin,“The Meaning of‘Natural’: Process More Important than Content,”Psychological Science 16 (2005): 652-58.连啤酒生产商都发现,标签上写有“纯天然”或“未添加防腐剂”可以提高销量。

阿申菲尔特预测波尔多葡萄酒的价格公式在欧洲葡萄酒界引发的反响,显示出人们对专业知识去神秘化的强烈抵制。阿申菲尔特的公式实现了预测愿望,你可能以为,他显著提高了人们预测葡萄酒品质的能力,世界各地的葡萄酒爱好者会因此感谢他。事实并非如此。《纽约时报》写道,法国葡萄酒界的反应“介于强烈抵制和歇斯底里之间”。阿申菲尔特说,一位葡萄酒行家称他的发现“荒唐可笑”。另一位则嘲讽道:“这就像没看过电影却发表了影评。”

当决策具有重大意义时,人们对算法的偏见就会更强烈。米尔说:“一些临床医生会设想,‘盲目、机械’的公式对可治疗的患者进行了错误分类,导致患者无法得到及时的救治。想到这里,他们感到恐惧。我不太知道如何减轻这种恐惧。”相比之下,米尔和算法的支持者坚信,如果有一种算法可以减少错误,在重要决策中依赖直觉判断就是不道德的。他们的理性论点很有说服力,但它违背了一个根深蒂固的心理现实:对大多数人来说,错误的原因事关重大。一个孩子因为算法出错而死亡比因人为错误造成同样的悲剧更令人心酸,情感强度的差异很容易转化为道德偏好。

值得庆幸的是,随着算法在日常生活中发挥作用的领域不断扩大,人们对它的敌意可能会减弱。在寻找可能喜欢的书或音乐时,我们会感谢软件的推荐。我们会理所当然地认为,有关信贷限额的决定不受人类判断的直接干预。我们越来越多地接触到以简单算法形式呈现的指导方针,比如应尽力维持的好胆固醇和坏胆固醇水平的比例。公众现在很清楚,在体育界某些关键决策中,公式可能比人类做得更好。比如,职业球队应该为新球员支付多少薪水,或者橄榄球队何时展开第四次进攻等。第一次读到米尔那本令人不安的小书描述的结果模式时,大多数人会感到有些不适。如今,分配给算法的任务不断增多,那种不适感终会随之减轻。

1955年,21岁的我作为一名以色列国防军中尉,接受了一项任务:为全军创建面试系统。你可能会疑惑,如此重任怎么会交给一个初出茅庐的年轻人。请记住,当时以色列建国只有7年,所有制度都在建设中,这些事必须有人来做。今天听起来颇为奇怪,我的心理学学士学位可能让我成为军中受训程度最高的心理学家。我的直接上司是一位出色的研究者,拥有化学学位。

我接到任务时,已经有固定的面试程序了。所有应征入伍的士兵都完成了一系列心理测试,所有作战候选士兵都接受了人格评估。我们的目标是为新兵的作战能力评出大致分数,并找到最适合其个性的兵种,比如步兵、炮兵、装甲兵等。面试官也是年轻的应征者,他们因高智商及热衷社交的特质而入选,其中大多数是不执行作战任务的女性。他们接受了几周的培训,学习如何进行15~20分钟的面试。培训者鼓励他们在面试中涵盖一些话题,由此对新兵在军中的表现形成大致的印象。

遗憾的是,后续评估表明,这种面试程序对于预测新兵未来是否成功几乎毫无用处。上级要求我设计一个实用快捷的面试程序,还要我主持新的面试,并评估其准确性。从严谨的专业角度看,我不具备完成这项任务的资格,这无异于让我建造一座横跨亚马孙河的大桥。

幸运的是,我读过保罗·米尔的“小书”,这本书在我接到这项任务的一年前刚刚出版。米尔认为,简单的统计规则优于直觉性的“临床”判断。我被他的论点说服,得出一个结论:目前面试程序失败的部分原因在于,它允许面试官随性而为,去了解被面试者精神生活的发展变化。我们应该改弦易辙,利用有限的时间,尽可能多地获取其日常生活的具体信息。我从米尔那里学到的另一个经验是,应该摒弃目前的程序,即由面试官确定招聘人员的最终评估结果。米尔在书中表达的观点是,这种评估不可信,对各种品质的单独评估所形成的统计概括有更高的效度。

我确定了一个程序,面试官要评估几个相关的人格特质,并分别打分。适合作战任务的最终分数将根据标准公式计算,面试官不需要添加更多的内容。我列出一份清单,其中涵盖与作战部门的表现有关的6项人格特质,包括“责任感”、“社交能力”和“阳刚之气”等。然后,我为每种特质匹配了入伍前个人生活的事实性问题,包括从事的工种数量、在工作或学习中有多规律和守时、与朋友互动的频率以及对运动的兴趣和参与度等。这样设置目的是尽可能客观地评估新兵各方面的表现。

我希望通过关注标准化的、事实性问题来抵制光环效应,即有利的第一印象会影响后续判断。为了进一步预防光环效应,我让面试官按照固定顺序完成6项特质的评估,在涉及下一个特质之前,用5分制对当前特质打分。我告诉面试官,不必担心新兵将来对军中生活的适应性。他们唯一的任务是发掘新兵过去的相关事实,并利用这些信息对他们的每个人格维度进行评分。“你们的职责是提供可靠的测量。”我告诉他们,“预测有效性由我来处理。”我指的是我要设计的公式会将各项具体评分结合起来。

面试官反抗的情绪一触即发。一个比他们大不了几岁的人命令他们放弃直觉,只关注无聊的事实性问题,这些聪明的年轻人可不愿照办。有人抱怨说:“你把我们变成机器人了!”我找到了一个折中方案。“严格按照指示进行面试,”我告诉他们,“面试结束后,按照你的愿望去做:闭上眼睛,将新兵想象成士兵,在1~5的等级范围内给他打分。”

我们用这种新方法进行了数百次面试,几个月后,从所属部队的指挥官那里收集了对士兵表现的评估。结果让我们很开心。与米尔书中的结论一致,相比过去的面试程序,新程序有了很大改进。以前的面试方法是给出全面评估,相比之下,现在将6项评分相加能更准确地预测士兵的表现。尽管离完美还差得很远,但我们已经将面试从“完全无效”改进到“比较有效”了。

令我惊讶的是,面试官在“闭眼”时做出的直觉判断也同样精准,与6个具体评分之和的效果一样好。我从中学到了一个永生难忘的经验:即使在饱受诟病的选拔性面试中,直觉也是有价值的,但前提是要严谨地搜集客观信息,严谨地对不同特征进行评分。我设计了一个公式,使“闭眼”的评估权重与6项人格评分总和的权重相同。我从中学到的一个更普遍的经验是,不要简单地相信直觉判断,无论是自己的还是他人的,但也不要完全弃之不用。

45年后,我获得了诺贝尔经济学奖,一时在以色列小有名气。在一次访问中,有人带我参观曾经服役的军事基地,新兵面试部门仍在那里。我被介绍给心理部门的指挥官,她向我描述了目前的面试方法,与我设计的系统差别不大。大量研究表明,这种面试方法的效果依然很好。在介绍完面试流程后,指挥官补充了一句:“然后,我们告诉面试官,‘闭上眼睛’。”

本章内容也适用于军队人力决策之外的其他任务。以米尔和道斯的方法设计的面试程序比较省力,但需要更多的自我约束。我们假设你需要为你的公司招聘一名销售代表。你如果是真心求贤,就应该这么做:首先,确定在该职位上获得成功的先决条件(比如,技术熟练度、性格魅力、值得信赖等)。过犹不及——选择6个就够了。所选的特质应该尽可能相互独立,你应该确信,你能通过询问几个事实性问题得到对应聘者的可靠评估。接下来,列出关于每个特质的问题清单,思考你的评分方式,比如5分制。你应该清楚“非常弱”或“非常强”的含义。

准备工作需要耗费半小时左右,是一笔小投资,但它可以对招聘的员工质量产生重大影响。为了避免光环效应,你必须一次只收集一个特质信息,在收集下一个特质信息之前对当前特质进行评分。不要跳过步骤。将6个分数加起来,完成对每个候选人的评估。因为你是负责做出最终决定的人,所以你不应“闭上眼睛”。要下决心雇用最终得分最高的候选人,即使你更喜欢另一个——试着抵制通过“断腿效应”改变排名的冲动。常规程序是在无准备的情况下进入面试,通过整体的直觉判断做出选择,比如“我凝视他的眼睛,心生欢喜”。大量研究表明:相比常规程序,使用我所说的程序,你找到最佳候选人的可能性更大。

“无论何时,只要能用公式来代替人类判断,我们都应该考虑一下。”

“他认为自己的判断复杂而微妙,但简单地将分数加起来,结果可能会更准确。”

“让我们提前确定分配给候选人过往表现数据的权重。否则,我们会过于看重面试印象。”

上一章 封面 书架 下一章