6.3.3 职级评估问题的关键节点

6.3.3　职级评估问题的关键节点

上节介绍了对于职级评定问题的理想态定义思路，如何在考虑实现成本的一定情况下逼近理想态？事实上，对于效果和成本是要有取舍的。如何将对内指标的主观评估做成可以上线的项目？

职级等对内指标的评估有三个重要的特点，分别是重要性、主观性、浮动性。顾名思义，员工的职级是一种对内指标，是决策层做决策的依赖数据。同时，该指标又是主观评估的，比客观指标的波动性更大（主观指标与客观指标的关系详见第3章）。最后，该指标是一个浮动的指标，每个人的职级一般是连续变动的，在不同的时间点去测量，可能会发生改变。正如第3章所提到的，主观评估的难点在于标准统一，需要用一个强有力的机制将评估结果进行数学上的最优化。

无论如何，人力部门应讨论出一个固定的标准，通常包括以下内容。

●职级设计：公司的职级体系包括N个职级（N为正整数）。

●描述：每个职级的典型描述和典型行为，这里的描述形式为“形容词+名词”，比如第5级的员工应该是一个“能够为组织带来经济收益的、引导团队前进的、敢于选拔人才的优秀领导者”。

●案例：比如张某和李某属于第5级员工，王某和朱某属于第6级员工。

●数值比例：纺锤结构或金字塔结构，比如第5级员工占比25%，第6级员工占比10%。

大多数情况下的主观评估标准可以拆解为以上4个模块。职级的设计确定了整体结构；“形容词+名词”描述方式让评估人员有一个粗略的印象；案例让评估人员有了“标杆等级”，在做其他人的等级分工时只需要反复对比当下要评估的对象和“标杆等级”的优劣，并得出结论；数值比例是最后的步骤，往往是评估委员会的负责人按照既定结果，对等级边缘的人选进行微调，使之服从设定分布。

假设待评估人员有50人，则这个评估问题是容易解决的，因为只需要1个评估员即可评估全部样本。只有50人的公司中人与人之间的联系非常紧密，评估员可以和每个人建立联系，收集意见，按照既定标准进行准确评估，此时处于理想态。

假设待评估人员有5万人，则情况发生了根本性的变化，因为这是无法通过一个大脑可以处理完的任务，必须需要多个大脑的“串联”才能完成这个庞大的任务。本节所讲的就是这种更为常见的对内指标的主观评估场景。

对内指标的主观评估难点是标准统一，其解决方案主要为以下两种手段。

●流程管理：指的是评估流程中保证各个评估员的标准统一的策略。

●人员管理：指的是使用组织行为学的手段进行人员管理的手段，即“人治”。

流程管理和人员管理是笔者多个类似项目总结出来的方法论。下面以职级评定问题为引子，谈谈对内指标评估的关键节点。

1.如何设计流程管理以保证所有评估员的标准统一

在职级评定问题中，每个子模块的不同领导在对其下属评级时往往均值和标准差均不相同。如果你是该公司绩效评估的负责人，需要设计一套流程来保证标准统一，对于每一个领导的打分不能直接使用，需要做准确率的评估。

那什么是准确的分值呢？前文已经介绍过职级评估问题的职级理想态，在实际项目中不能让全部人都对评估对象进行评估，但可以使用两个权重相近的评估员的分数进行“双盲质检”。

举例来说，如果需要对小D打分，小D的直属领导员工甲和与小D在工作中配合最多的员工乙的权重是接近的，两者拥有不同的信息量，员工甲不清楚执行细节而员工乙知晓这部分信息量，所以如果员工甲和员工乙同时以相同的评估标准（“档位设计”“形容词+名词”“案例”“数值比例”）为小D打分，且二者的打分都是真实的，对标准的理解也相近，理论上二者对小D的打分是相近的。

如果员工甲在评估量表中对小D的评分为“7.3/10”，而员工乙对小D的评分为“7/10”，需要检验两位评估员的评估效力。

假设我们可以拿到员工甲和员工乙对他人的30次评估结果，同时可以拿到全部评估员的评估结果，那么用统计手段可以看到员工甲、员工乙的描述型统计量是否在正态分布的3σ范围之内，共分为4种情况。

●甲和乙对他人的评估分值与整体分布一致，甲和乙的评估结果均有效。

●乙对他人的评估分值和整体分布不一致，甲一致。

●甲对他人的评估分值和整体分布不一致，乙一致。

●甲和乙对他人的评估分值和整体分布不一致。

对于第一种情况，负责人有充分的理由相信小D的真实得分在7分附近。对于后三种情况，只要两位评估员中有一位的数据是不可信的，就需要额外调取一位可信评估员的评估结果作为补充。

对于甲和乙的得分是否有效，有许多种统计方式可以度量，比如Kolmogorov–Smirnov检验。也可以简单地看不同评估员的打分均值和变异系数，找出均值明显偏高或者偏低的若干评估员，以及变异系数偏高或偏低的若干评估员，要求其按照所有评估员的评估标准重新评估。

2.关于零盲质检、单盲质检和双盲质检

零盲质检、单盲质检和双盲质检是三种不同的质检方式。

●零盲质检：评估员知道自己在质检，同时评估员知道自己质检任务的标注结果（也有可能知道他所质检的结果是谁标注的）。评估员相当于“睁眼”质检，只需要给出其他人的标注结果是否正确。

●单盲质检：评估员知道自己在质检，但评估员看不到他所质检的任务的结果，他需要重新标注一遍结果。

●双盲质检：评估员只是正常地做标注任务，不知道自己在做质检，但不知道这个任务是否会被其他人同时标注，也不知道该任务会被谁标注，更不知道该任务被其他人标注的结果。

实践证明，在主观评估的有效性上，双盲质检的效果好于单盲质检，单盲质检的效果好于零盲质检。

3.为什么使用双盲质检

举一个笔者工作中的真实案例。今年的某个项目中笔者发起了一份对内指标的标注需求，并在相关的文档中整理了标准，标准中包含档位设计、形容词+名词、案例、数值比例等关键要素，并进行会议沟通，最后拿到了对方根据我的需求返回的标注结果。

标注结果的条目数的数量级为千。笔者在第一次质检中使用了最简单的零盲质检，一致率为90%；在第二次质检中选取了另一部分没看过的其他待检样本进行单盲质检，一致率仅为75%；在第三次质检中参与了一部分标注任务，双盲质检的一致率在65%左右。

哪个值是正确的呢？当然是双盲质检。这个现象并不是偶然的，总结原因如下。

●零盲质检的情况下，质检员会受到诸多因素影响。第一种因素是先验信息因素，比如看到标注结果后先验信息，大脑中负责集中注意力思考的模块会自动进入懒惰机制，从而无法进行公正的判断。第二种因素是人情因素，如果能看到评估员是谁，则自动代入“有色眼镜”，从而做出不合理判断。

●单盲质检的情况下，质检员知道自己在质检，此时负责理性思考并分类的大脑模块开始工作，能做出相对合理的基于标准的判断。误差主要在于质检员知道自己在质检，会增加额外的思考，比如“原评估员的标注结果会是什么”。同时在质检时，由于已知自己在质检，因此会有额外的精神压力，并非自然放松下的理智思考。

●双盲质检的情况下，每个评估员都是质检员，此时的精神压力和思考量是接近的，既担心“自己的结果会不会被某个人看到”而认真标注，又不知道自己在质检他人的结果，所以质检员和评估员双方的心理状态最相近，效果同样是最优的。

在条件允许的情况下，主观评估的准确率指标一般取双人盲审一致率，如果条件不允许，至少也要取单盲质检一致率。

但也并非所有情况下都取双人盲审一致率。比如，当团队中的绝大多数成员准确率均较低时（主要发生于项目早期），双盲质检的准确率指标可能会偏高，此时应选取单盲质检一致率作为准确率指标。

4.双盲质检与标准统一的关系

标准统一首先需要对于每一个样本有一致的结果，一致的结果是通过上述质检机制完成的，而“如何进一步优化评估员的行为”则需要项目信息的传递。

在固定周期的反馈中，评估团队应该做系统的数据梳理：今天的双人盲审一致率如何？较之前是有所改善还是变得更糟？今天评估的对象是否完成了既定任务量？

比如以每天或者每周为周期，收集整理所有标准不一致的“疑难杂症”，一般是质检标准的最终终审者作为“裁判”，对每个不一致的样本进行充分讨论，并达成一致，整理至标准文档中。

在此过程中，终审的“裁判”角色是最为重要的一环，他需要把控会议的进度，敢于做出终审裁决并领导团队经历数月打磨标准，最终让审核标准达到相当稳定的程度。

5.实现“标准统一”目标的人员管理手段

在公司管理中，一家公司之所以能产生价值的重要因素是经过劳动沉淀了“公有知识”，而主观评估标准也是公有知识的一种，通过固定周期的项目讨论会，可以将大多数项目经验沉淀至公有知识中，新加入的员工只要熟悉该公有知识并了解处理流程，就可以快速上手工作。

另一个重要经验是在主观评估项目中，多数错误产生于少数人，所以提升准确率的重要手段是使用科学的质检方案找到容易出错的少数人。这对提升整体准确率是有帮助的。