6.4.3 使用ELO等级分进行数值设计

6.4.3　使用ELO等级分进行数值设计

在将战斗力得分数学化之前需要做一些基础假设，这些假设在现实中不一定绝对满足，但这些合理假设建立在对现实情况的简化之上。

●假设每个教练在执教其队伍时，使出了全力。

●假设每场比赛中每支队伍都是公平竞争，不存在黑哨、消极比赛等情况。

●类比管理学中的彼得定理，假设每个赛季都足够长，每支队伍都能经历充分次数的比赛。也就是说，每个赛季结束的胜负情况可以反映每支队伍的真实水平。

上述假设是合理的。诚然，现实情况中教练可能在执教过程中有所保留，或者部分比赛存在着不公正情况的发生，但毕竟是少数情况，在长时间的历史比赛中，多数比赛是符合基础假设的。第三个假设的目标是保证每个比赛是充分竞争的，这条假设是对客观世界的近似模拟。

接下来，我们将选取国际象棋比赛中的ELO等级分来解决这个问题。ELO等级分制度是一个基于统计学的评估棋手水平的方法。美国国际象棋协会在1960年首先使用这种计分方法。由于它比先前的方法更公平客观，因此很快流行开来。1970年，国际棋联正式开始使用ELO等级分制度。ELO等级分原先采用正态分布，但是实践显示棋手的表现并非呈正态分布，所以现在的ELO等级分计分系统通常使用的是逻辑分布。

ELO等级分是该问题的唯一解吗？当然不是。对于该问题，我们有多个改进模型可以应用，比如Whole-History Rating和Glicko-2评分系统等（改进模型的使用范围更广，请读者自行查阅），但ELO等级分是最基础的初版模型。

ELO等级分的计算公式中只考虑“胜平负”——胜利得1分，平局得0.5分，失败得0分，每一位选手在每一次比赛后，有如下的得分更新机制：

赛后更新得分=赛前历史得分+K（实际表现-预期表现）

其中，K的取值一般在10到32之间，用来控制得分变化速度，一般在大师赛中K值为32，普通比赛中K值为16，而实际表现和预期表现的计算公式如下。

实际表现=胜利场数×1+平局场数×0.5+失败场数×0

预期表现是基于正态分布的获胜概率的近似数值算法，函数的输入为对手的得分与自己的得分，如果对手的得分比自己的得分高，则自己的获胜概率就小于50%；如果对手得分和自己的得分相同，则自己的获胜概率为50%。

Whole-History Rating和Glicko-2改进算法主要改进了计算概率的方式，实际表现中概率分布用逻辑分布预估更为合理。

这两种方式解决了原问题中提到的三个点。首先，可以评估不同性别组的教练的效果，无论是男子比赛还是女子比赛，其胜负概率在对应的性别组内是相同的。其次，对于不同年代的比赛也一样，在每个年代中总是存在着强队和弱队，所以在不同年代的组内的胜负概率也不存在差别。最后，体育比赛可以分为两类，一类是直接对抗性的体育运动，有明确的“胜负平”的标准，比如足球、篮球、羽毛球等；另一类是评分类体育运动，比如跳水、体操等，同样由专家评审的打分决定输赢，可以转换为两两之间的“胜平负”关系。

介绍完这个问题的对应解法以后，对于全局评估指标的评估手段已呼之欲出，比如可以构建基于ELO等级分及其改进算法的方式，在每个待评估项目上集中大众的智慧做出投票，比如在某视频平台发起的选手人气评分的场景中，可以让非专业评审选择更喜欢A选手还是更喜欢B选手的表演。在经过多次、均匀地竞争之后会得到不同选手的ELO等级分的排序（实际操作中推荐使用其改进算法，请自行查阅相关资料），这是一种既科学又有效的打分方式。

本节主要介绍了一种新的全局对内指标的构建思路，并以美国大学生数学建模竞赛中的赛题作为引子。实际的项目经历和数学建模的思路是一致的，首先需要做出合理假设，将实际项目的问题转换为数学语言。在数学工具的选择中，本节选取了ELO等级分这一最基础的数学模型，将体育比赛的共性抽象成“胜负平”三类结果，至此解决了不同性别、不同年代、不同体育项目之间的数值壁垒，得出了相对科学合理的结果。类似的数学工具还可以解决需要普通用户参与的评分问题，比如“最佳人气选手”等。