6.4.3 使用ELO等级分进行数值设计

6.4.3 使用ELO等级分进行数值设计

在将战斗力得分数学化之前需要做一些基础假设,这些假设在现实中不一定绝对满足,但这些合理假设建立在对现实情况的简化之上。

●假设每个教练在执教其队伍时,使出了全力。

●假设每场比赛中每支队伍都是公平竞争,不存在黑哨、消极比赛等情况。

●类比管理学中的彼得定理,假设每个赛季都足够长,每支队伍都能经历充分次数的比赛。也就是说,每个赛季结束的胜负情况可以反映每支队伍的真实水平。

上述假设是合理的。诚然,现实情况中教练可能在执教过程中有所保留,或者部分比赛存在着不公正情况的发生,但毕竟是少数情况,在长时间的历史比赛中,多数比赛是符合基础假设的。第三个假设的目标是保证每个比赛是充分竞争的,这条假设是对客观世界的近似模拟。

接下来,我们将选取国际象棋比赛中的ELO等级分来解决这个问题。ELO等级分制度是一个基于统计学的评估棋手水平的方法。美国国际象棋协会在1960年首先使用这种计分方法。由于它比先前的方法更公平客观,因此很快流行开来。1970年,国际棋联正式开始使用ELO等级分制度。ELO等级分原先采用正态分布,但是实践显示棋手的表现并非呈正态分布,所以现在的ELO等级分计分系统通常使用的是逻辑分布。

ELO等级分是该问题的唯一解吗?当然不是。对于该问题,我们有多个改进模型可以应用,比如Whole-History Rating和Glicko-2评分系统等(改进模型的使用范围更广,请读者自行查阅),但ELO等级分是最基础的初版模型。

ELO等级分的计算公式中只考虑“胜平负”——胜利得1分,平局得0.5分,失败得0分,每一位选手在每一次比赛后,有如下的得分更新机制:

赛后更新得分=赛前历史得分+K(实际表现-预期表现)

其中,K的取值一般在10到32之间,用来控制得分变化速度,一般在大师赛中K值为32,普通比赛中K值为16,而实际表现和预期表现的计算公式如下。

实际表现=胜利场数×1+平局场数×0.5+失败场数×0

预期表现是基于正态分布的获胜概率的近似数值算法,函数的输入为对手的得分与自己的得分,如果对手的得分比自己的得分高,则自己的获胜概率就小于50%;如果对手得分和自己的得分相同,则自己的获胜概率为50%。

Whole-History Rating和Glicko-2改进算法主要改进了计算概率的方式,实际表现中概率分布用逻辑分布预估更为合理。

这两种方式解决了原问题中提到的三个点。首先,可以评估不同性别组的教练的效果,无论是男子比赛还是女子比赛,其胜负概率在对应的性别组内是相同的。其次,对于不同年代的比赛也一样,在每个年代中总是存在着强队和弱队,所以在不同年代的组内的胜负概率也不存在差别。最后,体育比赛可以分为两类,一类是直接对抗性的体育运动,有明确的“胜负平”的标准,比如足球、篮球、羽毛球等;另一类是评分类体育运动,比如跳水、体操等,同样由专家评审的打分决定输赢,可以转换为两两之间的“胜平负”关系。

介绍完这个问题的对应解法以后,对于全局评估指标的评估手段已呼之欲出,比如可以构建基于ELO等级分及其改进算法的方式,在每个待评估项目上集中大众的智慧做出投票,比如在某视频平台发起的选手人气评分的场景中,可以让非专业评审选择更喜欢A选手还是更喜欢B选手的表演。在经过多次、均匀地竞争之后会得到不同选手的ELO等级分的排序(实际操作中推荐使用其改进算法,请自行查阅相关资料),这是一种既科学又有效的打分方式。

本节主要介绍了一种新的全局对内指标的构建思路,并以美国大学生数学建模竞赛中的赛题作为引子。实际的项目经历和数学建模的思路是一致的,首先需要做出合理假设,将实际项目的问题转换为数学语言。在数学工具的选择中,本节选取了ELO等级分这一最基础的数学模型,将体育比赛的共性抽象成“胜负平”三类结果,至此解决了不同性别、不同年代、不同体育项目之间的数值壁垒,得出了相对科学合理的结果。类似的数学工具还可以解决需要普通用户参与的评分问题,比如“最佳人气选手”等。

上一章 封面 书架 下一章