摩纳哥大奖赛是由排位赛决定的吗?Is the Monaco Grand Prix decided at qualifying?
F1车手声称摩纳哥大奖赛十个中有九个是由起跑位次决定的。由于蒙特卡洛赛道是一条狭窄的街道赛道,超车机会极少,这一观点在直觉上非常合理。作者由此出发,试图通过数据验证这究竟是一句随口而出的玩笑,还是对比赛结果准确的统计预测。
kqr
一位一级方程式赛车手引发了我的“事实核查强迫症”。他声称:
在蒙特卡洛赢得摩纳哥大奖赛,十有八九取决于发车位置。
这在直觉上很有道理,因为蒙特卡洛是一条狭窄的街道赛道,几乎没有超车机会。但是……真的吗?这只是随口一说,还是对比赛结果的准确统计预测?
快速的合理性检查给出的答案是否定的。
如果我们把这句话当作一个统计预测,就必须准确厘清它的具体含义。我将假设它的意思是:在90%的情况下,由头排发车(前两位)的赛车之一赢得比赛。只需很少的查证就能证明这是错的。在过去的25年里,摩纳哥站比赛只有80%是由头排车手获胜的。数据并不支持这一假设。11 25场比赛中有20场由头排获胜,这与真实比例为90%时的预期相差超过1.645个标准差。因此,它超出了我用于日常分析的显著性阈值。
或许与其他赛道有关
但也许那位车手并不是想表达统计学上的精确性。也许他只是想说,与其他赛道相比,在摩纳哥头排车手夺冠更为常见。我查阅了维基百科上随机挑选的几个历史悠久的大奖赛(Grands Prices22 我很清楚 prix 的复数形式就是 prix。)的页面,并收集了以下统计数据。33 在我完成这篇文章时,数据收集已经是几年前的事了,所以我不记得当时往前追溯了多久。可能也是过去的25年。
确实,摩纳哥的数据位居前列,但它并不是这些赛道中最极端的。在如此表面的层面上,摩纳哥的数据并没有表现出与其他赛道有任何不同。
定义:equipage capability(人车组合能力)
在瑞典语中,ekipage 一词源于马术运动,意为“骑手与马的组合”。在本文中,我们将把拼写改成听起来更具英语风格的 equipage,并用这个术语来指代大奖赛中的“车手与赛车的组合”。
这一点很重要,因为当我们笼统地谈论“车手技术”时,即使是最好的车手也需要一辆好车才能表现出色。而且并非所有车手在所有赛道上都能发挥得一样好。因此,为了避免这种错误,在本文中,我们将使用 equipage capability 来讨论车手与赛车组合在特定赛道上的潜在表现。如果这样想能让你更好理解,完全可以将其在脑海中替换为“车手技术”,但请记住,其他因素也发挥着作用。
排位赛成绩的混杂效应
比赛中发车位置的分配并不是随机的。相反,在比赛前一天,车手们会轮流尝试在赛道上跑出最快单圈,而在最终轮中圈速最快的两个 equipage 将在比赛中从头排发车。这就引入了一个非常令人头疼的混杂因素:自然,更高的 equipage capability 会增加获胜的机会,但同时它也会通过出色的排位赛表现增加从头排发车的机会。
如果一个头排 equipage 赢得了比赛,究竟是因为他们从头排发车,还是因为他们在该赛道上具备极高的能力才得以从头排发车,而这同样也是他们获胜的原因?其因果图如下所示。
为了衡量在该系统中头排发车的影响,我们需要控制赛车性能带来的变量。一种方法是将其作为单独的预测变量纳入回归分析。其基本原理是,赛车性能系数会吸收掉大部分由赛车性能带来的影响,从而让头排发车系数仅仅反映头排发车本身的效应。
但这样做的前提是我们必须能够量化赛车性能。一种方法是采用车手在赛季结束时的锦标赛积分,但其缺点在于,它无法反映不同赛道之间赛车性能的差异,也无法体现性能在整个赛季中的动态变化。我们同样不能使用排位赛成绩来衡量赛车性能,因为我们最初这样做的目的,正是为了将赛车性能的影响从排位赛成绩中剥离出来。
我在这个问题上卡了好一阵子。直到几年后,我突然灵光一闪!
排位赛分为三个阶段进行。如果我们提取每个阶段的最差成绩,这或许能代表该赛车性能的某种基线。事实证明,这也是衡量赛车性能的一个相当不错的代理变量:如果我们根据这一指标的均值对车手进行排序,并与车手年度锦标赛的成绩进行对比,会发现两者的相关系数高达 +0.82。通俗地讲,这意味着车手锦标赛成绩中约 70% 的差异是由赛车本身的绝对速度决定的。剩下的 30% 则归结于运气和比赛中的动态博弈(比如出色的超车技术等)44。一方面,车手锦标赛竟然有高达 70% 的比重取决于“开得快”,这让我感到惊讶;但另一方面,如果“开得快”能让车手争取到头排发车位,而“头排发车”又是赢得比赛的关键,那这一切似乎也不足为奇了?我还没有尝试过去拆解这其中的具体因果关系。
发车位的影响
既然我们找到了衡量特定赛道上赛车性能的方法,就可以开始建模了。我获取了涵盖 2022–2025 赛季排位赛和正赛成绩的公开数据。55 我原本计划将本文推迟到 2026 年摩纳哥站比赛后的那一周发布,以便多纳入一年的数据,但在我截稿时,该周末的官方成绩仍未公布。因此,下文的分析将暂不包含这部分数据。对这批数据拟合逻辑回归模型后,我们得出以下系数:
在这里,赛车性能是用排位赛的时间差(以秒为单位)来衡量的66 这里的时间差是指,某辆赛车在最差阶段的最快圈速,比当年该赛道上最快赛车的圈速慢了多少。这意味着,如果一辆赛车的基准排位赛成绩比最顶尖的赛车慢 1 秒,其获胜的对数几率就会降低 0.86。。这个数值本身不是特别直观,但这无关紧要,因为在本文的后续部分,我们会将其固定在平均赛车性能的水平。通过这种方法,我们就能剔除赛车性能带来的影响,从而将焦点完全集中在发车位的作用上。
要计算从杆位发车并获胜的概率,我们需要将截距、杆位、头排(因为杆位属于头排的一部分)以及平均赛车性能的对数几率相加。计算得出的对数几率为 0.124。将其转化为概率,我们得到 53%。
我们在上述系数允许的范围内,对所有可能的发车位置重复该计算。再次强调,在所有这些位置上,车队实力保持在平均水平不变,这意味着以下结果纯粹是发车位置带来的影响。这就好像我们拿一支平均实力的车队,将他们克隆到发车格上的全部20个位置,然后让他们自己比赛。以下是他们在各个位置获胜的频率:
这意味着,第一排任何一支车队获胜的几率,是第二排之后任何一支车队获胜几率的17倍。我已经听到F1车迷在呐喊了:“爆冷获胜可比这常见多了!从发车格后方获胜绝对不可能这么罕见!”
但事实就是如此——当我们将车队实力保持在平均水平不变时。在现实世界中,当有人从发车格后方奋起直追并赢得比赛时,那总是一支碰巧排位赛表现不佳的高实力车队。强大的车队实力可以弥补发车位置带来的一些劣势,但这种劣势是真实存在且巨大的。77 具体来说,为了抵消从第二排而非第一排发车带来的影响,车队必须具备快2秒的实力优势。这是一个巨大的实力差距。这基本上相当于从第7个百分位跨越到了第93个百分位。平均实力的车队几乎不可能从发车格后方获胜。
将摩纳哥与平均水平区分开来
总之,我们刚才在讨论摩纳哥。我们希望仅对摩纳哥站的比赛进行相同的模型拟合。问题是我只有2022–2025这四个赛季的数据,由于需要拟合五个系数,这根本行不通。实际上,即使只用四个系数,模型也无法合理收敛。
这意味着我们无法单独测量每个发车位置的影响。我们只能满足于仅观察以下之一: 杆位,或 整个第一排。当我逐一尝试时,在现有少量数据下,杆位发车的影响更为稳定。因此我们回头重新计算,但这次仅针对非摩纳哥赛道的杆位:
而对于摩纳哥:
请记住,这是在我们假设让一支平均实力的车队与19个自己的克隆体进行比赛的情况。仅仅由于位置本身,杆位在摩纳哥站比赛中带来的优势就比在平均赛道上更大。这与车手技术、赛车性能等因素完全无关。
然而,我们对所有其他赛道的平均水平并不感兴趣。我们想看的是摩纳哥在其他赛道中处于什么位置。我拥有的有限数据无法比较所有赛道,但这些是模型能够合理收敛的赛道。
摩纳哥站是在排位赛就决出胜负的吗?是的,当然,可以这么说。但许多其他比赛也是如此。
摩纳哥站的胜负十有八九是由发车位置决定的吗?并非如此。澳大利亚站很接近这种情况,但摩纳哥站远非如此。在摩纳哥站,车手技术依然能发挥重要作用。
需要完整排版与评论请前往来源站点阅读。