
圖1. 不同材質的網球比賽場地。由左而右依序為紅土(clay)、草地(grass)、硬地(hard)。
撰稿 / 翁久幸 (國立政治大學統計學系教授)、SPEC科學推展中心
Elo 評級系統是許多國際賽事使用之排名系統 。包括US Chess Federation (USCF), World Chess Federation (FIDE), 許多競賽如圍棋、足球、籃球,以及線上遊戲等等,都使用Elo 系統或是根據Elo做調整之評分系統。然而對於網球比賽這種有紅土(clay)、草地(grass)、硬地(hard)等不同比賽場地的運動,選手可能在不同場地的實力表現有所不同,也可能有特別擅長的場地,比方「瑞士特快車」費德勒向來有「草地之王」封號,西班牙名將「蠻牛」納達爾則享有「紅土之王」美譽。在應用Elo 評分系統時,如何整合不同場地的比賽資料、且兼顧場地之差異性?針對此一問題,國立政治大學統計學系翁久幸教授的研究團隊建立於Ingram (2021)的場地模型上,提出一個類似Elo 系統的新計分公式。
首先回顧一下Elo系統。Elo系統由匈牙利裔美國物理學家Arpad Elo 於1970年代所創,創立之始是用於西洋棋棋手的評級。其主要之想法是將選手之實力以一個參數表之,根據比賽結果調整實力值,若實際比賽結果優於預期結果,則調高實力值,反之則調降實力值。具體計算如下,令 s = 1與 s = 0分別代表該選手在一場比賽之結果為贏與輸,p為該選手在這場比賽中預期之獲勝機率,則該選手實力調整公式為:
\({\theta}'=\theta + K(s-p)\) (1)
其中θ是賽前實力,θ′是賽後實力,K 是Elo常數,通常設K=32,可視不同比賽情境而定,而預期之獲勝機率p在Elo原始設計中是以常態分配計算。後來許多比賽改用羅吉斯分配計算,因為此分配之尾端較厚,比常態分配更貼近真實賽事中爆冷門的情況。Elo系統之所以成功,除了預測比賽結果的優異表現,它的公式簡單且具直觀解釋性也是相當重要的原因。
Ingram (2021) 提出一個場地模型,比方有紅土、草地、硬地3種場地,令選手的實力\(\theta=({\theta}_1, {\theta}_2, {\theta}_3)\)為服從 3維常態分配的隨機向量,θi代表第i個場地的實力。此3維常態分配的平均數為\(({\mu}_1, {\mu}_2, {\mu}_3)\),而共變異數矩陣中σ包含變異數\(({{\sigma}_1}^2, {{\sigma}_2}^2, {{\sigma}_3}^2)\)、以及兩兩之間的相關係數\({\rho}_{ij}\)。其中,σi2衡量不同場地下,選手實力的變異程度;\({\rho}_{ij}\)則衡量兩兩場地間的相關係數。透過實際資料之分析估計顯示草地與硬地之相關係數較高,而紅土與其它兩個場地的相關程度較低,而且使用場地模型可以提昇預測比賽結果之準確率。然而,Ingram的實力更新公式牽涉到Newton-Raphson迭代式中的反矩陣與向量之乘積,不似 Elo 評分公式的簡單明瞭且具有解釋性。翁教授團隊的研究中發現,透過反矩陣公式(matrix inversion formula) 以及高斯消去法的巧妙運用,可以將選手在各場地之實力更新公式寫成如Elo式(1)的形式:
\({{\mu}'}_l ={\mu}_l+{K}_l (s-p), l = 1, 2, 3\)
且\({K}_l\)之間存在微妙的相關。用淺顯的方式解釋如下:
若從資料估計出選手實力在紅土、草地、硬地等三種場地之標準差、以及兩兩相關係數分別為
\({\sigma}_{clay}=90, {\sigma}_{grass}=95, {\sigma}_{hard}=80\),
\({\rho}_{clay, grass}=0.5, {\rho}_{clay, hard}=0.7, {\rho}_{grass, hard}=0.8\)
今若網球選手喬科維奇在一場硬地比賽獲勝,假設以某種評級方式(Elo或其它許多方式)得出他在硬地的實力調高30分,亦即
\({{\mu}'}_{hard} ={\mu}_{hard}+30\),
則他在其它兩個場地的實力也可以跟著調整,其中草地實力對應調整之幅度為
\(\frac{{\sigma}_{grass}}{{\sigma}_{hard}} \times {\rho}_{grass, hard} \times 30 = \frac{95}{80} \times 0.8 \times 30 = 28.5\)
而紅土實力調整之幅度為
\(\frac{{\sigma}_{clay}}{{\sigma}_{hard}} \times {\rho}_{clay, hard} \times 30 = \frac{90}{80} \times 0.7 \times 30 = 23.625\)
為何草地實力調整幅度(28.5)較紅土實力(23.625)大?原因之一是草地與硬地的相關性較高,所以當選手在硬地的表現好,對草地實力的加分也應較多;原因之二是草地場地中的實力標準差較高,代表選手在草地的表現有較大的不穩定性,反應出來的就是實力分數的調整幅度較大。
熟悉線性回歸的讀者,對於上述式子可能有似曾相識的感覺,因為斜率估計式為\(b = r \times ({s}_y / {s}_x)\),其中r為解釋變數x與反應變數y的相關係數,而sx與sy則分別為x與y的標準差;亦即,斜率係數可由相關係數透過兩標準差比值之校正而得到。類似的概念用在本文則是:不同場地的調整幅度可以藉由兩場地之相關係數透過標準差比值的校正來計算之。