Един от най-интригуващите аспекти в спортните състезания са противоречивите оценки, които фенове и състезатели дават за представянето на участниците. Отговорът на въпроса как да се определи най-добрият състезател или отбор е по-труден отколкото изглежда на пръв поглед. Това се дължи на факта, че освен уменията на участниците случайността също играе роля в определянето на спортните резултати. Казано по-просто в един спортен мач не винаги побеждава по-силният отбор. Към оформянето на спортните резултати, често се наслагва субективност в преценките на съдиите и организаторите на спортните събития. Как да се отстранят случайността и субективизма при оценяването на състезателите? За да се направи това е необходимо да се въведат безпристрастни критерии и алгоритми почиващи на здрави вероятностни и математически основи.
Първите опити за оценяване на представянето на състезателите се базират на системи за натрупване на точки, или точкови системи за кратко. Оказва се обаче че точковите системи имат много слабости, когато се прилагат върху големи и сложни състезания. Те са по-подходящи за малки, затворени и елитни състезания, които осигуряват еднакви условия на всички участници. Такъв тип състезания са спортните лиги. В спортни лиги например е организиран Българският професионален клубен футбол. В националната „А“ група в момента играят 14 отбора в два полусезона всяка година. Във всеки полусезон всеки един от тези 14 отбора играе със останалите 13 свои противници точно един път. Така във всеки полусезон се играят $\binom{14}{2} = 7 \cdot 13 = 91$ мача. Всеки полусезон има 13 активни седмици, във всяка от които се играят 7 срещи. След края на втория полусезон се играят плейофи, където се определя шампиона за сезона. В края на всеки сезон два или три от най-слабо представените отбори отпадат от „А“ групата в по-долната „Б“ група, а от там идват същия брой най-добре представени отбори. През останалото време състезанието е затворено за нови участници.
Пример за истински масов спорт е шахът. По някои оценки между 300 млн и 1 млрд души играят шах любителски. Повечето държави имат национални федерации по шах, в които играят по-подготвени състезатели. Например,в Американската федерация по шах членуват 80 000 души. Във Световната федерация по шах ФИДЕ членуват около 360 000 души, но малък процент от членуващите в националните федерации членуват също във ФИДЕ. Може би не е случаен фактът, че именно при шаха възниква първата статистическа рейтингова система - системата Ело.
Общ преглед на системите за натрупване на точки
Да започнем първо с някои дефиниции. Системите за натрупване на точки дават на състезателите определен брой точки според постигнатия резултат в даден мач и точките се натрупват с течение на времето. Една рангова система има за цел да подреди състезателите по резултатност в списък, който се нарича класация или ранг-листа и рангът на състезателя е неговото място в нея. Една рейтингова система има за цел да даде количествена оценка на някакво качество на състезателите, например тяхната спортна сила. Всяка рейтингова система може да се използва и като рангова система като стойностите на рейтингите определят мястото на състезателите в съответната ранг-листа. Например ФИФА и ФИДЕ съобщават за своите актуални ранг-листи, въпреки че те се създават на базата на рейтингови системи.
Видове точкови системи
Има два основни вида точкови системи. Първите отбелязват броя победи, а вторите размера на победите (margin of victory). Например в шаха се дава 1 точка за победа и 0 точки за загуба. В шаха е възможно да има равенство наричано реми, за което състезателите получават половин точка. Във футбола първоначално се е давало 2 точки за победа, 1 за равенство и 0 за загуба. Тези две точкови системи са еквивалентни, защото се различават единствено по постоянен множител. Сега във футбола се дават 3 точки за победа, а при останалите изходи точките са същите както преди. Това е направено с цел играта да стане по-оспорвана. В някои спортове мачът завършва с резултат, който автоматично определя размера на победата. Например това е головата разлика във футбола или разликата на отбелязаните точки в баскетбола. Ако тези разлики се натрупват за всеки отбор, ще получим точкова система от втория тип.
Точковите системи от втори тип обаче рядко се използват на практика. Причината за това е че при тях има по-голямо изкушение да се наглася изхода на даден мач по нечестен начин. Също така те биха създали предпоставки силните отбори да надуват резултата колкото се може повече срещу слаби отбори. Това ще има нежелания ефект точно мачовете с надути резултати да имат най-силен принос към крайното класиране на отборите. Затова първият тип точкови системи са се наложили като стандартни. Трябва да се добави обаче, че когато се направят и сравнят статистически прогнозни модели които се базират на броя победи и на размера на победите, вторите имат по-добра точност. Това показва, че размерът на победите има допълнителна полезна информация над техния брой. Но не трябва да се забравя, че тези модели се прилагат върху данни от спортни състезания, които се организират с точкови системи от първия тип.
Недостатъци на точковите системи
Главният недостатък на точковите системи се изразява в това, че те не отчитат силата на противника и така победа над труден съперник и победа над лесен съперник носят едни и същи точки. В отворени и турнирни състезания, в които участниците често играят различен брой срещи се създават предпоставки да се избират лесни съперници, а силните противници да се избягват. Когато състезанието се състои от множество локални и автономни турнири възниква необходимостта да се оценя важността и престижа на всеки такъв турнир поотделно. Преценката колко точки един турнир да носи на своите участници има субективен характер.
Във ФИФА например членуват 211 национални футболни асоциации, които се организирани в 6 континентални конфедерации. Освен Световното първенство по футбол (the World Cup), под егидата на ФИФА се организират огромен брой футболни турнири, квалификационни и приятелски мачове. Пример за регионален турнир е Балканската купа провеждан от 1929 и до 1980 г. между държавите от Балканския полуостров.
До финалите на Световната купа през 2018 ФИФА използва точкова система, след които е заменена със статистическата рейтингова система Ело. Причината за тази замяна стават честите аномалии, до които точковата система е водила в рангирането на отборите. Като пример ще разгледаме следните два случая. През 2014 Бразилия изпада до рекордно ниското 22 място в ранг-листата на ФИФА точно преди началото на своето домакинство на Световната купа. Там тя се класира на 4-то място. През 2018 година домакин на Световната купа е Русия. Точно преди началото на шампионата тя се намира на 70-то място в ранг-листата на ФИФА, но достига до четвъртфинали, където е отстранена след продължения и дузпи. Причината за тези несъответствия се е дължала на автоматичното класиране на турнира на домакините. Така предходните две години те не играят квалификационни мачове, които носят много точки, а само приятелски мачове, които носят по-малко точки. Този пример разкрива една от слабостите на точковото оценяване. При големи и сложни състезания често възникват непредвидени ситуации, за които точковите системи не са добре балансирани. За разлика от тях, рейтинговите системи са по-лесни за балансиране, защото те зависят от малък на брой математически правила.
Някои типове рейтингови системи
Рейтингови системи обобщаващи точкови системи
Сега ще разгледаме една рейтингова система, която се извежда чрез метода на най-малките квадрати. Самото извеждане ще разглеждаме по-късно, а сега ще се спрем на самия резултат. Означаваме чрез $\theta_1, \theta_2, \dots, \theta_n$ рейтингите на n състезателя или отбора. За конкретност ще говорим за отбори и ще разгледаме само спортове от рода на футбола, в които крайният резултат представлява отбелязани голове или точки. Отбелязваме с ${\operatorname{pd}}_1, {\operatorname{pd}}_2, \cdots, {\operatorname{pd_n}}$ техните сумарни голови (точкови) разлики от всички играни мачове от началото на състезанието до момента на определяне на рейтингите. Съкращението pd идва от английското point difference. Стойностите на рейтингите се определят от следната линейна система n от уравнения:
$$\begin{aligned} \label{eq: lsq rat} \theta_i = \frac 1 {n_i} \sum_{i \not= j} n_{ij}\theta_j + \frac 1 {n_i} {\operatorname{pd_i}}, \quad i=1,\dots,n,\end{aligned}$$
където $n_i$ е броят мачове, които $i$-тия отбор е изиграл, а $n_{ij}$ е броят мачове, които $i$ и $j$ са изиграли заедно. Разбира се имаме, че $n_i = \sum_{i \not=j} n_{ij}$. Членът $$\frac 1 {n_i} \sum_{i \not= j} n_{ij}\theta_j$$ дава средният рейтинг на опонентите на отбор $i$, а членът $$\frac 1 {n_i} {\operatorname{pd_i}}$$ дава средния размер на победите (средната голова разлика) на отбор $i$. Той отговаря на „чиста“ точкова система. Да запишем системата в матричен вид. Полагаме $D = (n_1, n_2, \dots, n_n)$, $A =(n_{ij})_{i,j=1}^n$, $b = ({\operatorname{pd_1}}, {\operatorname{pd_2}}, \dots, {\operatorname{pd_n}})$, $\theta = (\theta_1, \theta_2, \dots, \theta_n)$ и получаваме $$D\theta = A\theta + b.$$ Забележете, че $A$ е матрицата на съседство на претеглен граф, в който теглата на ребрата отговарят на броя мачове, които съответните отбори са играли. Системата може да бъде записана още така
$$\theta = P\theta + \beta,$$ където $P = D^{-1}A$ е стохастична матрица по редове, а $\beta = D^{-1}b$ дава средния размер на победите (средните голови разлики) на отборите. Тъй като $P$ е стохастична матрица по редове, векторът $e = c(1,1,\dots, 1)$ е собствен вектор на $P$ отговарящ на собственото число 1. Следователно матрицата $I-P$ има детерминанта 0, тоест тя е изродена, и системата по-горе има или нула решения или безкрайно много решения. Може да се докаже, че винаги има безброй много решения, защото векторът $\beta$ също има специална структура. Например за него винаги е изпълнено равенството $${\operatorname{pd}}_1 + {\operatorname{pd}}_2 + \cdots + {\operatorname{pd}}_n = 0.$$ Ако матрицата на съседство $A$ отговаря на свързан граф, то $\operatorname{rank}{A} = n-1$, иначе $\operatorname{rank}{A} = n-r$, където $r$ е броят на свързани компоненти на социалния граф на състезанието. Подобна на горната зависимост ще възникне между елементите $\beta$ отговарящи на всеки свързан компонент на $A$.
Да приемем сега, че $A$ има само един свързан компонент. Тогава можем да получим единствено решение на , ако наложим на системата едно линейно условие. Как да изберем подходящо условие? За целта нека да съобразим, че ако $\theta$ е решение на , то $\theta- \alpha e$ е също решение, където $\alpha$ е произволна реална константа. Тоест ние можем да изместваме всички рейтинги чрез произволна транслация и това, което е важно е само относителните разлики между тях. Затова избираме следното условие $$\begin{aligned} \label{eq: sum 0} \theta_1 + \theta_2 + \cdots + \theta_n = 0.\end{aligned}$$ С това условие положителен рейтинг означава, че съответния отбор се представя по-добре от средния отбор в състезанието, а отрицателен рейтинг означава обратното.
Сега ще покажем в какъв смисъл е обобщение на точкова система. Да приемем, че състезанието е организирано като спортна лига, в която всеки отбор играе срещу всеки свой съперник точно 2 пъти. Тогава имаме $n_i = 2(n-1)$ за всяко $i$ и уравнението се свежда до $$(n-1) \theta_i = \theta_1 + \theta_2 + \cdots + \theta_n - \theta_i + {\operatorname{pd}}_i / 2$$ или $$\theta_i = \frac{1}{2n} = {\operatorname{pd}}_i,$$ взимайки предвид . Така всички рейтинги се свеждат до константа по сумарната головата разлика на отборите, тоест са еквивалентни на система за натрупване на точки.
Закон на Thurstone за сравнителните съждения
На английски, Thurstone’s Law of Comparative Judgement е публикуван в статия на автора от 1927 година. В психологията съждение е оценка или преценка, на анг. judgement. Законът за сравнителни съждения (ЗСС) е модел описващ как силата на външни стимули се представя от съзнанието на човека като точки от вътрешна, психична скала. Тези стимули може да имат физическо измерение като звук или тежест или чисто психично измерение като нашето отношение към някаква съвкупност от обекти или абстрактни идеи. ЗСС служи като теоретична рамка, на базата на която могат да се построи важен клас от рейтингови системи в спорта. Сега ще представим основните идеи на този закон.
Да вземем например външен стимул като интензитета на звука. Като физическо проявление, той се измерва от учените във физична скала в мерни единици децибели. Но в нашето съзнание той се регистрира във друга, нефизична скала на възприятия. Нашите рецептори регистрират звука и съзнанието стартира процес на разпознаване на силата на звука като точка от тази вътрешна скала. Този процес е съпроводен със случайни флуктуации поради грешки в човешките рецептори или неврони. Затова представянето на този стимул във вътрешната скала е случайна величина, която най-често се приема да е нормално разпределена и има вида $$\begin{aligned} \label{eq: S} S = \theta + \epsilon, \quad \epsilon \in N(0, \sigma^2).\end{aligned}$$
Параметърът $\theta$ се нарича модалната стойност на процеса на разпознаване на външния стимул. Това е най-вероятната точка от вътрешната скала, с която този стимул се представя. Параметърът $\sigma$ дава стандартното отклонение на този процес на разпознаване. Ние обаче нямаме директен достъп до стойностите от тази вътрешна скала. Това, което можем да направим е да сравняваме стимулите по големина. Тоест, ако имаме два (вътрешно представени) стимула $S_i$ и $S_j$ ние можем да определяме дали $S_i - S_j > 0$ или тази разлика е отрицателна или равна на нула.
Сега ще илюстрираме ЗСС в контекста на спортните съревнования. Това, което искаме да оценим е спортната сила на отборите. Тя обаче лежи във вътрешна, скрита скала и ние можем да съдим за нея само индиректно, по спортните резултати на отделните мачове. Допускаме, че представянето $S$ на един отбор по време на игра е нормално разпределено около своята модална стойност $\theta$ по закона даден в . Модалната стойност $\theta$ представлява спортната сила на съответния отбор, чиято стойност ние искаме да отъждествим с рейтинга на този отбор. Да разгледаме сега представянията на два отбора
$$\begin{aligned}
S_i &= \theta_i + \epsilon_i, \quad \epsilon_i \in N(0, \sigma_i^2)\
S_j &= \theta_j + \epsilon_j, \quad \epsilon_j \in N(0, \sigma_j^2).\end{aligned}$$
Както казахме $S_i$ и $S_j$ не са директно наблюдаеми, те съвпадат с нашето възприятие за силата на представяне на двата отбора. Това, което можем да направим винаги е да отсъдим кое от двете представяния е по-високо в нашето съзнание. В спорта обаче обикновено не се разчита на субективната преценка на съдии или наблюдатели да се решава този въпрос. Всеки спортен двубой завършва с резултат и отборът с по-висок резултат се приема, че се е представил по-добре от своя съперник.
Нека сега построим вероятностен модел за това един отбор да победи друг отбор. Изпълнено е
$$\begin{aligned}
\begin{split}\label{eq: paired comp}
\Pr(S_i -S_j > 0 ) &= \Pr(\epsilon_i - \epsilon_j > - (\theta_i - \theta_j) ) \
&= \Phi\left( \frac{\theta_i - \theta_j}{\sqrt{\sigma_i^2 + \sigma_j^2}} \right),
\end{split}\end{aligned}$$
където $\Phi$ е кумулативната функция на разпределението на нормалното разпределение. За да изведем последното равенство сме допуснали, че случайните грешки $\epsilon_i$ и $\epsilon_j$ са независим. Ако това не е така, пак ще получим подобно равенство, в което участва и коефициента на корелация между $\epsilon_i$ и $\epsilon_j$.
Вероятностният модел от вида се нарича модел за сравнение по двойки. Най-важните частни случаи носят имената на известни математици. Например, моделът , където $\Phi$ е КФР на нормалното разпределение се нарича модел на Thurstone-Mosteller. Ако $\Phi$ е КФР на логистичното разпределение, то този модел носи имената на Bradley-Terry. Всеки един от тези два модела е база на известната рейтингова система Ело, която ще разглеждаме по-късно. Само ще споменем, че Ело използва заедно с метода на стохастичния градиент (stochastic gradient descent) от стохастичното оптимиране да изчислява рейтингите $\theta$.