Prédiction statistique des résultats de football

La prédiction statistique des résultats de football est une méthode utilisée pour les paris sportifs afin de prédire l'issue des matchs de football à l'aide d'outils statistiques. L'objectif de la prédiction statistique d'un match est de battre les prédictions des bookmakers, qui les utilisent pour définir les cotes sur les résultats des matchs de football.

Approches

L'approche la plus utilisée en statistiques de prédiction est le classement. Les systèmes de classement pour le football attribuent un rang à chaque équipe en fonction de ses résultats de jeux passés, de sorte que le rang le plus élevé est attribué à la meilleure équipe. Le résultat du match peut être prédit en comparant les rangs des adversaires. Aujourd'hui, huit systèmes différents de classement pour le football existent : Classement mondial de la FIFA, Classement mondial de football Elo, AQB Sports Ratings, Le Roon Ba, InternationalMark, Rsoccer, Mondfoot et Chance de Gol.

Il y a trois principaux inconvénients aux systèmes de prédictions des matchs de football qui sont fondés sur les systèmes de classement :

les rangs assignés aux équipes ne font pas la différence entre leur force en attaque et leur force en défense.
les rangs sont basés sur des moyennes accumulées qui ne tiennent pas compte des modifications des compétences au sein des équipes de football.
l'objectif principal d'un système de classement n'est pas de prédire les résultats des matchs de football, mais de trier les équipes en fonction de leur performance moyenne.

Une autre approche connue pour la prédiction du football est celle des "systèmes de notation". Alors que les systèmes de classement se réfèrent uniquement à l'ordre des équipes, les systèmes de notation attribuent à chaque équipe un indicateur de force ré-évalué en permanence. En outre, la notation peut être attribuée non seulement à une équipe, mais aussi à ses forces d'attaque et de défense, à l'avantage du terrain ou même aux compétences de chaque équipe (selon Stern[1]).

Histoire

Les publications sur des modèles statistiques pour les prévisions de football ont commencé à apparaître à partir des années 1990, mais le premier modèle a été proposé plus tôt par Moroney[2], qui a publié sa première analyse statistique des résultats de match de football en 1956. Selon son analyse, à la fois la loi de Poisson et la loi binomiale négative fournissent un bon ajustement des résultats des matchs de football. La série de passes entre les joueurs lors des matchs de football a aussi été analysée avec succès en utilisant la distribution binomiale négative par Reep et Benjamin[3] en 1968. Ils ont amélioré ce procédé en 1971, et dans Hill 1974[4] est indiqué que les résultats du jeu de football sont dans une certaine mesure prévisibles et non pas simplement une question de chance.

Le premier modèle pour prédire les résultats des matchs de football entre des équipes avec des compétences différentes a été proposé par Maher[5] en 1982. Selon son modèle, les buts que les opposants marquent au cours du jeu sont tirés de la Loi de Poisson. Les paramètres du modèle sont définis par la différence entre les compétences d'attaque et de défense, ajustées par le facteur de l'avantage du terrain. Les méthodes de modélisation du facteur de l'avantage du terrain ont été résumées dans un article de Caurneya et Carron[6] en 1992. La variation temporelle des forces de l'équipe a été analysé par Knorr-Held[7] en 1999. Il a utilisé l'estimation récursive bayésienne pour les notations des équipes de football : cette méthode s'est avérée plus réaliste que la prévision fondée sur des moyennes statistiques.

Méthodes de prévision

Comparaison

Toutes les méthodes de prédiction peuvent être classées selon le type de tournoi, la dépendance au temps et l'algorithme de régression utilisé. Les méthodes de prévision du football diffèrent entre championnat et tournoi à élimination directe. Les méthodes de prévision pour les tournois à élimination directe sont résumées dans un article par Diego Kuonen[8].

Le tableau ci-dessous résume les méthodes utilisées pour les championnats.

#	Code	Méthode de Prévision	Algorithme de régression	Dépendance au temps	Performance
1.	TILS	Time Independent Least Squares Rating	Régression des moindres carrés linéaire	N	Faible
2.	TIPR	Time Independent Poisson Regression	Maximum de vraisemblance	N	Moyenne
3.	TISR	Time Independent Skellam Regression	Maximum de vraisemblance	N	Moyenne
4.	TDPR	Time Dependent Poisson Regression	Maximum de vraisemblance	Facteur d'amortissement du temps	Haute
5.	TDMC	Time Dependant Markov Chain	Monte-Carlo	Chaîne de Markov	Haute

Time Independent Least Squares Rating

Cette méthode attribue à chaque équipe du tournoi une notation en continu, de sorte que la meilleure équipe aura la meilleure note. La méthode est basée sur l'hypothèse que la cote attribuée à l'équipe rivale est proportionnelle à l'issue de chaque match.

Supposons que les équipes A, B, C et D jouent dans un tournoi et que les résultats des matchs sont les suivants :

Match #	Équipe à domicile	Score	Équipe à l'extérieur	Y
1	A	3 - 1	B	$y_{1}=3-1$
2	C	2 - 1	D	$y_{2}=2-1$
3	D	1 - 4	B	$y_{3}=1-4$
4	A	3 - 1	D	$y_{4}=3-1$
5	B	2 - 0	C	$y_{5}=2-0$

Bien que les rangs $r_{A}$ , $r_{B}$ , $r_{C}$ et $r_{D}$ des équipes A, B, C et D, respectivement ne sont pas connus, on peut supposer que le résultat du match #1 est proportionnel à la différence entre les rangs des équipes A et B: $y_{1}=r_{A}-r_{B}+\varepsilon _{1}$ . De cette façon, $y_{1}$ correspond à la différence de score et $\varepsilon _{1}$ est l'observation du bruit. La même hypothèse peut être faite pour tous les matchs dans le tournoi :

{\begin{matrix}y_{1}=r_{A}-r_{B}+\varepsilon _{1}\\y_{2}=r_{C}-r_{D}+\varepsilon _{2}\\...\\y_{5}=r_{B}-r_{C}+\varepsilon _{5}\\\end{matrix}}

En introduisant une matrice de sélection X, les équations ci-dessus peuvent être réécrites sous une forme compacte :

\mathbf {y} =\mathbf {Xr} +\mathbf {e}

.

Les entrées de la matrice de sélection peuvent être soit 1, 0 ou -1, avec 1 correspondant à des équipes d'accueil et -1 à l'écart des équipes:

{\begin{matrix}\mathbf {y} =\left[{\begin{matrix}2\\1\\-3\\2\\2\\\end{matrix}}\right],&\mathbf {X} =\left[{\begin{matrix}1&-1&0&0\\0&0&1&-1\\0&-1&0&1\\1&0&0&-1\\0&1&-1&0\\\end{matrix}}\right],&\mathbf {r} =\left[{\begin{matrix}r_{A}\\r_{B}\\r_{C}\\r_{D}\\\end{matrix}}\right],&\mathbf {e} =\left[{\begin{matrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\end{matrix}}\right]\\\end{matrix}}

Si la matrice $\mathbf {X} ^{T}\mathbf {X}$ est de rang plein, la solution algébrique du système peut être trouvée via la méthode des moindres carrés :

\mathbf {r} =\left(\mathbf {X} ^{T}\mathbf {X} \right)^{-1}\mathbf {X} ^{T}\mathbf {y}

Les paramètres de la cote finale sont $\mathbf {r} =[1,625,\ 0,75,\ -0,875,\ -1,5]^{T}$ . Dans ce cas, l'équipe la plus forte a la plus haute cote. L'avantage de cette méthode de notation par rapport aux systèmes de classement standards est que les valeurs sont ré-évaluées en permanence, ce qui permet de définir avec précision la différence entre la force des équipes.

Time Independent Poisson Regression

Selon ce modèle (Maher[5]), si $X_{i,j}$ et $Y_{i,j}$ sont les buts marqués dans le match opposant l'équipe i à l'équipe j, alors:

{\begin{aligned}&X_{i,j}\sim Poisson(\lambda )\\&Y_{i,j}\sim Poisson(\mu )\\\end{aligned}}

$X_{i,j}$ et $Y_{i,j}$ sont des variables aléatoires indépendantes avec des moyennes arithmétiques $\lambda$ et $\mu$ . Ainsi, la probabilité conjointe pour l'équipe à domicile de marquer x buts et pour l'équipe à l'extérieur de marquer y buts est un produit des deux probabilités indépendantes :

P\left(X_{i,j}=x,Y_{i,j}=y\right)={\frac {\lambda ^{x}\exp(-\lambda )}{x!}}{\frac {\mu ^{y}\exp(-\mu )}{y!}}

tandis que le modèle log-linéaire généralisé pour $\lambda$ et $\mu$ d'après Kuonen[8] et Lee[9] est défini par : $\log \left(\lambda \right)=c^{\lambda }+a_{i}+d_{j}+h$ et $\log \left(\mu \right)=c^{\mu }+a_{j}+d_{i}$ , où $a_{i},d_{i},h>0$ se réfèrent à la force d'attaque, de défense et à l'avantage du terrain, respectivement. $c^{\lambda }$ et $c^{\mu }$ sont des facteurs de correction qui représentent le nombre moyen de buts marqués au cours de la saison par l'équipe à domicile et à l'extérieur respectivement.

En supposant que C signifie le nombre d'équipes participant à une saison et que N représente le nombre de matchs disputés jusqu'à présent, les forces d'une équipe peuvent être estimées en minimisant la fonction de log-vraisemblance négative par rapport à $\lambda$ et $\mu$ :

{\begin{aligned}&L(a_{i},d_{i},h;\ i=1,..C)=-\log \prod \limits _{n=1}^{N}{{\frac {\lambda _{n}^{x_{n}}\exp(-\lambda _{n})}{x_{n}!}}{\frac {\mu _{n}^{y_{n}}\exp(-\mu _{n})}{y_{n}!}}}=-\sum \limits _{n=1}^{N}{\log \left({\frac {\lambda _{n}^{x_{n}}\exp(-\lambda _{n})}{x_{n}!}}{\frac {\mu _{n}^{y_{n}}\exp(-\mu _{n})}{y_{n}!}}\right)}\\&=\sum \limits _{n=1}^{N}{\lambda _{n}}+\sum \limits _{n=1}^{N}{\mu _{n}}-\left(\sum \limits _{n=1}^{N}{x_{n}\log \left(\lambda _{n}\right)}\right)-\left(\sum \limits _{n=1}^{N}{y_{n}\log \left(\mu _{n}\right)}\right)+\sum \limits _{n=1}^{N}{\log \left(x_{n}!\right)}+\sum \limits _{n=1}^{N}{\log \left(y_{n}!\right)}\\\end{aligned}}

Étant donné que $x_{n}$ et $y_{n}$ sont connus, les forces d'attaque et de défense de l'équipe $\left(a_{i},d_{i}\right)$ et l'avantage du terrain $\left(h\right)$ qui minimisent la log-vraisemblance négative peuvent être estimés par l'Algorithme espérance-maximisation :

{\underset {a_{i},d_{i},h}{\mathop {\min } }}\,L(a_{i},d_{i},h,i=1,..C)

Des améliorations de ce modèle ont été suggérées par Mark Dixon et Stuart Coles[10]. Ils ont inventé un facteur de corrélation pour les scores faibles 0-0, 1-0, 0-1 et 1-1, où l'hypothèse de Loi de Poisson indépendantes ne tient pas. Dimitris Karlis et Ioannis Ntzoufras[11] ont construit un modèle Time-Independent Skellam Distribution. Contrairement au modèle de Poisson qui correspond à la distribution des scores, le modèle Skellam correspond à la différence entre les scores à domicile et à l'extérieur.

Time Dependant Markov Chain

D'une part, les modèles statistiques nécessitent un grand nombre d'observations pour faire une estimation précise des paramètres. Et quand il n'y a pas suffisamment d'observations disponibles au cours d'une saison (comme c'est généralement le cas), travailler avec des statistiques moyennes a un sens. D'autre part, il est bien connu que les compétences des équipes changent au cours de la saison, ce qui rend les paramètres du modèle dépendant du temps. Mark Dixon et Stuart Coles[10] ont essayé de résoudre ce problème par un compromis en attribuant un plus grand poids aux résultats du dernier match. Rue et Salvesen[12] ont introduit une méthode de notation dépendant du temps en utilisant un modèle de chaînes de Markov.

Ils ont suggéré de modifier le modèle linéaire généralisé ci-dessus pour $\lambda$ et $\mu$ :

{\begin{aligned}&\log \left(\lambda \right)=c^{\lambda }+a_{i}-d_{j}-\gamma \cdot \Delta _{i,j}\\&\log \left(\mu \right)=c^{\mu }+a_{j}-d_{i}+\gamma \cdot \Delta _{i,j}\\\end{aligned}}

étant donné que $\Delta _{i,j}={\frac {\left(a_{i}-d_{j}\right)\left(d_{i}-a_{j}\right)}{2}}$ correspond à la différence de défense entre les équipes i et j. Le paramètre $\gamma >0$ représente alors les effets psychologiques causés par la sous-estimation de la force de l'équipe adverse.

Selon le modèle, la force d'attaque $\left(a\right)$ de l'équipe A peut être décrite par les équations du mouvement brownien standard, $B_{a,A}\left(t\right)$ , pour le temps $t_{1}>>t_{0}$ :

a_{A}^{t_{1}}=a_{A}^{t_{0}}+\left(B_{a,A}\left(t_{1}/\tau \right)-B_{a,A}\left(t_{0}/\tau \right)\right)\cdot {\frac {\sigma _{a,A}}{\sqrt {1-\gamma \left(1-{\gamma }/{2}\;\right)}}}

où $\tau$ et $\sigma _{a,A}^{2}$ se réfèrent respectivement au taux de perte de la mémoire et à la variance de l'attaque a priori.

Ce modèle est basé sur l'hypothèse que :

{a_{A}^{t_{1}}}/{a_{A}^{t_{0}}}\;\sim N\left(a_{A}^{t_{0}},\ {\frac {t_{1}-t_{0}}{\tau }}\sigma _{a,A}^{2}\right)

En supposant que trois équipes A, B et C jouent dans le tournoi et que les matchs sont joués dans l'ordre suivant: $t_{0}$ : A-B; $t_{0}$ : A-C; $t_{1}$ : B-C, la densité de probabilité conjointe peut être exprimée comme suit :

{\displaystyle {\begin{aligned}&P(a_{i},d_{i},\gamma ,\,\tau

Puisque l'estimation analytique des paramètres est difficile dans ce cas, la méthode de Monte-Carlo est appliquée pour estimer les paramètres du modèle.

Liens externes

Références

Stern Hal. (1995) Who's Number 1 in College Football?...And How Might We Decide? Chance, Summer, 7-14.
Moroney M. J. (1956) Facts from figures. 3rd edition, Penguin, London.
Reep C. Benjamin B. (1968) Skill and chance in association football. Journal of the Royal Statistical Society A, 131, 581-585.
Hill I.D. (1974), Association football and statistical inference. Applied statistics, 23, 203-208.
Maher M.J. (1982), Modelling Association Football scores. Statistica Neerlandica, 36, 109-118
Caurneya K.S. and Carron A.V. (1992) The home advantage in sports competitions: a literature review. Journal of Sport and Exercise Physiology, 14, 13-27.
Knorr-Held, Leonhard (1997) Dynamic Rating of Sports Teams. (REVISED 1999). Collaborative Research Center 386, Discussion Paper 98
Diego Kuonen (1996) Statistical Models for Knock-out Soccer Tournaments
Lee A. J. (1997) Modeling scores in Premier League: is Manchester United really the best. Chance, 10, 15-19
Mark J. Dixon and Coles S.G. (1997) Modeling Association Football Scores and Inefficiencies in the Football Betting Market, Applied Statistics, Volume 46, Issue 2, 265-280
Dimitris Karlis and Ioannis Ntzoufras (2007) Bayesian modelling of football outcomes: Using the Skellam’s distribution for the goal difference
Rue H. and Salvesen O. (1999) Predicting and retrospective analysis of soccer matches in a league. Technical Report. Norvegian University of Science and Technology, Trondheim.

Portail du football
Portail des probabilités et de la statistique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[Stern_article-1] Stern Hal. (1995) Who's Number 1 in College Football?...And How Might We Decide? Chance, Summer, 7-14.

[Moroney_article-2] Moroney M. J. (1956) Facts from figures. 3rd edition, Penguin, London.

[Reep_article-3] Reep C. Benjamin B. (1968) Skill and chance in association football. Journal of the Royal Statistical Society A, 131, 581-585.

[Hill_article-4] Hill I.D. (1974), Association football and statistical inference. Applied statistics, 23, 203-208.

[Maher_article-5] Maher M.J. (1982), Modelling Association Football scores. Statistica Neerlandica, 36, 109-118

[Caurneya_article-6] Caurneya K.S. and Carron A.V. (1992) The home advantage in sports competitions: a literature review. Journal of Sport and Exercise Physiology, 14, 13-27.

[Knorr_article-7] Knorr-Held, Leonhard (1997) Dynamic Rating of Sports Teams. (REVISED 1999). Collaborative Research Center 386, Discussion Paper 98

[Kuonen_article-8] Diego Kuonen (1996) Statistical Models for Knock-out Soccer Tournaments

[Lee_article-9] Lee A. J. (1997) Modeling scores in Premier League: is Manchester United really the best. Chance, 10, 15-19

[Dixon_article-10] Mark J. Dixon and Coles S.G. (1997) Modeling Association Football Scores and Inefficiencies in the Football Betting Market, Applied Statistics, Volume 46, Issue 2, 265-280

[Karlis_article-11] Dimitris Karlis and Ioannis Ntzoufras (2007) Bayesian modelling of football outcomes: Using the Skellam’s distribution for the goal difference

[Rue_article-12] Rue H. and Salvesen O. (1999) Predicting and retrospective analysis of soccer matches in a league. Technical Report. Norvegian University of Science and Technology, Trondheim.