Fonction de vraisemblance

La fonction de vraisemblance (ou plus simplement vraisemblance) est une fonction des paramètres d'un modèle statistique calculée à partir de données observées[1]^,[2]. Les fonctions de vraisemblance jouent un rôle clé dans l'inférence statistique fréquentiste, en particulier pour les méthodes statistiques d'estimation de paramètres. Le terme de « vraisemblable » est parfois utilisé comme synonyme de « probable » dans le langage courant, mais en statistique, vraisemblance et probabilité ont des sens différents. Une probabilité représente la plausibilité d'un événement aléatoire selon un certain modèle, sans référence spécifique à des données observées. La vraisemblance décrit la plausibilité d'une valeur des paramètres d'un modèle, étant donné l'observation d'un certain nombre de réalisations d'une variable aléatoire.

En inférence bayésienne, la vraisemblance garde la même définition, mais peut être interprétée comme la densité de probabilité des données conditionnellement à une valeur des paramètres (qui sont ici vus comme une variable aléatoire) et comme une mesure de l'information apportée par les données sur la valeur des paramètres. On peut également parler de la vraisemblance d'une variable aléatoire conditionnellement à une autre variable (vraisemblance marginale), au regard des données observées.

Définition

La fonction de vraisemblance est définie en fonction d'un vecteur de paramètres $θ$ comme la densité des données observées par rapport à une mesure de probabilité discrète ou continue.

Loi de probabilité discrète

Soit $X$ une variable aléatoire suivant une loi discrète décrite par la fonction de masse $p$ dépendant d'un paramètre $θ$ . La vraisemblance est une fonction de $θ$ , étant donné une réalisation $x$ de la variable aléatoire $X$ , qui s'écrit alors

L(\theta |x)=p_{\theta }(x)=P_{\theta }(X=x)

Loi de probabilité continue

Soit $X$ une variable aléatoire suivant une loi continue décrite par la densité de probabilité $f$ dépendant d'un paramètre $θ$ . La vraisemblance est une fonction de $θ$ , étant donné une réalisation $x$ de la variable aléatoire $X$ , qui s'écrit alors

L(\theta |x)=f_{\theta }(x)

Que ce soit dans le cas discret ou continu, la vraisemblance n'est pas une probabilité conditionnelle, et on préférera écrire $P(X=x;\theta )$ ou $f(x;\theta )$ plutôt que $P(X=x|\theta )$ ou $f(x|\theta )$ .

Exemple

Considérons un modèle statistique du lancer d'une pièce représentée par une variable aléatoire discrète ayant pour valeurs pile ou face et un seul paramètre $p F$ qui mesure à quel point la pièce est équilibrée. Ce paramètre correspond à la probabilité d'obtenir face sur un lancer, et peut prendre n'importe quelle valeur comprise entre 0 et 1. Pour une pièce parfaitement équilibrée $p F = 1 / 2$ .

On lance la pièce deux fois de suite et on observe deux fois face (« FF »). En supposant que les lancers sont indépendants et identiquement distribués, la probabilité d'observer l’événement « FF » est

P(FF|p_{F}={\tfrac {1}{2}})=\left({\tfrac {1}{2}}\right)^{2}={\tfrac {1}{4}}

Étant donné l'observation « FF », la vraisemblance de la valeur du paramètre $p F = 1 / 2$ est égale à $1 / 4$ , ce qui s'écrit mathématiquement

L(p_{F}={\tfrac {1}{2}}|FF)={\frac {1}{4}}

.

Il est en revanche faux d'affirmer que la probabilité que la valeur de $p F$ est égale à $1 / 2$ sachant que la probabilité de « FF a été observé » est de $1 / 4$ . Pour évaluer cette probabilité il faut recourir au théorème de Bayes, qui indique que la probabilité a posteriori est proportionnelle au produit de la vraisemblance et de la probabilité a priori.

Si l'on suppose maintenant que la pièce est truquée et que $p F = 0,3$ , la probabilité d'obtenir deux fois face est égale à

P(FF|p_{F}=0{,}3)=0{,}3^{2}=0{,}09

.

D'où

L(p_{F}=0{,}3|FF)=0{,}09

.

Log-vraisemblance

On est souvent amené à calculer la vraisemblance d'un paramètre au regard non pas d'une seule observation, mais d'une collection d'observations indépendantes d'une même variable aléatoire $\{x_{1},x_{2}\dots ,x_{n}\}$ , comme on l'a fait dans l'exemple précédent. Dans ce cas, la vraisemblance s'écrit comme le produit des vraisemblances de chaque observation :

L(\theta |x_{1},x_{2},\dots ,x_{n})=\prod _{i=1}^{n}L(\theta |x_{i})

Dans de nombreux cas, il est plus commode de manipuler le logarithme de la vraisemblance, que l'on appelle fonction log-vraisemblance. En effet, on cherche souvent à atteindre le maximum de vraisemblance. La fonction logarithme étant strictement croissante, la vraisemblance et la log-vraisemblance atteignent leur maximum au même point. De plus la recherche du maximum de vraisemblance nécessite généralement de calculer la dérivée de la vraisemblance, et cela est beaucoup plus simple avec le log-vraisemblance, dans le cas de multiples observations indépendantes, puisque le logarithme du produit des vraisemblances individuelles s'écrit comme la somme des logarithmes des vraisemblances, et qu'il est plus aisé de dériver une somme de termes qu'un produit. En effet, on a :

\log L(\theta |x_{1},x_{2},\dots ,x_{n})=\sum _{i=1}^{n}\log L(\theta |x_{i})

.

Exemple : loi Gamma

La loi Gamma est une distribution à deux paramètres, notés $α$ et $β$ . Étant donné une observation $x$ , la vraisemblance s'écrit alors

L(\alpha ,\beta |x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}\exp(-\beta x).

La recherche de la valeur de $β$ correspondant au maximum de vraisemblance pour l'observation $x$ peut paraître complexe. En passant au logarithme, le calcul se simplifie

\log L(\alpha ,\beta |x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x

Pour trouver la valeur de $β$ qui maximise la log-vraisemblance, on calcule sa dérivée partielle par rapport à $β$ :

{\frac {\partial \log L(\alpha ,\beta |x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x

Dans le cas où l'on a plusieurs observations indépendantes $\{x_{1},x_{2}\dots ,x_{n}\}$ , la log-vraisemblance de l'ensemble des observations est la somme des log-vraisemblances individuelles, et la dérivée partielle de l'ensemble sera la somme des dérivées partielles individuelles, soit :

{\frac {\partial \log L(\alpha ,\beta |x_{1},x_{2},\dots ,x_{n})}{\partial \beta }}=\sum _{i=1}^{n}{\frac {\alpha }{\beta }}-x_{i}=n{\frac {\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}

.

Le maximum est atteint quand cette dérivée partielle est nulle. On résout donc l'équation

n{\frac {\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}=0

qui a pour solution

{\hat {\beta }}=\alpha {\frac {n}{\sum _{i=1}^{n}x_{i}}}={\frac {\alpha }{\bar {x}}}

où ${\hat {\beta }}$ est l'estimateur du maximum de vraisemblance et ${\textstyle {\bar {x}}={\tfrac {1}{n}}\sum _{i=1}^{n}x_{i}}$ est la moyenne empirique des observations.

Vraisemblance relative

Soit ${\hat {\theta }}$ l'estimateur du maximum de vraisemblance pour les paramètres $θ$ d'une distribution; on peut estimer la plausibilité d'autres valeurs de $θ$ en comparant leur vraisemblance avec celle de ${\hat {\theta }}$ . La vraisemblance relative de $θ$ est définie par le rapport ${\frac {L(\theta |x)}{L({\hat {\theta }}|x)}}$ .

On est souvent amené à donner une plage de paramètres $θ$ pour laquelle la vraisemblance relative est supérieure à une valeur donnée. Par exemple, la plage de vraisemblance à 10 % est

{\displaystyle \left\{\theta

.

Plus généralement, la plage de vraisemblance à p % est donnée par l'ensemble

{\displaystyle \left\{\theta

.

Si $θ$ est un paramètre réel, cette plage de vraisemblance sera généralement un intervalle, que l'on appelle intervalle de vraisemblance. Il existe un parallèle entre le concept d'intervalle de vraisemblance et celui d'intervalle de confiance. Sous certaines conditions, pour un paramètre $θ$ réel, un intervalle de vraisemblance à 14,7 % correspondra à un intervalle de confiance à 95 %.

La vraisemblance relative est également liée au test du rapport de vraisemblance. Le rapport de vraisemblance est le rapport de deux vraisemblances pour deux paramètres quelconques, la vraisemblance relative étant le cas particulier où l'un des deux paramètres correspond au maximum de vraisemblance.

Références

(en) R. A. Fisher et Edward John Russell, « On the mathematical foundations of theoretical statistics », Philosophical Transactions of the Royal Society A, vol. 222,‎ 1922, p. 309–368 (lire en ligne)
Yadolah Dodge, Statistique : dictionnaire encyclopédique., Paris/Berlin/Heidelberg etc., Springer, 635 p. (ISBN 978-2-287-72093-2), p. Maximum de vraisemblance, p.328

Voir aussi

Articles connexes

Lien externe

sciences.ch

Portail des probabilités et de la statistique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] (en) R. A. Fisher et Edward John Russell, « On the mathematical foundations of theoretical statistics », Philosophical Transactions of the Royal Society A, vol. 222,‎ 1922, p. 309–368 (lire en ligne)

[2] Yadolah Dodge, Statistique : dictionnaire encyclopédique., Paris/Berlin/Heidelberg etc., Springer, 635 p. (ISBN 978-2-287-72093-2), p. Maximum de vraisemblance, p.328