Théorème de Gauss-Markov

En statistiques, le théorème de Gauss–Markov, nommé ainsi d'après Carl Friedrich Gauss et Andrei Markov, énonce que dans un modèle linéaire dans lequel les erreurs ont une espérance nulle, sont non corrélées et dont les variances sont égales, le meilleur estimateur linéaire non biaisé des coefficients est l'estimateur des moindres carrés. Plus généralement, le meilleur estimateur linéaire non biaisé d'une combinaison linéaire des coefficients est son estimateur par les moindres carrés. On ne suppose pas que les erreurs possèdent une loi normale, ni qu'elles sont indépendantes (seulement non corrélées), ni qu'elles possèdent la même loi de probabilité.

Plus explicitement, supposons que l'on ait :

Y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i}

pour i = 1, . . ., n, où β₀ et β₁ sont des paramètres qui ne sont pas aléatoires mais non-observables, x_i sont des variables connues, ε_i sont aléatoires, et donc Y_i sont des variables aléatoires. Posons x en minuscule, s'agissant d'une observation ; et Y en majuscule car il s'agit d'une variable aléatoire. Les variables aléatoires ε_i sont appelées « erreurs ».

En pratique, il peut y avoir plus de deux variables explicatives (les x plus haut) et on a généralement recours à une écriture matricielle plus concise :

{\boldsymbol {Y}}={\boldsymbol {x}}{\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}

avec ${\boldsymbol {Y}}$ et ${\boldsymbol {\varepsilon }}$ de dimension n × 1, ${\boldsymbol {\beta }}$ de dimension k × 1, et enfin ${\boldsymbol {x}}$ de dimension n × k.

Le théorème de Gauss–Markov se base sur des hypothèses sur l'espérance et la matrice de variance-covariance des aléas ε :

${\rm {E}}\left(\varepsilon _{i}\right)=0,$
${\rm {var}}\left(\varepsilon _{i}\right)=\sigma ^{2}<\infty ,$

(c'est-à-dire que toutes les erreurs ont la même variance : on parle d'homoscédasticité) et

${\rm {cov}}\left(\varepsilon _{i},\varepsilon _{j}\right)=0$

pour $i\not =j$ ; ce qui traduit la non-corrélation. Matriciellement, les hypothèses se traduisent ainsi :

\operatorname {E} ({\boldsymbol {\varepsilon }})=\mathbf {0} \;\;{\mbox{ et }}\;\;\operatorname {Var} ({\boldsymbol {\varepsilon }})=\sigma ^{2}{\boldsymbol {I_{n}}}

où la matrice ${\boldsymbol {I_{n}}}$ est la matrice identité n × n.

Un estimateur linéaire de β_j est une combinaison linéaire des données observées :

{\widehat {\beta }}_{j}={\boldsymbol {C}}{\boldsymbol {Y}}=c_{1}Y_{1}+\cdots +c_{n}Y_{n}

dans laquelle les coefficients c_i ne dépendent pas des précédents coefficients β_i, car ceux-ci ne sont pas observables, mais peuvent dépendre de x_i, car il s'agit de variables connues.

L'erreur moyenne quadratique d'un tel estimateur est :

{\rm {E}}\left(({\widehat {\beta }}_{j}-\beta _{j})^{2}\right)={\rm {E}}\left((c_{1}Y_{1}+\cdots +c_{n}Y_{n}-\beta _{j})^{2}\right),

c'est-à-dire, l'espérance du carré de la différence entre l'estimateur et le paramètre à estimer. L'erreur moyenne quadratique d'un estimateur coïncide avec sa variance si l'estimateur n'est pas biaisé ; dans le cas contraire, l'erreur moyenne quadratique est la somme de la variance et du carré du biais.

Le meilleur estimateur non-biaisé est l'estimateur de plus faible erreur moyenne quadratique (donc ici de plus faible variance). Les estimateurs par les moindres carrés de β₀ et β₁ sont les fonctions ${\widehat {\beta }}_{0}$ et ${\widehat {\beta }}_{1}$ de Y et x qui minimisent la somme des carrés des résidus :

\sum _{i=1}^{n}\left(Y_{i}-{\widehat {Y}}_{i}\right)^{2}=\sum _{i=1}^{n}\left(Y_{i}-\left({\widehat {\beta }}_{0}+{\widehat {\beta }}_{1}x_{i}\right)\right)^{2}\equiv (\mathbf {Y} -\mathbf {x} {\boldsymbol {\widehat {\beta }}})^{T}(\mathbf {Y} -\mathbf {x} {\boldsymbol {\widehat {\beta }}})

(Ne pas confondre les erreurs ε, basées sur des quantités non-observables, et les résidus, basés sur des observations.)

Le théorème de Gauss-Markov énonce que, parmi tous les estimateurs linéaires non-biaisés, l'estimateur par moindres carrés présente une variance minimale. On peut résumer tout cela en disant que l'estimateur par moindres carrés est le « BLUE »[1] (en anglais : Best Linear Unbiaised Estimator).

L'idée principale de la preuve est que les estimateurs aux moindres carrés sont non corrélés par rapport à chaque estimateur linéaire non biaisé de zéro, c'est-à-dire, chaque combinaison linéaire $a_{1}Y_{1}+\cdots +a_{n}Y_{n}$ dont les coefficients ne dépendent pas des variables non-observables β_i mais dont l'espérance reste nulle lorsque les valeurs de β₁ et β₂ changent. Un estimateur non-biaisé de β sera la somme de l'estimateur par les moindres carrés plus un tel estimateur de zéro, et on peut montrer que sa variance est donc la somme de la variance de l'estimateur par les moindres carrés et la variance de l'estimateur de zéro. Cette dernière étant non-négative, l'estimateur par les moindres carrés sera le meilleur.

Du point de vue de la formulation matricielle, la démonstration du théorème de Gauss–Markov est faite en démontrant que la différence entre la matrice de covariance de n'importe quel estimateur linéaire non biaisé et celle de l'estimateur des moindres carrés, est une matrice semi-définie positive.

Notes et références

A. C. Aitken, On Least Squares and Linear Combinations of Observations, Proceedings of the Royal Society of Edinburgh, 1935, vol. 55, pp. 42-48.

Voir aussi

Régression linéaire

Portail des probabilités et de la statistique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] A. C. Aitken, On Least Squares and Linear Combinations of Observations, Proceedings of the Royal Society of Edinburgh, 1935, vol. 55, pp. 42-48.