Trace et transposée de matrice/Droite de régression de y en x

Nous allons voir dans ce chapitre une importante application du chapitre précédent. Nous allons établir les formules permettant de calculer la droite de régression de y en x. Un nuage de points étant donné dans un repère, nous devons calculer l'équation de la droite passant le plus près possible de tous ces points.

Position du problème

Nous supposons qu’il existe une loi de proportionnalité (ou approximativement de proportionnalité) entre une variable y et une variable x. Des mesures expérimentales nous donnent un ensemble de couples (x,y) :

$\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{n},y_{n})\}$

En reportant ces n mesures dans un repère, nous constatons que les points (en rouge sur le dessin) ne sont pas parfaitement alignés, cela étant dû, par exemple, à l'imprécision des mesures.

Nous allons, malgré tout, essayer de trouver une droite (en bleu sur le dessin) d'équation y = ax + b passant le plus près de tous les points.

Remarque

Par « passant le plus près de tous les points », nous voulons dire telle que la somme des carrés des distances représentées en vert sur le dessin soit la plus petite possible. C'est pour cela que la droite de régression de y en x est aussi appelée : droite de régression des moindres carrés. La notion de distance qui nous intéresse ici correspond bien la notion de distance entre matrices étudiée dans les chapitres précédents.

Pour cela, nous faisons comme si la droite passait parfaitement par tous les points. Nous obtenons le système suivant :

${\begin{cases}y_{1}=ax_{1}+b\\y_{2}=ax_{2}+b\\y_{3}=ax_{3}+b\\\vdots \\y_{n}=ax_{n}+b\end{cases}}$

et nous constatons que nous avons un système de n équations à deux inconnues a et b.

Résolution au mieux du système

Le système établi précédemment ayant beaucoup plus d'équations que d'inconnues, nous allons essayer de le résoudre « au mieux » comme nous avons appris à le faire dans le chapitre précédent.

Sous forme matricielle, le système précédent s'écrit :

${\begin{pmatrix}x_{1}&1\\x_{2}&1\\x_{3}&1\\\vdots &\vdots \\x_{n}&1\end{pmatrix}}{\begin{pmatrix}a\\b\end{pmatrix}}={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}}$

D'après le théorème démontré au chapitre précédent, les nombres a et b qui satisfont au mieux le système précédent sont les racines du système obtenu en multipliant à gauche les deux membres par la transposée de la première matrice ; nous obtenons :

${\begin{pmatrix}x_{1}&x_{2}&x_{3}&\cdots &x_{n}\\1&1&1&\cdots &1\end{pmatrix}}{\begin{pmatrix}x_{1}&1\\x_{2}&1\\x_{3}&1\\\vdots &\vdots \\x_{n}&1\end{pmatrix}}{\begin{pmatrix}a\\b\end{pmatrix}}={\begin{pmatrix}x_{1}&x_{2}&x_{3}&\cdots &x_{n}\\1&1&1&\cdots &1\end{pmatrix}}{\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}}$ .

En effectuant les produits matriciels, nous obtenons :

{\begin{pmatrix}\sum _{i=1}^{n}x_{i}^{2}&\sum _{i=1}^{n}x_{i}\\\sum _{i=1}^{n}x_{i}&n\end{pmatrix}}{\begin{pmatrix}a\\b\end{pmatrix}}={\begin{pmatrix}\sum _{i=1}^{n}x_{i}y_{i}\\\sum _{i=1}^{n}y_{i}\end{pmatrix}}

.

En traduisant cette dernière relation sous forme de système, nous obtenons :

{\begin{cases}a\sum _{i=1}^{n}x_{i}^{2}+b\sum _{i=1}^{n}x_{i}=\sum _{i=1}^{n}x_{i}y_{i}\\a\sum _{i=1}^{n}x_{i}+bn=\sum _{i=1}^{n}y_{i}.\end{cases}}

En éliminant b de la première équation grâce à la deuxième, nous obtenons :

{\begin{cases}a\left(n\sum _{i=1}^{n}x_{i}^{2}-\left(\sum _{i=1}^{n}x_{i}\right)^{2}\right)=n\sum _{i=1}^{n}x_{i}y_{i}-\sum _{i=1}^{n}x_{i}\sum _{i=1}^{n}y_{i}\\a\sum _{i=1}^{n}x_{i}+bn=\sum _{i=1}^{n}y_{i}.\end{cases}}

En divisant les deux membres de la première équation par n² et les deux membres de la deuxième équation par n, nous obtenons :

{\begin{cases}a\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}\right)^{2}\right)={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}-{\frac {1}{n}}\sum _{i=1}^{n}x_{i}{\frac {1}{n}}\sum _{i=1}^{n}y_{i}\\a{\frac {1}{n}}\sum _{i=1}^{n}x_{i}+b={\frac {1}{n}}\sum _{i=1}^{n}y_{i}.\end{cases}}

Rappel

La moyenne d'une série statistique x est donnée par :

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}

.

La variance d'une série statistique x est donnée par :

\operatorname {var} (x)={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}\right)^{2}={\bar {x^{2}}}-{\bar {x}}^{2}

.

La covariance d'une série statistique à deux variables x et y est donnée par :

\operatorname {cov} (x,y)={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}-{\frac {1}{n}}\sum _{i=1}^{n}x_{i}{\frac {1}{n}}\sum _{i=1}^{n}y_{i}={\bar {xy}}-{\bar {x}}{\bar {y}}

.

Compte tenu du rappel précédent, notre système peut s'écrire :

{\begin{cases}a\operatorname {var} (x)=\operatorname {cov} (x,y)\\a{\bar {x}}+b={\bar {y}},\end{cases}}

ce qui donne finalement :

{\begin{cases}a={\frac {\operatorname {cov} (x,y)}{\operatorname {var} (x)}}\\b={\bar {y}}-a{\bar {x}}.\end{cases}}

Nous avons obtenu le résultat suivant :

Théorème

Soit un nuage de points de coordonnées respectives (x1,y1), (x2,y2), ..., (xn,yn). La droite de régression de y en x, d'équation y = ax + b, passant le plus près des points du nuage, a ses coefficients qui vérifient :

{\begin{cases}a={\frac {\operatorname {cov} (x,y)}{\operatorname {var} (x)}}\\b={\bar {y}}-a{\bar {x}}.\end{cases}}

Cet article est issu de Wikiversity. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.