Tableau de contingence

Un tableau de contingence est une méthode de représentation de données issues d’un comptage permettant d'estimer la dépendance entre deux caractères. Elle consiste à croiser deux caractères d'une population (par exemple une classe d'âge et un score) en dénombrant l'effectif correspondant à la conjonction « caractère 1 » et « caractère 2 ».

Les effectifs partiels sont rassemblés dans un tableau à double entrée, par ligne pour le premier caractère, et par colonne en fonction du second caractère : c'est le « tableau de contingence ».

Cet outil simple répond à un problème crucial en statistique : la détection d’éventuelles dépendances entre les qualités relevées sur les individus d'une population. L’existence de dépendances conditionnelles suggère en effet la possibilité de stocker les résultats d'un sondage de façon plus condensée[1].

La notion de tableau croisé dynamique, proposée par les tableurs, est une généralisation du tableau de contingence classique.

L'expression tableau de contingence a été introduite par le statisticien britannique Karl Pearson dans un essai intitulé On the Theory of Contingency and Its Relation to Association and Normal Correlation[2], en 1904.

Exemple

On pratique des études sur plusieurs caractères, en essayant alors de déterminer s'il existe une quelconque liaison entre eux. Pour cela on étudie les individus recensant plusieurs caractères à la fois.

Par exemple, l’âge et le nombre de fois où l’on tombe malade sont-ils liés ?

Âge / Malade0 fois1 fois2 fois3 fois4 fois
20 ≤ âge < 30 ans4 individus2 individus2 individus1 individu1 individu
30 ≤ âge < 40 ans43311
40 ≤ âge < 50 ans72100
50 ≤ âge < 60 ans32111
âge ≥ 60 ans00011

Application aux probabilités conditionnelles

Le tableau de contingence amène naturellement à la notion de probabilité conditionnelle dans le cas discret.

Avec un tableau de p lignes et q colonnes, si l'on note nij l'effectif à l'intersection de la i-ème ligne (avec p lignes) et de la j-ème colonne, le nombre total d'individus triés par le tableau est :

De même, on peut calculer les totaux par ligne et par colonne :

L'effectif partiel nij représente un pourcentage fij de l'effectif total :


On peut regarder ce pourcentage comme une probabilité (puisque ) : c'est la probabilité conjointe qu'un individu de la population étudiée remplisse simultanément le critère associé à la ligne i (Li) et à la colonne j (Cj).


est la probabilité qu'un individu réponde à la condition Li.
est une probabilité conditionnelle : c'est la probabilité qu'un individu réponde à la condition Li sachant qu'il respecte la condition Cj.


et de même :


On a donc :


qui est la formule de Bayes.

  • Exemple

Avec l'exemple précédent, n = 42 et l'on a par exemple les résultats suivants :

  • P (l'individu a entre 30 et 40 ans) = 12/42 = 2/7
  • P (2 arrêts maladie)= 7/42 = 1/6
  • P (l'individu a entre 30 et 40 ans | 2 arrêts maladie) = 3/7
  • P (2 arrêts maladie | l'individu a entre 30 et 40 ans)= 3/12 = 1/4.

Notes et références

Notes

  1. Cf. à ce sujet Steffen L. Lauritzen, Lectures on Contingency Tables, (réimpr. 1979, 1982, 1989) (lire en ligne)
  2. Karl Pearson, « Mathematical contributions to the theory of evolution », sur The Internet Archive, Dulau & Co.,

Bibliographie

  • Jérôme Pagès, Statistique générale pour utilisateurs, vol. 1 : Méthodologie, Pr. Univ. de Rennes, coll. « Pratique de la statistique », (réimpr. 2010, 2e éd. revue et augmentée), 264 p. (ISBN 978-2-7535-1215-3 et 2-7535-1215-9)
  • Xavier Bry, Analyse factorielle des données, Paris, éd. Economica, , 112 p. (ISBN 2-7178-2859-1)

Articles connexes

  • Portail des probabilités et de la statistique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.