Valeur p

Dans un test statistique, la valeur-p (en anglais p-value pour probability value), parfois aussi appelée p-valeur, est la probabilité pour un modèle statistique donné sous l'hypothèse nulle d'obtenir la même valeur ou une valeur encore plus extrême que celle observée.

Illustration de la valeur p. X désigne la loi de probabilité de la statistique de test et z la valeur calculée de la statistique de test.

L'usage de la valeur-p est courant dans de nombreux domaines de recherche comme la physique, la psychologie, l'économie et les sciences de la vie.

Principe général

La p-valeur est utilisée pour quantifier la significativité statistique d'un résultat dans le cadre d'une hypothèse nulle. L'idée générale est de déterminer si l'hypothèse nulle est ou n'est pas vérifiée car dans le cas où elle le serait, le résultat observé serait fortement improbable. Il s'agit à ce titre d'une extension du principe de preuve par l'absurde.

Un résultat statistiquement significatif est un résultat qui serait improbable si l'hypothèse nulle (qui représente en général la norme) était vérifiée. Il en résulte donc que l'hypothèse nulle ne s'applique pas au résultat observé et donc que le cas étudié diffère de manière notable de la norme et ainsi présente un intérêt particulier.

Moralement, à titre d'exemple, imaginons que l'on connaisse la loi répartissant le poids des gens d'une population en surpoids et qu'on teste un traitement "minceur" sur un groupe de personnes. On évalue le poids moyen du groupe après le traitement et on vérifie avec la loi initiale si le résultat est probable ou improbable. S'il est "improbable", le traitement est efficace.

En termes statistiques la p-value s'interprète comme la probabilité d'un résultat au moins aussi « extrême » que le résultat observé, « sachant l'hypothèse nulle », ou si l'on reprend la notation de probabilité type en appelant x le résultat observé et H0 l'hypothèse nulle on peut définir de manière naïve la p-value[note 1] :

Le résultat d'une p-value « improbable » (suivant des conventions à adopter) implique que l'expérience observée ne suit pas l'hypothèse nulle mais ne permet pas stricto sensu de pousser plus loin l'interprétation. La p-value ne doit pas être interprétée comme une probabilité sur l'hypothèse nulle et ne correspond pas, en reprenant la notation précédente, à P(H0|x) contrairement à une interprétation erronée parfois donnée.

Pour un test unilatéral à droite, si X est la variable aléatoire et la valeur observée dans les données, alors la p-valeur est : .

Pour un test unilatéral à gauche, si X est la variable aléatoire et la valeur observée dans les données, alors la p-valeur est : .

Pour un test bilatéral, si X est la variable aléatoire et la valeur observée dans les données, alors la p-valeur est : . Dans le cas particulier d'une fonction de densité de X paire, on peut simplement écrire comme indiqué dans la figure d'illustration.

Usage

Ce nombre est utilisé en statistiques inférentielles pour conclure sur le résultat d’un test statistique. La procédure généralement employée consiste à comparer la valeur-p à un seuil préalablement défini (traditionnellement 5 %). Si la valeur-p est inférieure à ce seuil, on rejette l'hypothèse nulle en faveur de l’hypothèse alternative, et le résultat du test est déclaré « statistiquement significatif »[1]. Dans le cas contraire, si la valeur-p est supérieure au seuil, on ne rejette pas l’hypothèse nulle, et on ne peut rien conclure quant aux hypothèses formulées.

Cette utilisation de la valeur-p est remise en question, voir la section critiques de cette page, car ne permettant pas de répondre à la question à laquelle elle est censée donner une réponse et il conviendrait de cesser de l'utiliser au moins dans ce contexte[2],[3],[4],[5],[6],[7],[8].

Conventions sur la probabilité

Approche classique

Le statisticien Ronald Fisher a introduit les termes de significativité, d’hypothèse nulle, et l’utilisation de la valeur-p. Il rejetait toutefois la notion de puissance statistique : selon lui, l’hypothèse nulle ne peut jamais être acceptée, mais peut seulement être rejetée par le test statistique. Dans cette approche, la valeur-p est considérée comme une mesure d’à quel point les données plaident contre l’hypothèse nulle. Les seuils suivants sont généralement pris pour référence :

  •  : très forte présomption contre l'hypothèse nulle
  •  : forte présomption contre l'hypothèse nulle
  •  : faible présomption contre l'hypothèse nulle
  •  : pas de présomption contre l'hypothèse nulle

Si ces valeurs sont classiques et d'usage courant, elles restent toutefois entièrement arbitraires et forment ainsi une convention qui n'est pas acceptée dans certains domaines demandant des précisions très élevées.

En sciences exactes

En sciences exactes, les scientifiques ont longtemps requis une signification statistique correspondant à un écart d'au moins 3 écarts types pour considérer un résultat expérimental comme une possible découverte, ce qui correspond à une valeur-p au plus égale à 2,7 × 10−3, soit environ -25,7 décibans)[9]. Mais le grand nombre de faux positifs, c'est-à-dire selon la définition ci-dessus, le grand nombre d'erreurs de première espèce, a poussé la communauté scientifique à requérir une signification statistique correspondant à un écart d'au moins 5 écarts types, ce qui correspond à une valeur-p au plus égale à 5,7 × 10−7[10], soit environ -62,5 décibans (dans le cas où l'écart est possible des deux côtés, c'est-à-dire un effet non nul soit positif soit négatif) ou 2,9 × 10−7 (pour un seul côté).

On consultera avec intérêt la note récente sur le sujet[11] et tout particulièrement le retour d'expérience présenté en table 1. L'auteur étend aussi la discussion de la simple signifiance statistique au « niveau de surprise » et à l'« impact » de la découverte putative (table 2), ou, comme le disait déjà Laplace, « Plus un fait est extraordinaire, plus il a besoin d'être appuyé de fortes preuves »[12]. En cela, on retrouve des concepts de l'évaluation des risques, où la matrice de criticité combine la probabilité d'apparition et la gravité du phénomène considéré.

La valeur-p dans l’approche Neyman-Pearson

Le mathématicien polonais Jerzy Neyman et le statisticien britannique Egon Sharpe Pearson ont développé un cadre théorique alternatif.

Dans leur approche, les taux d’erreurs doivent être définis avant la collecte des données :

  • α, le taux d’erreur de première espèce (rejeter à tort une hypothèse nulle vraie)
  • β, le taux d’erreur de seconde espèce (accepter à tort l’hypothèse nulle)

La puissance statistique du test, égale à 1 - β, est ainsi contrôlée et définie à l’avance. Il faut ensuite calculer le nombre de données à collecter pour atteindre une telle puissance statistique, ce qui nécessite d’estimer la variance des données : pour ce faire, on se base sur des études précédentes ou sur une étude pilote.

Lorsque les données sont collectées, la valeur-p est calculée et la décision suivante est prise :

  • si elle est inférieure à α, on rejette l’hypothèse nulle au profit de l’hypothèse alternative
  • si elle est supérieure à α, on rejette l’hypothèse alternative au profit de l’hypothèse nulle

La décision doit être prise de manière mécanique à la fin de la collecte des données. La notion de significativité est rejetée : si le seuil défini à l’avance est de 0.05, une valeur-p de 0.001 n’est pas considérée comme plus significative qu’une valeur-p de 0.049, dans les deux cas la décision prise est la même.

Cette procédure permet théoriquement de prendre des décisions sur l’interprétation des données tout en contrôlant adéquatement les taux d’erreurs sur le long terme. Toutefois, la validité de ces taux d’erreurs dépend du strict respect de la procédure : le recueil de nouvelles données si la valeur-p est « presque significative », ou bien le calcul de la valeur-p avant le recueil de l’intégralité des données et l’arrêt de l’expérience si celle-ci est trouvée significative invalident les taux d’erreur. Ainsi, le contrôle effectif des taux d’erreurs dépend de ce que feraient réellement les chercheurs lorsqu’ils sont confrontés à des résultats qu’ils n’attendaient pas, pas de ce qu’ils disent qu’ils feraient, ni même de ce qu’ils pensent qu’ils feraient. Par ailleurs, si les taux d’erreur à long terme sont connus, la probabilité de défendre la mauvaise hypothèse à la suite du test statistique dans cette expérience particulière n’est pas connue. Ces limites ont conduit au développement de l’approche bayésienne[13].

Erreur commune sur la valeur p

La valeur p n'est pas la probabilité que l'hypothèse de test soit vraie. La valeur p indique dans quelle mesure les données sont conformes à l'hypothèse de test et à ses hypothèses (i.e. le modèle statistique sous-jacent)[14].

Exemples : trucage d'une pièce de monnaie

Supposons un jeu de pile ou face. L'hypothèse nulle H0 est que la pièce est équilibrée i.e. que la probabilité pour un tirage donné d'obtenir un pile est la même que celle d'obtenir un face, à savoir 1/2. Un observateur effectue des tirages expérimentaux pour déterminer si la pièce utilisée est biaisée ou non.

4 'pile' pour 4 tirages

Supposons que l'observateur effectue 4 tirages et obtient 4 résultats pile.

L'observateur effectue le calcul de probabilité de ce résultat. Dans le cas où la pièce est équilibrée (hypothèse H0), la probabilité d'obtenir 4 pile successifs est égale à 1/24 soit 0,0625 ou 6,25 %. Si l'observateur a retenu le seuil classique de 5 % alors la conclusion de l'expérience est que la proportion de pile pour l'expérience menée n'est pas significativement supérieure à la proportion attendue et ne permet pas de conclure que la pièce est biaisée dans le cadre retenu. Ce résultat ne permet cependant pas de conclure, inversement, que la pièce n'est pas biaisée.

5 'pile' pour 5 tirages

Supposons que l'observateur continue ses tirages et obtient 5 résultats pile sur 5 tirages.

L'observateur effectue à nouveau le calcul théorique de probabilité si l'hypothèse H0 était vérifiée. Dans ce contexte la probabilité d'obtenir 5 pile successifs est égale à 1/25 soit 0,03125 ou 3,125 %. Si l'observateur a retenu le seuil classique de 5 % alors la conclusion de l'expérience est que la proportion de pile pour l'expérience menée est significativement supérieure à la proportion attendue et qu'il est probable que l'hypothèse H0 ne soit pas vérifiée au seuil de significativité de 5 %, car si H0 était vérifiée ce résultat serait improbable (moins de 5 % de chance selon le seuil conventionnel retenu). Ce résultat ne signifie toutefois pas qu'il y a 95 % de chances que la pièce soit biaisée.

17 'pile' pour 36 tirages

Supposons que l'observateur recommence des tirages avec une nouvelle pièce et obtient 17 résultat pile sur 36 tirages.

La démarche est la même que pour les exemples précédents, la différence principale résidant dans le calcul de la probabilité du résultat.

L'expérimentateur va alors lancer n fois la pièce et l'on note X la variable aléatoire associée, qui suit donc une loi binomiale B(n,p). La pièce de monnaie n'est pas faussée si la probabilité d'avoir une face est égale à la probabilité d'avoir un pile, c'est-à-dire l'hypothèse nulle est H0 : p=1/2 contre l'hypothèse alternative H1 : p>1/2 (on aurait aussi pu choisir H1 : p1/2 ou H1 : p< 1/2). Pour cette hypothèse, on peut faire un test sur la proportion d'une loi binomiale. On obtient alors une statistique de test Z qui asymptotiquement suit une loi normale centrée réduite. La valeur p est la probabilité, pour le modèle que l'on vient de définir pour l'hypothèse nulle, d'avoir une valeur plus extrême que celle observée (la statistique de test), c'est-à-dire avoir P(Y > z) avec Y une variable normale centrée réduite et z la réalisation de la statistique de test.

Exemple numérique avec l'exemple ci-dessus : supposons que l'on obtienne 17 face (ou succès) sur 36 essais. La réalisation de la statistique de test du test sur la proportion d'une loi binomiale sera alors :

.

La valeur p est avec Y qui suit une loi normale centrée réduite.

La valeur p est supérieure à 0,05 donc l'hypothèse nulle n'est pas rejetée.

Critiques

L'utilisation d'une p-valeur pour conclure à la suite d'un test statistique est très fortement remise en cause pour plusieurs raisons. D'abord d'un point de vue formel, la valeur de p désigne la probabilité d'observer un jeu de données sous l'hypothèse H0 (P(x|H0)), alors qu'en faisant le test, on cherche à savoir quelle est la probabilité que H0 soit vraie sachant les données (P(H0|x)). Or il est évident d'après le théorème de Bayes que P(x|H0) ≠ P(H0|x), en l'occurrence puisque :

Ainsi David Colquhoun conclut : « Il est conclu que si vous souhaitez maintenir votre taux de fausses découvertes en dessous de 5 %, vous devez utiliser la règle 68-95-99.7 ou une valeur p inférieure à 0,001 »[5].

Donc la valeur ne devrait jamais être utilisée pour valider une hypothèse à partir de données puisque ce n'est pas ce qui est calculé[6].

Notes

  1. Cette définition naïve pose problème dans le cas des distributions continues, où la probabilité d'une valeur individuelle donnée est toujours nulle. Dans ce cas on contournera la difficulté soit en utilisant des intervalles de valeurs comme des arrondis ou en reformulant l'observation x comme « la valeur d'un événement est plus petite/grande que la valeur observée x »

Références

  1. (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag, , 461 p. (ISBN 978-0-387-40272-7, DOI 10.1007/978-0-387-21736-9, lire en ligne), définition 10.11.
  2. (en) Paul E. Meehl (en), « Why summaries of research on psychological theories are often uninterpretable », Psychological Reports, (DOI 10.2466/PR0.66.1.195-244)
  3. (en) Jacob Cohen, « The Earth Is Round (p < .05) », American Psychologist, (DOI 10.1037/0003-066X.49.12.997)
  4. (en) Monya Baker, « Statisticians issue warning on P values », Nature, , p. 351:151-152 (DOI 10.1038/nature.2016.19503)
  5. (en) David Colquhoun, « An investigation of the false discovery rate and the misinterpretation of p-values », Royal Society Open Science, , p. 140216 (DOI 10.1098/rsos.140216)
  6. (en) Wasserstein RL, Lazar NA, « The ASA's Statement on p-Values: Context, Process, and Purpose », The American Statistician, , p. 70:129-133 (DOI 10.1080/00031305.2016.1154108)
  7. (en) Johnson VE, « Revised standards for statistical evidence », PNAS, , p. 110:19313-19317 (DOI 10.1073/pnas.1313476110)
  8. (en) Valentin Amrhein et Sander Greenland, « Remove, rather than redefine, statistical significance », Nature Human Behaviour, vol. 1, , p. 0224 (DOI 10.1038/s41562-017-0224-0)
  9. (en) table 38.1 de la revue de statistique du Particle Data Group.
  10. (en) lire par exemple la discussion au-dessous de l'eq. (38.41) de la revue de statistique de Particle Data Group.
  11. (en) « Extraordinary claims: the 0.000029% solution », EPJ Web of Conferences, Volume 95, 2015, 3rd International Conference on New Frontiers in Physics, 2015. DOI:10.1051/epjconf/20159502003
  12. Laplace - Œuvres complètes, Gauthier-Villars, 1878, tome 7
  13. (en) Zoltán Dienes, Understanding Psychology as a Science : An Introduction to Scientific and Statistical Inference, Palgrave Macmillan, , 170 p. (ISBN 978-0-230-54231-0 et 0-230-54231-X)
  14. (en) « Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations » (DOI 10.1007/s10654-016-0149-3)


  • Portail des probabilités et de la statistique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.