Quantile

En statistiques et en théorie des probabilités, les quantiles sont les valeurs qui divisent un jeu de données en intervalles contenant le même nombre de données. Il y a donc un quantile de moins que le nombre de groupes créés. Ainsi les quartiles sont les trois quantiles qui divisent un ensemble de données en quatre groupes de taille égale. La médiane quant à elle est le quantile qui sépare le jeu de données en deux groupes de taille égale.

Définitions en langage commun

Les quantiles d'une variable aléatoire univariée, discrète (ex. : entière) ou continue (réelle), sont les valeurs que prend la variable pour des valeurs de probabilité sous le quantile considéré, valant une valeur remarquable, par exemple 3 dixièmes, ou 5 centièmes, etc. On les appelle encore fractiles, synonyme complet selon le contexte d'usage, et ce sont les valeurs réciproques de la fonction de répartition de la loi de probabilité considérée. On s'intéresse plus particulièrement à quelques jeux de valeurs de quantile correspondant aux multiples de fractions simples du 100 % de la probabilité totale. Par exemple, on peut scinder les 100 % de probabilité totale en 4 masses de probabilités égales chacune à ¹⁄₄=25 %, correspondant, pour les valeurs de la variable aléatoire, à quatre intervalles adjacents. Les trois valeurs intermédiaires définissent ainsi, respectivement les fractiles de ¹⁄₄=0,25, ¹⁄₂=0,5 et ³⁄₄=0,75, ou encore en termes de fractions, les quantiles d'un quart, un demi et trois quarts (les deux limites extrêmes, l'inférieure correspondant au quantile de 0 et la supérieure pour le quantile de 1, sont les bornes du domaine de définition de la variable aléatoire.

Les quantiles d'un échantillon statistique de nombres sont des valeurs remarquables permettant de diviser le jeu de ces données ordonnées (i.e. triées) en intervalles consécutifs contenant le même nombre de données (à la justesse de la division entière du nombre total de données, près). Par exemple, un échantillon de 90 données pourra être découpé selon 10 sous-intervalles consécutifs au moyen d'un jeu de 9 quantiles (plus les limites inférieure et supérieure du domaine d'échantillonnage).

Certains jeux de quantiles ont reçu des noms particuliers :

les quantiles des multiples du centième sont appelés centiles, ou percentiles selon un anglicisme fréquent. Ainsi, le 5^e centile partage l'échantillon en 5 % des données sous lui, et les 95 % restant au-dessus de lui. Le dernier centile (le 99^e) joue fréquemment un rôle de seuil d'alerte extrême pour des mesures qui traduisent l'intensité d'un phénomène sujet à des évolutions critiques et en permettent ainsi le suivi (cf. ci-après l'exemple en hydrologie de la définition de la crue centennale) ;
les quantiles des multiples du dixième sont des déciles. Ils sont d'usage fréquent en géologie minière (étude des caractéristiques granulométriques de matériaux divisés), en hydrologie (définition des hauteurs d'eau, notamment pour les crues, le 9^e décile du débit d'une rivière définissant son niveau de crue décennale), ainsi que dans nombre de statistiques médicales ;
les quantiles des multiples du quart sont les quartiles. Le premier quartile est la statistique notée générale q₁ ; le second quartile n'est autre que la médiane ; le troisième quartile est noté q₃ et son écart au 1^er quartile définit l'écart interquartile, qui est une des mesures classiques de la dispersion de l'échantillon de données, néanmoins plus robuste que l'écart-type.

Ont encore été définis, les quatre quintiles, et les deux terciles, d'usage rare.

Nota Bene : certains programmes informatiques définissent un quantile minimum et un quantile maximum par, respectivement, le quantile de 0 et le quantile de 100 %. Toutefois, une telle terminologie va au-delà des définitions traditionnelles de la statistique.

Formalisation

On note q-quantiles l'ensemble des quantiles des multiples de la fraction ¹⁄_q. Il y a (q–1) q-quantiles. Le p-ième q-quantile d'une variable aléatoire X est donc défini comme la[1] valeur $x (p / q)$ telle que :

P(X\leq x_{(p/q)})={\frac {p}{q}}\

ou, de façon équivalente,

P(X>x_{(p/q)})=1-{\frac {p}{q}}

.

C'est donc la valeur réciproque de la fraction ^p⁄_q pour la fonction de répartition associée.

La généralisation au-delà des valeurs $p$ et $q$ prises comme entiers définit les fractiles : pour un nombre réel $f$ pris entre 0 et 1 = 100 %, le fractile pour la valeur $f$ , ou encore le $f$ -fractile, est la[1] valeur du domaine de définition de la variable aléatoire pour laquelle la fonction de répartition vaut $f$ . Autrement dit, la probabilité (on dit aussi pour être plus explicite encore, la masse de probabilité) de la variable aléatoire sous le $f$ -fractile est de $100\times f %$ . Ou encore avec le langage mathématique des fonctions, le $f$ -fractile est la valeur réciproque de la fonction de répartition en $f$ .

P(X\leq x)\geq p\ \mathrm {ou} \ P(X\geq x)\geq 1-p.

Quelques remarques

Note sur un abus de langage

Dans les résultats standardisés de tests statistiques, il est courant de lire l'expression « dans le 80^e centile ». Les centiles étant des valeurs et non des intervalles, il serait plus juste de dire « dans l'intervalle entre le 80^e et le 81^e centile », ou « dans l'intervalle de probabilité 1 % qui suit le 80^e centile ».

Cas d'une variable aléatoire à distribution symétrique

Si une distribution est symétrique par rapport à une valeur particulière, alors la médiane et la moyenne sont égales à cette valeur particulière. En pratique, c'est le cas de toutes les variables aléatoires gaussiennes. Par contre, les exemples d'usage courant abondent aussi où ce n'est pas le cas.

Autres notes

Les quantiles sont des mesures utiles parce qu'elles sont moins sensibles aux distributions allongées et aux valeurs aberrantes. Par exemple, avec une valeur aléatoire qui suit une distribution exponentielle, n'importe quel échantillon particulier de cette variable aléatoire aura approximativement une chance de 63 % d'être inférieur à la moyenne. Ceci est dû à la présence d'une longue queue de la distribution exponentielle dans les valeurs positives, qui est absente dans les valeurs négatives.

Empiriquement, si les données que vous analysez ne sont pas distribuées comme la distribution que vous attendiez, ou si une autre source de valeurs aberrantes influe sur la valeur de la moyenne, alors les quantiles sont des statistiques bien plus utiles que la moyenne ou autres types de moments statistiques.

La régression robuste est fortement liée à ce sujet. Elle utilise la somme des valeurs absolues des valeurs observées, au lieu des erreurs au carré. La connexion se situe sur le fait que la moyenne est parmi les estimateurs liés à une distribution le seul qui minimise l'espérance du carré des erreurs, tandis que la médiane minimise l'espérance de l'erreur absolue. La régression robuste partage la capacité d'être relativement insensible aux larges déviations dues à certaines observations aberrantes.

Les quantiles d'une variable aléatoire sont préservés lors de transformations croissantes, ce qui signifie par exemple que si m est la médiane d'une variable aléatoire X alors 2^m est la médiane de 2^X, à moins qu'un choix arbitraire ait été fait à partir d'une plage de valeurs, pour spécifier un quantile particulier. Les quantiles peuvent aussi être utilisés dans les cas où seulement des données ordinales sont disponibles.

Calcul des quantiles

Il existe différentes méthodes pour estimer les quantiles :

Soit N le nombre de valeurs observées de la population échantillonnée, et soit $x 1, x 2, ..., x N$ les valeurs ordonnées de la même population, telles que $x 1$ est la plus petite valeur, etc. Pour le k-ième q-quantile, on a p = ^k⁄_q.

Fonction de distribution empirique: ${\begin{cases}x_{j},&g=0\\x_{j+1},&g>0\end{cases}}$

$j$ est la partie entière de $Np$ et $g$ la partie fractionnelle.

Fonction de distribution empirique avec mise à la moyenne: ${\begin{cases}{\frac {1}{2}}(x_{j}+x_{j+1}),&g=0\\x_{j+1},&g>0\end{cases}}$

$j$ est la partie entière de $Np$ et $g$ est la partie fractionnelle.

Moyenne pondérée: $x_{j+1}+g(x_{j+2}-x_{j+1})$

$j$ est la partie entière de $(N -1) p$ et $g$ est la partie fractionnelle. Cette méthode est utilisée, par exemple, dans la fonction PERCENTILE de Microsoft Excel.

Échantillon de numéro le plus proche de $(N -1) p +1$: ${\begin{cases}x_{j},&g\leq 0,5\\x_{j+1},&g\geq 0,5\end{cases}}$

$j$ est la partie entière de $(N -1) p +1$ et $g$ est la partie fractionnelle.

Notes et références

En fait, ces définitions ne définissent pas « le » quantile, ou fractile, de façon univoque. En effet, si sur un intervalle du domaine de définition, la densité de probabilité est strictement nulle, la fonction de répartition sur cet intervalle est constante, et la valeur réciproque de cette constante n'est donc pas une valeur unique, mais au moins cet intervalle particulier. C'est précisément le cas pour les variables aléatoires discrètes, qui, grâce à l'utilisation de l'outil « distribution » inventé par Laurent Schwartz et l'introduction des masses ponctuelles de probabilité, s'unifient sous un même formalisme avec les variables aléatoires continues. La non-univocité de ces définitions apparaît alors entre chaque masse ponctuelle de probabilité, et toutes ces définitions de quantiles, fractiles, centiles, déciles, quartiles, etc. doivent être complétées pour lever l'indétermination. Le choix usuel consiste à retrancher un epsilon de probabilité aux masses ponctuelles, et à la répartir de façon continue et uniforme entre les masses ponctuelles de probabilité. Dit plus simplement, cela revient à faire une interpolation linéaire bien choisie. Il faut néanmoins remarquer que certains logiciels choisissent, ou ont choisi, d'autres façons de lever cette indétermination, ce qui fait que les résultats de calcul de quantiles peuvent différer d'un programme à l'autre.

Voir aussi

Portail des probabilités et de la statistique

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[non-univocité-1] En fait, ces définitions ne définissent pas « le » quantile, ou fractile, de façon univoque. En effet, si sur un intervalle du domaine de définition, la densité de probabilité est strictement nulle, la fonction de répartition sur cet intervalle est constante, et la valeur réciproque de cette constante n'est donc pas une valeur unique, mais au moins cet intervalle particulier. C'est précisément le cas pour les variables aléatoires discrètes, qui, grâce à l'utilisation de l'outil « distribution » inventé par Laurent Schwartz et l'introduction des masses ponctuelles de probabilité, s'unifient sous un même formalisme avec les variables aléatoires continues. La non-univocité de ces définitions apparaît alors entre chaque masse ponctuelle de probabilité, et toutes ces définitions de quantiles, fractiles, centiles, déciles, quartiles, etc. doivent être complétées pour lever l'indétermination. Le choix usuel consiste à retrancher un epsilon de probabilité aux masses ponctuelles, et à la répartir de façon continue et uniforme entre les masses ponctuelles de probabilité. Dit plus simplement, cela revient à faire une interpolation linéaire bien choisie. Il faut néanmoins remarquer que certains logiciels choisissent, ou ont choisi, d'autres façons de lever cette indétermination, ce qui fait que les résultats de calcul de quantiles peuvent différer d'un programme à l'autre.