Moyenne tronquée
Une moyenne tronquée, ou moyenne réduite, est une mesure statistique de centralité, similaire à la moyenne arithmétique et à la médiane, qui consiste à calculer une moyenne arithmétique en éliminant les valeurs extrêmes.
Histoire
Les statistiques tronquées (en), ont été inventées pour pallier la sensibilité des statistiques aux valeurs aberrantes, ce qu'on appelle la robustesse statistique. Leur avantage sur la médiane et sur la moyenne arithmétique est d'allier la robustesse de la médiane, à la définition "collective" de la moyenne arithmétique, la formule de calcul ressemblant fort à celle de cette moyenne arithmétique, lui conférant un avantage sur la médiane pour laquelle il n'existe pas de formule explicite.
Historiquement, cette technique a eu son heure de gloire dans la première moitié du XXe siècle comme méthode de "correction" des valeurs aberrantes, et avec l'apparition des premiers calculateurs, notamment jusqu'aux travaux plus récents pour mieux cerner la notion de robustesse (Peter Rousseeuw (en), en anglais).
Principe
L'idée de la troncation, opération dont le résultat s'appelle une troncature de l'ensemble des données, est de ne pas tenir compte des valeurs les plus éloignées, considérées alors comme aberrantes, et ainsi, dans le cas de la moyenne dite tronquée, de ne la calculer que sur un sous-ensemble "central" des données. Cette procédure est généralisable à d'autres estimateurs centraux.
En pratique, la troncation ne considère donc de l'ensemble initial des données qu'un sous-ensemble élagué des données situées en deçà d'une limite inférieure et/ou au-delà d'une supérieure (troncature unilatérale) ou les deux (troncature bilatérale). La ou les limites sont le ou les quantiles d'une fraction de troncature choisie. Par exemple, pour une troncature à 5 %, ce qui signifie qu'on ignore 5 % des données « les plus éloignées », on filtre par l'intervalle [x(2,5 %), x(97,5 %)] (où "x(p %)" est le quantile à p%) en bilatéral, ou [x(5 %), +∞[ en unilatéral inférieur, etc., et l'on calcule la moyenne sur les seules données sélectionnées.
La notation classique est , unilatéral ou bilatéral (choix souvent lié au contexte ; par exemple, en chimie analytique, pour des mesures de concentrations d'un produit dont certaines valeurs faibles peuvent être influencées par la limite de détection, choix d'une troncature unilatérale inférieure ; pour des mesures électroniques où un seuil de saturation est anticipé et corrigé par défaut, troncature unilatérale supérieure ; pour le rapport de deux grandeurs extensives proches de leurs limites de détection, afin d'éviter un effet de type distribution de Cauchy, à extrémités "lourdes" - divergence de la dispersion -, troncature bilatérale ; etc.).
La limite de la moyenne tronquée bilatérale quand le taux de troncature tend vers 100 %, est la médiane.
Cette fonction est disponible dans la plupart des logiciels spécialisés de statistique, et dans certains tableurs (par exemple sous Libre Office, Open Office ou Microsoft Excel, sous le nom de "MOYENNE.REDUITE").
Exemples d'utilisation
La notation dans plusieurs sports évalués par un jury (par exemple le patinage artistique ou la gymnastique) utilise une moyenne tronquée: le score le plus élevé et le plus bas obtenus sont ignorés, et une moyenne arithmétique est calculée sur les notes restantes[1].
Le Libor, une série de taux de référence du marché monétaire, est calculé en utilisant une moyenne tronquée: un échantillon de 18 banques indiquent le taux moyen auquel elles prêtent "en blanc" (c’est-à-dire sans que le prêt soit gagé par des titres) à d'autres grandes banques; les quatre réponses les plus faibles et les quatre les plus hautes sont ignorées, et le taux de référence est calculé en faisant la moyenne arithmétique des dix valeurs restantes[2].
Notes et références
- (en) Carl Bialik, « Removing Judges' Bias Is Olympic-Size Challenge », sur The Wall Street Journal, (consulté le ).
- (en) « bbalibor: The Basics » (consulté le )
- Portail des mathématiques