Initiation à l'échantillonnage et l'estimation/Estimation

Les paramètres de l'échantillon sont supposés connus.

Nous avons affaire à une population très grande que nous ne pouvons pas étudier directement.

On extrait de la population un échantillon que l'on va étudier et on va essayer à partir des renseignements constatés sur l'échantillon d'en déduire des renseignements sur la population.

À moins d'étudier la totalité de la population, les paramètres de celle-ci ne seront jamais connus exactement. On peut toutefois en donner une idée de deux façons différentes.

Première façon: Estimation ponctuelle d'un paramètre.

On essaye de trouver une valeur approchée du paramètre que l'on veut connaître. Cette valeur est appelée une estimation du paramètre.

Deuxième façon: Estimation d'un paramètre par un intervalle de confiance.

Cette méthode est plus rigoureuse. Elle consiste à calculer un intervalle de confiance tel que le paramètre ait une certaine probabilité connue de se trouver.

On dira par exemple après avoir étudié un échantillon que la moyenne de la population a 95 % de chance de se trouver entre les valeurs 37 et 39.

Estimation de la fréquence d'un caractère dans une population.

Soit $f$ la fréquence observée sur un échantillon.

$F$ est la variable aléatoire qui, à tout échantillon extrait de la population, associe la fréquence du caractère sur celui-ci.

Soit $p$ la probabilité inconnue d'apparition d'un caractère sur la population. On sait déjà que $E(F)=p$ . Si $p$ n'est pas connue, $E(F)$ ne sera pas connue. Mais on peut raisonnablement penser que la fréquence observée $f$ n'est pas loin de $E(F)$ donc n'est pas loin non plus de $p$ . On prendra donc $f$ pour estimer $p$ .

Estimation de la fréquence d'un caractère dans une population par un intervalle de confiance.

On sait de la théorie de l'échantillonnage que $E(F)=p$ et $V(F)={\frac {p(1-p)}{n}}$

On a vu aussi que si $n\geqslant 30$ , $F$ peut être raisonnablement approximée par une loi normale. Par conséquent en estimant $p$ par $f$ (car $p$ n'est pas connue), on montre qu'un intervalle de confiance au risque $\alpha$ de la fréquence $p$ est :

$\left[f-t_{\alpha }{\sqrt {\frac {f(1-f)}{n}}};\,f+t_{\alpha }{\sqrt {\frac {f(1-f)}{n}}}\right]$

Avec $t_{\alpha }=1,96$ pour $\alpha =0,05$ .

Avec $t_{\alpha }=2,576$ pour $\alpha =0,01$ .

Pour les autres valeurs de $\alpha$ , on calculera $t_{\alpha }$ en faisant comme si $p$ suivait une loi normale de moyenne $f$ et d'écart type ${\sqrt {\frac {f(1-f)}{n}}}$ .

Exemple.

Juste avant la deuxième tour des élections présidentielles, on effectue un sondage sur un échantillon de $100$ personnes prises au hasard. $54$ personnes déclarent vouloir voter pour Monsieur Time Vincent et $46$ personnes déclarent vouloir voter pour monsieur Hattan Charles.

1° Donner un intervalle de confiance au risque 5% du pourcentage de vote pour Monsieur Time.

2° Peut-on prédire avec de bonnes chances de ne pas se tromper qui va gagner les élections ?

Solution.

1° Cet intervalle est:

\left[0,54-1,96{\sqrt {\frac {0,54(1-0,54)}{100}}};\,0,54+1,96{\sqrt {\frac {0,54(1-0,54)}{100}}}\right]

Soit :

\left[0,442;\,0,638\right]

Il y a 95 % de chance que le score réalisé par Monsieur Time aux élections soit compris entre 44,2 % et 63,8 %.

2° Comme $0,5\in \left[0,442;\,0,638\right]$ on n'a pas suffisamment de certitude pour se risquer à prédire qui va gagner les élections.

Cet article est issu de Wikiversity. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.