Estimateur
En statistique inférentielle, un estimateur est une valeur calculée sur un échantillon et qu'on espère être une bonne évaluation de la valeur qu'on aurait calculée sur la population totale.
Définitions :
- Un membre de notre personnel qui détermine les dommages causés à votre véhicule par suite d'un accident.... (source : cooperatorsassurancegroupe)
En statistique inférentielle, un estimateur est une valeur calculée sur un échantillon et qu'on espère être une bonne évaluation de la valeur qu'on aurait calculée sur la population totale. On cherche à ce qu'un estimateur soit sans biais, convergent, efficace et robuste.
Exemple d'estimateurs
Si on cherche à évaluer la taille moyenne des enfants de 10 ans, on peut effectuer un sondage sur un échantillon de la population des enfants de 10 ans (par exemple en s'adressant à des écoles réparties dans plusieurs milieux différents). La taille moyenne calculée sur cet échantillon, nommée moyenne empirique, sera un estimateur de la taille moyenne des enfants de 10 ans.
Si on cherche à évaluer la surface totale occupée par la jachère dans un pays donné, on peut effectuer un sondage sur plusieurs portions du territoire de même taille, calculer la surface moyenne occupée par la jachère et appliquer une règle de proportionnalité.
Si on cherche à déterminer le pourcentage d'électeurs décidés à voter pour le candidat A, on peut effectuer un sondage sur un échantillon représentatif. Le pourcentage de votes favorables à A dans l'échantillon est un estimateur du pourcentage d'électeurs décidés à voter pour A dans la population totale.
Si on cherche à évaluer la population totale de poissons dans un lac, on peut commencer par ramasser n poissons, les baguer pour pouvoir les identifier ultérieurement, les relâcher, les laisser se mélanger aux autres poissons. On tire alors un échantillon de poissons du lac, on calcule la proportion p de poissons bagués. La valeur n/p est un estimateur de la population totale de poissons dans le lac. S'il n'y a aucun poisson bagué dans l'échantillon, on procède à un autre tirage.
Un estimateur est fréquemment une moyenne, une population totale, une proportion ou une variance.
Définition formelle
Un estimateur du paramètre inconnu θ d'un modèle ou loi de probabilité est une fonction qui fait correspondre à une suite d'observations issues du modèle ou loi de probabilité la valeur , qu'on appelle estimé ou estimation.
Définition —
Qualité d'un estimateur
Un estimateur est une valeur calculée sur un échantillon tiré au hasard, la valeur
est par conséquent une variable aléatoire possédant une espérance
et une variance
. On comprend tandis que la valeur x puisse varier selon l'échantillon. Elle a de très faibles chances de coïncider précisément avec la valeur θ qu'elle est censée représenter. L'objectif est par conséquent de maîtriser l'erreur commise en prenant la valeur x pour la valeur X.
Biais
Une variable aléatoire varie autour de son espérance. On souhaite par conséquent que l'espérance de soit égale à θ, soit qu'en "moyenne" l'estimateur ne se trompe pas.
Définition —
Quand l'espérance de l'estimateur égale θ, i. e. le biais est égal à zéro, l'estimateur est dit sans biais.
L'estimateur choisi auparavant sur la taille moyenne des enfants de 10 ans est un estimateur sans biais mais celui des poissons comporte un biais : le nombre de poissons estimé est en moyenne supérieur au nombre de poissons réels.
Erreur quadratique moyenne
L'erreur quadratique moyenne est l'espérance du carré de l'erreur entre la vraie valeur et sa valeur estimée.
Définition —
Convergence
On souhaite aussi pouvoir, en augmentant la taille de l'échantillon, diminuer l'erreur commise en prenant à la place de θ. Si c'est le cas, on dit que l'estimateur est convergent, c'est-à-dire qu'il converge vers sa vraie valeur. La définition précise en mathématique est la suivante :
Définition — L'estimateur est convergent s'il converge en probabilité vers θ, soit :
ε tend vers 0 lorsque la taille de l'échantillon augmente.
Cette définition est quelquefois écrite de manière inverse :
Définition — L'estimateur est convergent s'il converge en probabilité vers θ, soit :
Définition — L'estimateur est fortement convergent s'il converge presque sûrement vers θ, soit :
Exemple : La moyenne empirique est un estimateur convergent de l'espérance d'une variable aléatoire. La loi des grands nombres dans sa version "faible" assure que la moyenne converge en probabilité vers l'espérance et la loi forte des grands nombres qu'elle converge presque sûrement.
Taux de convergence
Efficacité
La variable aléatoire varie autour de son espérance. Plus la variance est faible, moins les variations sont importantes. On cherche par conséquent à ce que la variance soit la plus faible envisageable. C'est ce qu'on nomme l'efficacité d'un estimateur.
Robustesse
Il arrive que lors d'un sondage, une valeur extrême et rare apparaisse (par exemple un enfant de 10 ans mesurant 1, 80 m). On cherche à ce que ce genre de valeur ne change que de manière particulièrement faible la valeur de l'estimateur. On dit tandis que l'estimateur est robuste.
Exemple : En reprenant l'exemple de l'enfant, la moyenne n'est pas un estimateur robuste car ajouter l'enfant particulièrement grand modifiera énormément la valeur de l'estimateur. La médiane par contre n'est pas modifiée dans un tel cas.
Estimateurs classiques
On se placera dans le cas simple d'un tirage aléatoire de n individus dans une population en comportant N. On s'intéresse au caractère quantitatif Y de moyenne et de variance V (Y). Dans l'échantillon tiré, le caractère quantitatif est y, sa moyenne est
et sa variance est
. Les valeurs
et σ2 fluctuent selon l'échantillon et sont par conséquent des variables aléatoires possédant chacune une espérance, une variance et un écart type.
Estimateur de la moyenne de Y
On prend généralement comme estimateur de la valeur
.
appelée moyenne empirique de Y. On démontre que c'est un estimateur sans biais, c'est-à-dire que
Estimateur de la variance de Y
On pourrait penser que σ2 est un bon estimateur de V (Y). Cependant des calculs (voir écart type) prouvent que cet estimateur est biaisé, l'espérance de σ2 est toujours inférieure à V (Y). On prouve qu'un estimateur sans biais de V (Y) est :
dans le cas de tirage avec remise
dans le cas de tirage sans remise (qui vaut bien σ2 quand n = N).
On peut remarquer que, pour N grand, le calcul avec remise et le calcul sans remise donnent des résultats presque équivalents. (le quotient est alors proche de 1). On prend par conséquent généralement, pour estimateur sans biais de V (Y) la valeur :
appelée variance empirique de Y.
Efficacité, convergence et intervalle de confiance
La manière dont varie autour de son espérance Y dépend de sa variance
. Cette variance se calcule grâce à V (Y).
dans le cas d'un tirage avec remise
dans le cas d'un tirage sans remise
On peut remarquer que, pour N particulièrement grand devant n, les deux valeurs sont particulièrement voisines. Par la suite, on ne s'intéressera par conséquent qu'au cas du tirage avec remise en considérant que N est particulièrement grand.
On s'aperçoit que plus n est grand, plus est petit. Donc, plus la taille de l'échantillon est grande, plus l'estimateur
est efficace.
L'inégalité de Bienaymé-Tchebychev précise que, pour tout réel strictement positif ε,
converge vers 0 lorsque n tend vers l'infini. Il en est de même de
est convergent.
Enfin, il résulte du théorème de la limite centrale que pour n assez grand, la variable aléatoire
suit (approximativement) une loi normale d'espérance Y et de variance
, variance qu'on peut estimer être voisine de
. Pour toute loi normale, dans 95% des cas, la variable aléatoire s'éloigne de son espérance de moins de deux fois son écart type. Dans le cas du sondage, cela veut dire qu'il y a 95% de chance que l'estimateur
s'éloigne de
de moins de
. L'intervalle
est nommé intervalle de confiance à 95%. On peut remarquer que, pour diviser par 10 la longueur de l'intervalle de confiance, ce qui consiste à augmenter la précision de l'estimateur, il faut multiplier par 102 = 100 la taille de l'échantillon.
On parle fréquemment de la précision d'une enquête : c'est le rapport
entre l'écart type et la moyenne de la variable aléatoire
. Si l'enquête est précise à 2% par exemple, c'est que ce rapport est de 2 %. Cela veut dire que l'intervalle de confiance à 95% est de
Influence des techniques de sondages sur les estimateurs
Découper la population en strates homogènes peut diminuer de manière significative la valeur de la variance de l'estimateur et par conséquent le rendre plus efficace.
Utiliser un tirage aléatoire à probabilités inégales, procéder à un sondage en plusieurs étapes ou par grappe change bien entendu les formules calculées auparavant.
Enfin, l'utilisation d'informations auxilaires permet quelquefois d'effectuer une correction sur l'estimateur pour le rapprocher de la valeur réelle.
Construction d'estimateurs
Méthode du maximum de vraisemblance
Article détaillé : Maximum de vraisemblance.Comme son nom l'indique, cette méthode consiste à maximiser une fonction nommée fonction de vraisemblance, contenant le paramètre qu'on souhaite estimer. Elle aura ainsi de fortes chances d'être particulièrement proche de ce paramètre.
Fonction de vraisemblance, au vu d'un n-échantillon (x1, ..., xi, ..., xn) :
L'estimateur obtenu par cette méthode est le plus souvent le meilleur envisageable, mais cela peut être fastidieux et en particulier nécessite de maîtriser des règles mathématiques plus complexes que la méthode des moments (voir ci-dessous).
Méthode des moments
Article détaillé : Méthode des moments (statistiques) .La méthode des moments permet d'estimer des paramètres : pour cela, on pose l'égalité entre moments théoriques et empiriques correspondants puis, en résolvant les équations écrites, on exprime les paramètres selon ces moments.
Estimateurs et loi de probabilité
Le fait de pouvoir estimer une espérance et une variance permet alors d'estimer les paramètres d'une distribution (loi normale, loi de Poisson etc. ).
En probabilité, on cherche quelquefois à valider une loi de probabilité théorique avec une expérience statistique. Dans le cas d'une variable discrète finie, on prend comme estimateur de chaque probabilité pk, la fréquence fk dans l'échantillon. Les valeurs fk étant des variables aléatoires, il est normal que ces estimateurs ne coïncident pas totalement avec les valeurs pk. Pour vérifier si les différences trouvées sont significatives ou non, on effectue des tests de corrections dont le plus connu est le test du χ².
Voir aussi
Bibliographie
- (fr) FAVRE J. P., (2009) Mathématiques de gestion, Digilex, 2009, ISBN : 978-2-940404-01-8
- (fr) DAGNELIE P. (2007) Statistique théorique et appliquée. Tome 1 : Statistique descriptive et base de l'inférence statistique. Paris et Bruxelles, De Bœck et Larcier.
- (fr) DAGNELIE P. (2006) Statistique théorique et appliquée. Tome 2 : Inférence statistique à une ainsi qu'à deux dimensions. Paris et Bruxelles, De Bœck et Larcier.
- (fr) DRŒSBECKE J. -J. (2001) Éléments de statistique. Paris, Ellipses.
- (fr) ESCOFIER B., PAGES J. (1997) Initiation au traitement statistique : Méthodes, méthodologie. PUR, Rennes.
- (fr) FALISSARD B., MONGA (1993) Statistique : concepts et méthodes. Paris, Masson.
- (fr) ROUANET H., BERNARD J. -M., LE ROUX B. (1990) : Statistique en sciences humaines : analyse inductive des données. Paris, Dunod.
- (fr) Gilbert Saporta, Probabilités, Analyse des données et Statistique, 2006 [détail des éditions]
- (fr) VEYSSEYRE R. (2002) Statistique et probabilité pour l'ingénieur. Paris, Dunod.
- (en) LEHMANN, E. L. (1983) "THEORY OF POINT ESTIMATION". John Wiley and Sons, New York.
Sources
- estimateur cours de Bernart Ycart
- Estimation cours de l'INSA de Lyon
- Glossaire sur l'estimation
- Rémy Clairin et Philippe Brion, Manuel de sondages. Application aux pays en développement. Paris, Centre français sur la population et le développement, 1996.
Recherche sur Amazon (livres) : |
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.