Bootstrap

En Statistiques, les techniques de bootstrap sont des méthodes d'Inférence statistique modernes, datant de la fin des années 70, et requérant des calculs informatiques intensifs.



Catégories :

Statistiques

Page(s) en rapport avec ce sujet :

  • Cf. Bootstrap Methods. => A rapprocher d'autres méthodes de ré- échantillonnage (jackknife, sous- échantillonnage)... (source : babylon)
  • Un certain nombre de méthodes d'estimation ont été développées pour réaliser la totalité des ... A chaque fois qu'un échantillon bootstrap est constitué, ... (source : suristat)
  • La méthode de rééchantillonnage choisie est le bootstrap avec 200 échantillons. L'option "Feuille" est choisie pour que l'affichage des résultats soit... (source : xlstat)

En Statistiques, les techniques de bootstrap sont des méthodes d'Inférence statistique modernes, datant de la fin des années 70, et requérant des calculs informatiques intensifs. L'objectif est de connaître certaines indications sur une statistique : son estimation évidemment, mais également la dispersion (variance, écart-type), des intervalles de confiance ou alors un Test d'hypothèse. Cette méthode est basée sur des simulations, comme les méthodes de Monte Carlo, les méthodes numériques bayésiennes (Échantillonneur de Gibbs   (en) , l'algorithme de Metropolis-Hastings   (en) ), à la différence près que le bootstrap ne nécessite pas d'information supplémentaire que celle disponible dans l'échantillon. Généralement, il est basé sur de «nouveaux échantillons» obtenus par tirage avec remise à partir de l'échantillon d'origine (on parle de rééchantillonnage).
L'aspect autocentré et itératif de la méthode a inspiré sa désignation anglaise : en effet, le bootstrap sert à désigner le fait de «se hisser en tirant sur ses propres lacets ou plus exactement sur ses «bootstraps» qui désignent en anglais les anneaux de cuir ou tissu cousus au rebord des bottes pour y passer les doigts pour les enfiler plus aisément [1]».

Principe général

Soit un échantillon X_1, X_2, \cdots, X_n de n observations, iid selon une loi (inconnue) F. On souhaite estimer la quantité θ = T (F) , comme l'espérance de la loi, sa médiane ou encore sa variance. Dans le premier cas, la fonctionnelle T est

T(F)=\int x dF(x)

et dans le dernier

T(F)=\int (x-\mu)ˆ2 dF(x)

avec μ l'espérance, dont l'expression a été donnée plus haut.

Une estimation classique de θ est \hat\theta = T(\hat F), où \hat F est une estimation de la fonction de répartition F. Il reste par conséquent à obtenir cette estimation \hat F. Deux cas se présentent :

L'étape suivante du bootstrap se base sur des simulations : compte tenu de l'estimation (paramétrique ou non) \hat F, on obtient des tirages issus cette loi qui permettent d'estimer \hat\theta = T(\hat F). On parle d´échantillon bootstrap pour désigner un de ces tirages. Attention, ici un tirage ne concerne pas une observation xi, mais bien un échantillon en entier, composé de n observations indépendantes. La collection des \hat\theta obtenue à partir des échantillons bootstrap se nomme la distribution bootstrap.

Pour le cas paramétrique, la méthode de bootstrap s'apparente aux méthodes simulées comme les méthodes de Monte-Carlo. Dans le cas non-paramétrique, la méthode du bootstrap revient à utiliser un échantillon bootstrap composé d'un rééchantillonnage avec remise de l'échantillon d'origine. La méthode nécessite par conséquent des échantillons simulés ; leur nombre, disons B, doit être assez grand pour assurer la convergence des estimations empiriques de T(\hat F). Il est habituel de considérer un échantillon simulé de même taille que l'échantillon d'origine.

Pour plus de clarté, supposons qu'on veuille estimer l'espérance de la loi, et en particulier sa précision (c'est-à-dire sa variance). Voici comment procéder. On fixe en premier lieu le nombre B d'échantillons. La procédure se déroule comme suit :

Dans cette dernière étape, on a à estimer

vˆ2_b = \frac{1}{B} \sum_{b=1}ˆB  \left[\hat\theta_b -\bar\hat\theta\right]ˆ2,

avec

\bar\hat\theta = \frac{1}{B}\sum_{b=1}ˆB \hat\theta_b

qui forme une alternative à l'estimateur classique

\hat\theta = \frac{1}{B} \sum_i X_i.

Pour le bootstrap non-paramétrique, l'étape de simulation est particulièrement simple : c'est un échantillon bootstrap obtenu tout simplement par rééchantillonnage avec remise de l'échantillon d'origine. A titre d'exemple, pour un échantillon d'origine (1, 2, 5, 4), un échantillon bootstrap sera par exemple (5, 5, 4, 1) ou encore (4, 1, 4, 2) et ainsi de suite.

Intervalle de confiance

Le bootstrap permet aussi de donner une idée de l'intervalle de confiance d'une estimation. Un intervalle de confiance bootstrap, au niveau α, se détermine en identifiant les Quantiles de la distribution bootstrap, en laissant de part et d'autre de la distribution \alpha/2 \times 100 \%. Ainsi, au seuil 5 %, l'intervalle de confiance est simplement délimité par les percentiles 2, 5 % et 97, 5 % de la distribution bootstrap.

Pour obtenir un intervalle de confiance bootstrap, un nombre de simulations B nécessite d'être suffisamment grand ; surtout B \ge 1000.

Cette technique n'est valable que quand la distribution bootstrap est symétrique et centrée sur l'échantillon original. On consultera avec profit les ouvrages cités en bibliographie pour déterminer les techniques — plus ou moins triviales — permettant d'appréhender ce cas.

Régression linéaire

Le bootstrap peut aussi s'appliquer à la détermination de l'intervalle de confiance pour le paramètre β dans le cas de la régression linéaire classique. Ce cas est dénommé Smooth boostrap en anglais.

Dans le modèle de régression linéaire

y = Xβ + ε,

on suppose que la variable dépendante y et les aléas ε sont de dimension n × 1, les explicatives X de dimension n × p et qu'il y a p cœfficients β à déterminer.

Les hypothèses classiques de la régression linéaire permettent de conclure que l'estimateur de β par les moindres carrés ordinaires, \hat\beta = (X' X)ˆ{-1} X'y, est distribué normalement :

\hat\beta \sim N\left(\beta ; \sigmaˆ2 (X'X)ˆ{-1} \right)

Ainsi, pour un j entre 1 et p, on peut construire un intervalle de confiance au seuil de α % pour \hat\beta_j :

\hat\beta_j \pm t_{\alpha/2 ; n-p} \times \sqrt{\widehat{sˆ2} c_{j,j}}.

Dans cette formule, tα / 2;np est le quantile issu de la loi de Student, \widehat{sˆ2} l'estimateur conventionnelle de σ2 et cj, j l'élément (j, j) de la matrice C = (X'X) − 1.

Le bootstrap s'utilise pour apporter une alternative à cet intervalle de confiance. Les aléas ε ne sont pas observables, car leur loi est inconnue. Dans la démarche bootstrap, les aléas sont remplacés par les résidus :

\hat{e} = (\hat{e}_1 , \cdots, \hat{e}_n) = y - \hat y = y - X\hat y.

Le bootstrap se déroule comme suit :

Test bootstrap

Bibliothèque logicielle

Exemple

On utilise 34 des 507 observations concernant les dimensions du corps humains[4]. On extrait le poids (en kilo) et la taille (en mètre), pour calculer l'Indice de masse corporelle, défini comme le ratio du poids et de la taille au carré. Les données sont reproduites ci-dessous.

Les 34 données disponibles
poids taille IMC
65, 60 1, 74 21, 67
71, 80 1, 75 23, 36
80, 70 1, 94 21, 55
72, 60 1, 87 20, 87
78, 80 1, 87 22, 49
74, 80 1, 82 22, 71
62, 00 1, 75 20, 24
81, 60 1, 84 24, 10
76, 60 1, 80 23, 64
83, 60 1, 78 26, 44
74, 60 1, 76 24, 08
76, 40 1, 80 23, 50
63, 20 1, 65 23, 36
60, 90 1, 73 20, 35
74, 80 1, 84 22, 21
59, 50 1, 70 20, 59
67, 20 1, 82 20, 29
61, 30 1, 70 21, 21
68, 60 1, 78 21, 70
55, 20 1, 64 20, 50
57, 00 1, 63 21, 45
66, 10 1, 72 22, 40
72, 00 1, 82 21, 74
64, 60 1, 67 23, 16
74, 80 1, 78 23, 66
70, 00 1, 65 25, 87
68, 40 1, 77 21, 96
65, 90 1, 69 22, 96
75, 70 1, 82 22, 83
73, 20 1, 77 23, 29
53, 90 1, 67 19, 23
72, 00 1, 78 22, 70
55, 50 1, 69 19, 46
58, 40 1, 57 23, 63

On s'intéresse à l'espérance μ de l'IMC, et en particulier à sa variance. L'estimateur naturel est la moyenne empirique :

\hat\mu = \frac{1}{n} \sum_{i=1}ˆn x_i

et l'estimateur de sa variance, noté \hat\sigma(\hat\mu), est connu explicitement : c'est l'estimateur de la variance de la population, divisé par n, c'est-à-dire :

\hat\sigma(\hat\mu) = \frac{\hat\sigmaˆ2_{P}}{n} = \frac{1}{nˆ2} \sum_{i=1}ˆn (x_i - \hat\mu)ˆ2

Les estimations empiriques sont \hat\mu = 22,32941 et \hat\sigmaˆ2(\hat\mu)=0,079882.

On peut comparer aux résultats obtenus grâce aux techniques bootstrap. On utilise B = 1000 échantillons bootstrap, de dimension n = 34. On rappelle la procédure à suivre :

Ces calculs sont les suivants :

\hat\mu_\ast = \frac{1}{B} \sum_{b=1}ˆB \mu_b

et

\hat\sigmaˆ2(\hat\mu)_\ast = \frac{1}{B} \sum_{b=1}ˆB (\mu_b - \hat\mu_\ast )ˆ2

La distribution bootstrap (c'est-à-dire la distribution des moyennes empiriques obtenues à partir des 1000 échantillons bootstrap) est représentée dans la figure ci-contre. La moyenne empirique est \hat\mu_\ast =22,33521 et la variance empirique est de \hat\sigmaˆ2(\hat\mu)_\ast =0,079582, valeurs particulièrement proches des estimations non bootstrap. Qui plus, la distribution bootstrap semble normale, comme en témoigne le qq-plot. On pourrait alors construire un intervalle de confiance bootstrap, malgré la taille particulièrement modeste pour la taille de l'échantillon.

Notes et références

Références

  1. (en) to pull oneself up by one's own bootstrap. Cela fait référence aux aventures du baron de Münchhausen qui est censé s'être sorti d'un marécage où il était embourbé rien qu'en se tirant par les bottes et se propulsant ainsi dans les airs. D'une façon plus générale, les bootstraps sont les anneaux, en cuir ou en tissu, cousus sur le rebord des bottes et dans lesquels on passe les doigts pour s'aider à les enfiler. Le nom alternatif (et peu usité en pratique) méthode de Cyrano fait référence au même épisode, mais repris par Edmond Rostand dans son Cyrano de Bergerac (acte III, scène 13, vers 1664 ­— 1669)
  2. On n'a pas pris la peine de faire figurer l'index b dans l'échantillon afin d'alléger les notations
  3. Les ouvrages cités en référence sont cités dans la bibliographie
  4. (en) «Exploring Relationships in Body Dimensions», dans Journal of Statistics Education, vol.  11, no 2, 2003 [texte intégral (page consultée le 29 avril 2009) ]

Bibliographie

Voir aussi

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Bootstrap_(statistiques).
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu