Jackknife

En statistiques, le jackknife couteau suisse) est une méthode de rééchantillonnage qui tire son nom de couteau suisse du fait qu'elle peut être utile à diverses choses : réduction du biais en petit échantillon, construction d'un intervalle...



Catégories :

Statistiques

Page(s) en rapport avec ce sujet :

  • Initialement utiliser comme une méthode de réduction du biais, cette méthode est fréquemment... échantillon aléatoire simple cette formule donne l'estimateur de variance avec remise.... A noter que la variance jackknife est convergente dans ... (source : archimede.mat.ulaval)
  • de la taille n de l'échantillon. 3.2. Estimation du biais. Le biais d'un paramètre peut être.... standard obtenue par jackknife est plus de deux fois... (source : bib.fsagx.ac)
  • La technique de JACKKNIFE est une technique statistique qui est utilisée soit pour diminuer le biais des estimateurs soit pour construire des tests ou inter-... (source : archive.numdam)

En statistiques, le jackknife ( (en) couteau suisse) est une méthode de rééchantillonnage qui tire son nom de couteau suisse du fait qu'elle peut être utile à diverses choses : réduction du biais en petit échantillon, construction d'un intervalle de confiance raisonnable pour toute sorte de statistiques, test statistique. À partir des années 70, cette méthode de rééchantillonnage a été "remplacée" par une méthode plus particulièrement élaborée, le bootstrap.

Exposé général

Le cas de la moyenne empirique

On dispose d'un échantillon X = x_1, x_2, \cdots, x_n, iid selon une loi inconnue F. On souhaite estimer l'espérance, notée θ :

\theta = \int x \, dF(x)

Un estimateur naturel est la moyenne empirique :

\hat\theta = \frac{1}{n} \sum_{i=1}ˆn x_i.

Un moyen de mesurer l'impact d'une observation xj sur l'estimateur \hat\theta est de calculer la moyenne empirique sur l'échantillon X j, à savoir l'échantillon d'origine X privé de sa je observation :

\hat\theta_j = \frac{1}{n-1} \sum_{i \ne j} x_i

On remarque que

x_j = n \hat\theta - (n-1) \hat\theta_j

et en passant à la moyenne que

\hat\theta = n \hat\theta - (n-1) \hat\thetaˆ\ast

\hat\thetaˆ\ast est la moyenne des estimations partielles \hat\theta_j :

\hat\thetaˆ\ast = \frac{1}{n} \sum_j \hat\theta_j.

Ainsi, on a \hat\thetaˆ\ast = \hat\theta ce qui veut dire qu'on a à disposition un nouvel estimateur de l'espérance : il s'agit de son estimation jackknife.

Généralisation

Dans l'exposé précédent, la méthode du jackknife n'apporte rien dans le sens où il est confondu avec l'estimateur naturel. La généralisation montre qu'il en va tout autrement quand on considère un paramètre quelconque \theta = \phi(x_1, \cdots, x_n) à estimer. Une estimation de θ est \hat\theta=\phi_n(x_1, \cdots, x_n) = \phi_n(X).

Comme auparavant, on considère l'estimation de θ sur l'échantillon privé de sa je observation X j :

\hat\theta_j = \phi_{n-1} (X_{-j}),

ce qui sert à poser

\hat\theta_jˆ\ast = n \hat\theta - (n-1) \hat\theta_{j},

comme étant la je pseudo-valeur.

Ces estimations partielles peuvent être vues comme des variables indépendantes et d'espérance θ. On peut alors définir l'estimateur jackknife de θ en prenant la moyenne empirique :

\hat\thetaˆ\ast =  \frac{1}{n} \sum_j \hat\theta_jˆ\ast.

On peut généraliser cette approche en considérant un échantillon amputé non plus d'une seule observations, mais de plusieurs. Le point cléf reste la définition des pseudo valeurs \hat\theta_jˆ\ast et de leur moyenne \hat\thetaˆ\ast.


Réduction du biais

Principe général

Quenouille a montré en 1949 que l'estimateur jackknife sert à diminuer le biais de l'estimation d'origine \hat\theta. Supposons pour cela que E(\hat\theta) = \theta (1 + a nˆ{-1}). Bien sûr, d'autres termes en n − 2, n − 3 peuvent être reconnus. Pour tout j, il en va de même pour l'estimateur partiel \hat\theta_j, à la différence près que n est remplacé par n − 1.

L'élément clef est la transposition de

\hat\theta_jˆ\ast = n \hat\theta - (n-1) \hat\theta_{j}.

en

E(\hat\theta_jˆ\ast) = n E(\hat\theta) - (n-1) E(\hat\theta_{j}),

puis en développant

E(\hat\theta_jˆ\ast) = \theta\left[n\left(1+\frac{a}{n} \right) -(n-1)\left(1+\frac{a}{n-1} \right)\right] = \theta,

ce qui a permis d'ôter le biais du premier ordre. On pourrait itérer pour ôter les biais d'ordre supérieur.

Exemple (estimation sans biais de la variance)

Considérons l'estimateur de la variance :

\hat \sigmaˆ2 = \frac{1}{n} \sum_j (x_j - \bar{x})ˆ2

Il est bien connu que cet estimateur est biaisé. En considérant les pseudo-valeurs, on a :

\hat\thetaˆ\ast_j = \frac{n}{n-1} (x_j - \bar{x}),

puis on en déduit que :

\hat\thetaˆ\ast = \frac{1}{n-1} \sum_j (x_j - \bar{x})ˆ2,

ce qui est l'estimateur non-biaisé de la variance. Nous venons de résorber le biais.

Intervalle de confiance

Un autre utilisation de la méthode jackknife, due à Turkey en 1958, est d'apporter un intervalle de confiance pour l'estimateur \hat\thetaˆ\ast ; la variance de ce dernier est :

\widehat{\sigmaˆ2}(\hat\thetaˆ\ast) = \frac{1}{n} \widehat{\sigmaˆ2}(\hat\thetaˆ\ast_j) = \frac{1}{n(n-1)} \sum_j \left(\hat\thetaˆ\ast_j - \hat\thetaˆ\ast \right)ˆ2

On peut ainsi construire comme intervalle de confiance approximatif au seuil 1 − α :

\hat\thetaˆ\ast \pm t_{\alpha/2; n-1} \sqrt{\widehat{\sigmaˆ2}(\hat\thetaˆ\ast)}

tα / 2;n − 1 est le quantile approprié d'une loi de Student.

Test statistique

Le bootstrap peut aussi servir à tester une hypothèse (H_0) : \; \theta=\theta_0 ; il suffit pour cela de comparer la variable normalisée

Z = \dfrac{\sqrt{n} \left(\hat\thetaˆ\ast - \theta_0 \right)}{\sqrt{\widehat{\sigmaˆ2}(\hat\thetaˆ\ast)}}

à une loi normale standard.

Liens avec le bootstrap

Exemple

Pour n=25 tirages indépendants dans la loi bêta de paramétres (3;7), on considère l'estimateur (biaisé) de la variance :

\hat sˆ2 = \frac{1}{n} \sum_i (x_i - \bar{x})ˆ2
0, 21876 0, 11996 0, 25072 0, 30178 0, 14852
0, 16383 0, 14686 0, 29925 0, 15777 0, 45958
0, 41439 0, 45365 0, 41157 0, 29788 0, 30316
0, 25900 0, 69559 0, 14129 0, 12868 0, 14144
0, 32000 0, 30767 0, 30478 0, 28287 0, 14855

Sur l'échantillon, cet estimateur vaut 0, 017892 pour une vraie valeur de 0, 01909091. L'estimateur par la méthode jackknife vaut quant à lui 0, 01863750 : le biais, même en petit échantillon, a été réduit. On peut construire un intervalle de confiance à 95 % : la variance de l'estimateur est 5, 240744e-05 ce qui donne un intervalle de [0, 003696325;0, 033578679] qui contient la vraie valeur.

Références

Notes

Bibliographie

Voir aussi

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Jackknife.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu