Estimation par noyau

En statistique, l'estimation par noyau est une méthode non-paramétrique d'estimation de la densité de probabilité d'une variable aléatoire.



Catégories :

Statistiques

Page(s) en rapport avec ce sujet :

  • Programme ACTEUR : L'estimation du noyau de densité : méthode et outils. CERTU – département urbanisme. Page 5. Programme ACTEUR : L'estimation du noyau de ... (source : lara.inist)
  • L'objectif de notre étude, est de pouvoir observer le résultat d'une estimation de densité avec la méthode du noyau. On regardera l'influence de plusieurs... (source : membres.multimania)
  • Dans ce document, la méthode d'estimation de la densité par la méthode du noyau est décrite dans un premier temps de manière théorique puis appliquée sur les 5 aires... (source : geomatique-aln)
Estimation par la méthode du noyau d'un échantillon de 100 nombres aléatoires distribués selon la loi normale pour différentes valeurs de la fenêtre.

En statistique, l'estimation par noyau (ou encore méthode de Parzen-Rozenblatt) est une méthode non-paramétrique d'estimation de la densité de probabilité d'une variable aléatoire. Elle se base sur un échantillon d'une population statistique et permet d'estimer la densité en tout point du support. En ce sens, cette méthode généralise astucieusement la méthode d'estimation par un histogramme.

Définition

Si x1, x2, ..., xN ∼ ƒ est un échantillon i. i. d. d'une variable aléatoire, alors l'estimateur non-paramétrique par la méthode du noyau de la densité est

\widehat{f}_h(x)=\frac{1}{Nh}\sum_{i=1}ˆN K\left(\frac{x-x_i}{h}\right)

K est un noyau (kernel en anglais) et h un paramètre appelé fenêtre, qui régit le degré de lissage de l'estimation. Fréquemment, K est choisi comme étant la densité d'une Fonction gaussienne standard (espérance nulle et variance unitaire)  :

K(x) = {1 \over \sqrt{2\pi} }\,eˆ{-\frac{1}{2}xˆ2}.

Intuition

L'idée derrière la méthode de Parzen est une généralisation de la méthode d'estimation par histogramme. Dans la seconde méthode, la densité en un point x est estimée par la proportion d'observations x1, x2, ..., xN qui se trouvent à proximité de x. Pour cela, on trace une boîte en x et dont la largeur est gouvernée par un paramètre de lissage h; on compte ensuite le nombre d'observations qui appartiennent à cette boîte. Cette estimation, qui dépend du paramètre de lissage h, présente de bonnes propriétés statistiques mais est par construction non-continue.

La méthode du noyau consiste à récupérer la continuité : pour cela, on remplace la boîte centrée en x et de largeur h par une courbe en cloche centrée en x. Plus une observation est proche du point de support x plus la courbe en cloche lui donnera une valeur numérique importante. A l'inverse, les observations trop éloignées de x se voient affecter une valeur numérique négligeable. L'estimateur est constitué par la somme (ou plutôt la moyenne) des courbes en cloche. Comme indiqué sur l'image suivante, il est clairement continu.

Six courbes en cloche gaussiennes (rouge) et leur somme (bleu). L'estimateur à noyau de la densité f (x) est en fait la moyenne (on divise par le nombre de courbes en cloche, 6). La variance des normales est posée à 0, 5. Notons enfin que plus il y a d'observations dans le voisinage d'un point, plus sa densité est élevée.

Propriétés

On peut montrer que, sous des hypothèses faibles, il n'existe pas d'estimateur non-paramétrique qui converge plus vite que l'estimateur à noyau. Notons que la vitesse de convergence n−4/5 est plus faible que la vitesse typique des méthodes paramétriques, le plus souvent n−1.

L'utilisation pratique de cette méthode requiert deux choses :

Si le choix du noyau est connu comme peu influent sur l'estimateur, il n'en est pas de même pour le paramètre de lissage. Un paramètre trop faible provoque la naissance de détails artificiels apparaissant sur le graphe de l'estimateur. Pour une valeur de h trop grande, la majorité des caractéristiques est au contraire effacée. Le choix de h est par conséquent une question centrale dans l'estimation de la densité.

Une façon répandue d'obtenir une valeur de h est de supposer que l'échantillon est distribué selon une loi paramétrique donné, par exemple selon la loi normale N (μ ; σ²). Alors, on peut prendre

h = 1,06 \widehat{\sigma} nˆ{-1/5}.

Malheureusement, l'estimation gaussienne n'est pas forcément efficace, par exemple quand n est petit.

Une autre façon d'opérer est de chercher à fixer h de manière optimale. Soit la fonction de risque de l'espace L2 pour ƒ. Sous des hypothèses faibles sur ƒ et K,

R(f,\hat f(x)) \approx \frac{1}{4}\sigma_kˆ4hˆ4\int(f''(x))ˆ2\,dx + \frac{\int Kˆ2(x)\,dx}{nh}

\sigma_Kˆ2 = \int xˆ2K(x)\,dx.

La fenêtre optimale est obtenue en minimisant la fonction de risque et vaut :

hˆ* = \frac{c_1ˆ{-2/5}c_2ˆ{1/5}c_3ˆ{-1/5}}{nˆ{1/5}}

c_1 = \int xˆ2K(x)\,dx
c_2 = \int K(x)ˆ2\,dx
c_3 = \int (f''(x))ˆ2\,dx

Le paramètre h est toujours proportionnel à n − 1 / 5 : c'est la constante qu'on doit rechercher. La méthode précédente n'est pas opérante dans le sens où c3 dépend de la densité ƒ elle-même, qui est précisément inconnue.

Il existe dans la littérature différentes méthodes plus particulièrement élaborées; on se reportera avec intérêt à l'article présenté dans la bibliographie.

Implémentations en informatique

Bibliographie

Voir aussi

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Estimation_par_noyau.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu