Test de Kolmogorov-Smirnov

En statistiques, le test de Kolmogorov-Smirnov est un test d'hypothèse utilisé pour déterminer si un échantillon suit bien une loi donnée connue par sa fonction de répartition continue, ou bien si deux échantillons suivent la même loi.



Catégories :

Test statistique - Statistiques

Page(s) en rapport avec ce sujet :

  • Le test de Kolmogorov-Smirnov est un test d'ajustement à une loi continue, ... sont les statistiques d'ordre de l'échantillon (valeurs de l'échantillon... (source : math-info.univ-paris5)
  • Il est utilisé quand on est en présence de deux échantillons provenant de deux populations pouvant être différentes. Contrairement au test de ... (source : books.google)

En statistiques, le test de Kolmogorov-Smirnov est un test d'hypothèse utilisé pour déterminer si un échantillon suit bien une loi donnée connue par sa fonction de répartition continue, ou bien si deux échantillons suivent la même loi.

Principe

Ce test repose sur les propriétés des Fonction de répartition empirique : si (x_1,\dots,x_n) est un échantillon de n variables aléatoires indépendantes à valeurs réelles, alors la fonction de répartition empirique de cet échantillon est définie par F_n(x)={1 \over n}\sum_{i=1}ˆn \delta_{x_i\leq x} avec \delta_{x_i\leq x} = \left\{\begin{matrix}1 & \mathrm{si}\ x_i\leq x, \\ 0 & \mathrm{sinon}nd{matrix}\right.

La fonction de répartition empirique est un processus qui prend ses valeurs dans l'espace des fonctions croissantes comprises entre 0 et 1. Grâce à ses propriétés, on a la convergence suivante :

<img class=c > 0. Le terme α (c) vaut 0.05 pour c = 1.36. Remarquons que la limite à droite ne dépend pas de F. Cela découle du fait que \sqrt{n}(F_n(x)-F(x)) converge en loi vers un pont brownien changé de temps par l'inverse F − 1 de F. La série α (c) se déduit des propriétés de ce dernier processus.

Il est ainsi facile de proposer un test d'hypothèse pour décider si un échantillon provient bien d'une loi donnée, ou si deux échantillons ont la même loi, quand leurs fonction de répartitions sont continues.

On peut aussi considérer maxx (Fn (x) − F (x) ) et maxx (F (x) − Fn (x) ) .

Le test de Kolmogorov-Smirnov est par exemple utilisé pour tester la qualité d'un générateur de nombres aléatoires[1].

Exemple

On illustre le test en simulant trois variables aléatoires : x et y de loi normale, z de loi uniforme. On applique ensuite le test de même distribution sur les trois paires puis le test de correction à une distribution connue, en utilisant la fonction ks. test () du logiciel libre de statistiques R.

Génération de variables aléatoires x, y et z

x <- rnorm(50) #Simulation de 50 observations d'une loi normale
y <- rnorm(40) #Simulation de 40 observations d'une loi normale
z <- runif(30) #Simulation de 30 observations d'une loi uniforme 

Test de correction de distribution de deux échantillons

Test de x et y

Résultat affiché Code R

Two-sample Kolmogorov-Smirnov test

data : x and y

D = 0.135, p-value = 0.7652

alternative hypothesis : two-sided

ks.test(x, y)

Si l'hypothèse nulle est vraie (c'est-à-dire que les deux échantillons proviennent d'une même loi), alors la probabilité d'observer une statistique D tout autant éloignée de 0 (qui correspondrait à une idéale correction des deux échantillons) ou plus éloignée, vaut 0.7 (les chiffres obtenus en reproduisant l'exemple peuvent fluctuer!).

Test de x et z

Résultat affiché Code R

Two-sample Kolmogorov-Smirnov test

data : x and z

D = 0.48, p-value = 0.0002033

alternative hypothesis : two-sided

ks.test(x, z)

Si l'hypothèse nulle est vraie (c'est-à-dire que les deux échantillons x et z proviennent d'une même loi), alors la probabilité d'observer une statistique D tout autant éloignée de 0 (qui correspondrait à une idéale correction des deux échantillons) ou plus éloignée, est extrêmement petite et vaut moins de 0.1%. Il s'agit par conséquent d'un cas particulièrement improbable (il est particulièrement rare que D soit si grand si l'hypothèse nulle est vraie) qui nous incite à rejeter l'hypothèse de même distribution.

Test d'y et z

Résultat affiché Code R

Two-sample Kolmogorov-Smirnov test

data : y and z

D = 0.55, p-value = 2.889e-05

alternative hypothesis : two-sided

ks.test(y, z)

Si l'hypothèse nulle est vraie (c'est-à-dire que les deux échantillons y et z proviennent d'une même loi), alors la probabilité d'observer une statistique D tout autant éloignée de 0 (qui correspondrait à une idéale correction des deux échantillons) ou plus éloignée, est extrêmement petite et vaut moins de 0.1%. Il s'agit par conséquent d'un cas particulièrement improbable (il est particulièrement rare que D soit si grand si l'hypothèse nulle est vraie) qui nous incite à rejeter l'hypothèse de même distribution.

Test de correction d'un échantillon à une distribution connue

Test si x suit une loi normale

Résultat affiché Code R

One-sample Kolmogorov-Smirnov test

data : x

D = 0.0824, p-value = 0.8586

alternative hypothesis : two-sided

ks.test(x, "pnorm")

La probabilité est ici de 80%, on ne rejette par conséquent pas l'hypothèse (qui est vraie puisque x est généré selon une loi normale) que x suit une loi normale.

Test si x suit une loi uniforme

Résultat affiché Code R

One-sample Kolmogorov-Smirnov test

data : x

D = 0.5501, p-value = 1.033e-14

alternative hypothesis : two-sided

ks.test(x, "punif")

La probabilité est ici de moins de 0.01%, on rejette par conséquent l'hypothèse (qui est fausse puisque x est généré selon une loi normale) que x suit une loi uniforme.

Voir aussi

  • test de Kuiper
  • test de Shapiro-Wilk
  • test d'Anderson-Darling
  • critère de Cramér-von-Mises

Références

  • (en) Galen R. Shorack et Jon A. Wellner, Empirical Processes With Applications to Statistics, John Wiley & Sons Inc, 1986, 976 p. (ISBN 047186725X) .
  • (en) David Williams, Weighing the Odds : a Course in Probability and Statistics, Cambridge University Press, 2001, 548 p. (ISBN 052180356X) .

Notes

  1. (en) Donald E. Knuth, The Art of Computer Programming, vol. 2, 3e éd., Addison-Wesley Professional, 784 p. (ISBN 0201896842) , p. 48–55.

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Test_de_Kolmogorov-Smirnov.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu