Distance de Mahalanobis

En statistique, la distance de Mahalanobis est une mesure de distance introduite par P. C. Mahalanobis en 1936. Elle est basée sur la corrélation entre des variables par lesquelles différents modèles peuvent être identifiés et analysés.



Catégories :

Statistiques

Page(s) en rapport avec ce sujet :

  • La " distance de Mahalanobis" est une métrique (ç. à . d. une définition de ce... la distance de Mahalanobis (D ²) étant utilisée en modélisation de données, ... (source : aiaccess)
  • ... la distance de Mahalanobis est généralisée au cas des variables continues et ... A l'aide des données disponibles au GEVES (Groupement d'Etude et de ... (source : cat.inist)
  • sur l'extrapolation de données administratives partielles..... La distance de Mahalanobis est faible pour les observations qui... (source : unece)

En statistique, la distance de Mahalanobis est une mesure de distance introduite par P. C. Mahalanobis en 1936[1]. Elle est basée sur la corrélation entre des variables par lesquelles différents modèles peuvent être identifiés et analysés. C'est une manière utile de déterminer la similarité entre une série de données connues et inconnues. Elle diffère de la distance euclidienne par le fait qu'elle prend en compte la corrélation de la série de données. Ainsi, à la différence de la distance euclidienne où l'ensemble des composantes des vecteurs sont traitées de la même façon, la distance de Mahalanobis accorde un poids moindre aux composantes les plus bruitées (en supposant que chaque composante soit une variable aléatoire de type gaussien).

La distance de Mahalanobis est fréquemment utilisée pour la détection de données aberrantes dans un jeu de données, ou bien pour déterminer la cohérence de données apportées par un capteur par exemple : cette distance est calculée entre les données reçues et celles prédites par un modèle.

En pratique, la distance de Mahalanobis d'une série de valeurs de moyenne \mu = ( \mu_1, \mu_2, \mu_3, \dots , \mu_p ) et possédant une matrice de covariance Σ pour un vecteur à plusieurs variables x = ( x_1, x_2, x_3, \dots, x_p ) est définie comme suit :

D_M(x) = \sqrt{(x - \mu)ˆT \Sigmaˆ{-1} (x-\mu)}.\,

La distance de Mahalanobis peut aussi être définie comme étant la mesure de dissimilarité entre deux vecteurs aléatoires  \vec{x} et  \vec{y} de même distribution avec une matrice de covariance Σ :

 d(\vec{x},\vec{y})=\sqrt{(\vec{x}-\vec{y})ˆT\Sigmaˆ{-1} (\vec{x}-\vec{y})}.\,

Si la matrice de covariance est la matrice identitaire, cette distance est alors la même que la distance euclidienne. Si la matrice de covariance est diagonale, elle est nommée distance euclidienne normalisée :

 d(\vec{x},\vec{y})=
\sqrt{\sum_{i=1}ˆp  {(x_i - y_i)ˆ2 \over \sigma_iˆ2}}

σi est l'écart type de xi sur la série de données.

Cette distance est fréquemment utilisée en analyse des données. (ex : analyse discriminante)

Références

  1. (en) P C Mahalanobis, «On the generalised distance in statistics», dans Proceedings of the National Institute of Sciences of India, vol.  2, no 1, 1936, p.  49–55 [texte intégral]

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Distance_de_Mahalanobis.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu