Analyse discriminante linéaire

L'analyse discriminante linéaire fait partie des techniques d'analyse discriminante prédictive. Il s'agit d'expliquer et de prédire l'appartenance d'un individu à une classe prédéfinie à partir de ses caractéristiques mesurées avec variables prédictives.



Catégories :

Analyse des données - Statistiques - Algorithme de classification

Page(s) en rapport avec ce sujet :

  • ... l'analyse discriminante linéaire est ramenée au cas de l'analyse de ... Puisque les variables ne sont pas indépendantes cette analyse doit suivre la... (source : wwwabi.snv.jussieu)
  • Le principe de l'analyse discriminante linéaire est de former des combinaisons linéaires des variables explicatives permettant d'affecter les individus à ... (source : modulad)
  • A ce sujet, rappelons que l'analyse discriminante linéaire est adaptée aux cas... Si l'appartenance aux groupes est indiquée par une variable alphabétique, ... (source : fsagx.ac)

L'analyse discriminante linéaire fait partie des techniques d'analyse discriminante prédictive. Il s'agit d'expliquer et de prédire l'appartenance d'un individu à une classe (groupe) prédéfinie à partir de ses caractéristiques mesurées avec variables prédictives.

Dans l'exemple de l'article Analyse discriminante, le fichier Flea Beetles, l'objectif est de déterminer l'appartenance de puces à telle ou telle espèce à partir de la largeur et de l'angle de son ædeagus.

La variable à prédire est nécessairement catégorielle (discrète), elle possède 3 modalités dans notre exemple. Les variables prédictives sont a priori toutes continues. Il est néanmoins envisageable de traiter les variables prédictives discrètes moyennant une préparation correcte des données.

L'analyse discriminante linéaire peut être comparée aux méthodes supervisées développées en apprentissage automatique ainsi qu'à la régression logistique développée en statistique.

Hypothèses et Formules

Nous disposons d'un échantillon de n\, observations réparties dans K\, groupes d'effectifs n_k\,.

Notons Y\, la variable à prédire, elle prend ses valeurs dans \{y_1,...,y_K\}\,. Nous disposons de J\, variables prédictives X = (X_1,...,X_J)\,.

Nous notons \mu_k\, les centres de gravité des nuages de points conditionnels, W_k\, leurs matrice de variance-covariance.

La règle bayesienne

L'objectif est de produire une règle d'affectation F : X \Rightarrow \{y_1,...,y_K\} qui sert à prédire, pour une observation ω donnée, sa valeur associée de Y à partir des valeurs prises par X.

La règle bayesienne consiste à produire une estimation de la probabilité a posteriori d'affectation

P(Y=y_k/X) = \frac{P(Y=y_k) \times P(X/Y=y_k)}{\sum_{k=1}ˆK P(Y=y_k) \times P(X/Y=y_k)}

P(Y=y_k)\, est la probabilité a priori d'appartenance à une classe. P(X/Y=y_k)\, représente la fonction de densité des X conditionnellement à la classe y_k\,.


La règle d'affectation pour un individu ω à classer devient alors

Y(\omega)=y_kˆ* si et uniquement si y_kˆ* = arg\; max_{k}\ P[Y(\omega)=y_k/X(\omega)]


Toute la problématique de l'analyse discriminante revient alors à proposer une estimation de la quantité P(X/Y = y_k)\,

L'analyse discriminante paramétrique - L'hypothèse de multinormalité

On peut distinguer essentiellement deux approches pour estimer correctement la distribution P(X/Y=y_k)\, :




Dans le cas de la loi normale multidimensionnelle, la distribution des nuages de points conditionnels s'écrit


f_k(x)=\frac{1}{(2\pi)ˆ{j/2} \times |W_k|ˆ{1/2}} \times eˆ{-\frac{1}{2}(X-\mu_k)'W_kˆ{-1}(X-\mu_k)}

|W_k|\, représente le déterminant de la matrice de variance co-variance conditionnellement à y_k\,

L'objectif étant de déterminer le maximum de la probabilité a posteriori d'affectation, nous pouvons négliger tout ce qui ne dépend pas de k. En passant au logarithme, nous obtenons le score discriminant qui est proportionnel à P(Y=y_k/X)\,


D[Y=y_k,X] = 2 \times Ln[P(Y=y_k)] - Ln |W_k| - (X-\mu_k)'W_kˆ{-1}(X-\mu_k)


La règle d'affectation devient donc

Y(w)=y_k*\, ssi y_kˆ* = arg\, max_k\, D[Y(w) = y_k,X(w)]


Si on développe totalement le score discriminant, nous constatons qu'il s'exprime selon le carré et du produit croisé entre les variables prédictives. On parle alors d'analyse discriminante quadratique. Particulièrement utilisée en recherche car elle se comporte particulièrement bien, en termes de performances, comparé aux autres méthodes, elle est moins courante auprès des praticiens. En effet, l'expression du score discriminant étant assez complexe, il est complexe de discerner clairement le sens de la causalité entre les variables prédictives et la classe d'appartenance. Il est surtout mal aisé de distinguer les variables réellement déterminantes dans le classement, l'interprétation des résultats est assez périlleuse.

L'analyse discriminante linéaire – L'hypothèse d'homoscédasticité

Une seconde hypothèse sert à simplifier toujours les calculs, c'est l'hypothèse d'homoscédasticité  : les matrices de variances co-variances sont semblables d'un groupe à l'autre. Géométriquement, cela veut dire que les nuages de points ont la même forme (et volume) dans l'espace de représentation.

La matrice de variance co-variance estimée est dans ce cas la matrice de variance co-variance intra-classes calculée avec l'expression suivante

W = \frac{1}{n-K} \sum_k n_k \times W_k


De nouveau, nous pouvons évacuer du score discriminant tout ce qui ne dépend plus de k, il devient

D[Y=y_k,X] = 2 \times Ln[P(Y=y_k)] - (X-\mu_k)'Wˆ{-1}(X-\mu_k)

Fonction de classement linéaire

En développant l'expression du score discriminant après introduction de l'hypothèse d'homoscédasticité, on constate qu'elle s'exprime linéairement comparé aux variables prédictives.

Nous disposons par conséquent d'autant de fonctions de classement que de modalités de la variable à prédire, ce sont des combinaisons linéaires de la forme suivante :


D(y_1,X) = a_0 + a_1 \times X_1 + ... + a_J \times X_J

D(y_2,X) = b_0 + b_1 \times X_1 + ... + b_J \times X_J

...\,


Cette présentation est séduisante à plus d'un titre. Il est envisageable, en étudiant la valeur et le signe des cœfficients, de déterminer le sens des causalités dans le classement. De même, il devient envisageable, comme nous le verrons plus loin, d'évaluer le rôle significatif des variables dans la prédiction.

Robustesse

Les hypothèses de multinormalité et d'homoscédasticité peuvent sembler trop contraignantes, restreignant la portée de l'analyse discriminante linéaire dans la pratique.

La notion clé qu'il faut retenir en statistique est la notion de robustesse. Même si les hypothèses de départ ne sont pas trop respectées, une méthode peut quand même s'appliquer. C'est le cas de l'analyse discriminante linéaire. Principal est de le considérer comme un séparateur linéaire. Dans ce cas, si les nuages de points sont séparables linéairement dans l'espace de représentation, elle peut fonctionner correctement.

Comparé aux autres techniques linéaires telles que la régression logistique, l'analyse discriminante présente des performances identiques. Elle peut être lésée néanmoins quand l'hypothèse d'homoscédasticité est particulièrement fortement violée.

Évaluation

Taux d'erreur

De manière classique en apprentissage supervisé, pour évaluer les performances d'une fonction de classement, nous confrontons ses prédictions avec les vraies valeurs de la variable à prédire sur un fichier de données. Le tableau croisé qui en résulte se nomme une matrice de confusion avec : en ligne les vraies classes d'appartenance, en colonne les classes d'appartenance prédites. Le taux d'erreur ou taux de mauvais classement est tout simplement le nombre de mauvais classement, quand la prédiction ne coïncide par avec la vraie valeur, rapporté à l'effectif du fichier de données.

Le taux d'erreur a de séduisant qu'il est d'interprétation aisée, c'est un estimateur de la probabilité de se tromper si on applique la fonction de classement dans la population.

Attention cependant, le taux d'erreur mesuré sur les données qui ont servi à construire la fonction de classement, on parle alors de taux d'erreur en resubstitution, est biaisé. Tout simplement parce que les données sont juges et parties dans ce schéma. La bonne procédure serait de construire la fonction de classement sur une fraction des données, dites d'apprentissage ; puis de l'évaluer sur une autre fraction de données, dite de test . Le taux d'erreur en test ainsi mesuré est un indicateur digne de foi.

La pratique veut que la répartition des données en apprentissage et test soit de 2/3 – 1/3. Mais en réalité, il n'y a pas de règle véritable. Principal est de concilier deux exigences contradictoires : en avoir suffisamment en test pour obtenir une estimation stable de l'erreur, tout en réservant suffisamment en apprentissage pour ne pas pénaliser la méthode d'apprentissage.

Quand les effectifs sont faibles, et que le partage apprentissage-test des données n'est pas envisageable, il existe des méthodes de ré-échantillonnage telles que la validation croisée ou le bootstrap pour évaluer l'erreur de classement.

Séparabilité - Evaluation globale

Le taux d'erreur permet d'évaluer et de comparer des méthodes, quelles que soient leurs hypothèses sous-jacentes. Dans le cas de l'analyse discriminante linéaire, nous pouvons exploiter le modèle probabiliste pour réaliser des tests d'hypothèses.

Un premier test sert à répondre à la question suivante : est-il envisageable de discerner les nuages de points dans l'espace de représentation. Rapporté dans le cadre multinormal, cela revient à vérifier si les centres de gravité conditionnels sont confondus (hypothèse nulle) ou si un au moins de ces centres de gravité s'écarte significativement des autres (hypothèse alternative).

La statistique du test est le \lambda\, de Wilks, son expression est la suivante

\lambda = \frac{|W|}{|V|}\,

|W|\, représente le déterminant de la matrice de variance co-variance intra-classes, |V|\, le déterminant de la matrice de variance co-variance globale.

La table des valeurs critiques de la loi de Wilks étant rarement disponible dans les logiciels, on utilise fréquemment les transformations de Bartlett et de Rao qui suivent respectivement une loi du KHI-2 et de Fisher.


Avec un prisme différent, nous constatons que ce test peut s'exprimer comme une généralisation multidimensionnelle de l'analyse de variance à un facteur (ANOVA), on parle dans ce cas de MANOVA (Multidimensional Analysis of Variance).

Evaluation individuelle des variables prédictives

Comme dans l'ensemble des méthodes linéaires, il est envisageable d'évaluer individuellement chaque variable prédictive, et peut-être d'éliminer celles qui ne sont pas significatives dans la discrimination.

La statistique du test s'appuie sur la variation du Lambda de Wilks lors de l'adjonction de la (J+1) -ième variable dans le modèle de prédiction. Sa formule est la suivante

 F = \frac{n-K-J}{K-1} \times (\frac{\lambda_J}{\lambda_{J+1}}-1)\,

Elle suit une loi de Fisher à (K-1, n-K-J)\, degrés de liberté.

Un exemple

Lecture des résultats

Une analyse discriminante linéaire a été lancée sur les Flea Beetles décrites dans l'article analyse discriminante. Les résultats sont les suivants.


Flea beetles resultats adl.jpg


Déploiement

Pour classer une nouvelle observation avec les coordonnées (Width = 150 et Angle = 15), nous appliquons les fonctions de la manière suivante.

Sur la base de ces calculs, nous affectons à cette observation la classe "Concinna".

Références


Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Analyse_discriminante_lin%C3%A9aire.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu