Modèle de mélanges gaussiens

Dans les modèles de mélanges, souvent utilisées en classification automatique, on considère qu'un échantillon de données suit, non pas une loi de probabilité usuelle, mais une loi dont la fonction de densité est une densité mélange.



Catégories :

Optimisation - Algorithmique - Loi de probabilité - Statistiques - Apprentissage automatique

Page(s) en rapport avec ce sujet :

  • sans référence, généralement, à des modèles probabilistes.... par des variables quantitatives, pour le modèle de mélanges gaussiens, et la signification... Pk est la probabilité qu'un point de l'échantillon suive la loi de densité f (.... (source : hal.archives-ouvertes)

Dans les modèles de mélanges, souvent utilisées en classification automatique, on considère qu'un échantillon de données suit, non pas une loi de probabilité usuelle, mais une loi dont la fonction de densité est une densité mélange.

Bien que n'importe quelle loi puisse être utilisée, la plus courante est la loi normale dont la fonction de densité est une gaussienne. On parle alors de mélange gaussien.

Utilisation en classification automatique

Le problème classique de la classification automatique est de considérer qu'un échantillon de données provienne d'un nombre de groupes inconnus a priori qu'il faut retrouver. Quand on part du postulat que ces groupes suivent une loi de probabilité (quelconque), alors on se place obligatoirement dans le cadre des modèles de mélanges. Si en plus, on considère que les lois que suivent les individus sont normales, alors on se place dans le cadre des modèles de mélanges gaussiens.

Par la suite, on notera \mathbf{x}\, un échantillon composé de n individus \left(\boldsymbol{x}_1,\dots,\boldsymbol{x}_n\right) appartenant à \mathbb{R}ˆp (i. e. caractérisés par p variables continues). Dans le cadre des modèles de mélanges, on considère que ces individus appartiennent chacun à un des g (g étant fixé a priori) G_1,\dots,G_g suivant chacun une loi normale de moyenne \boldsymbol{\mu}_k\, \left(k=1,\dots,g\right) et de matrice de variance-covariance \boldsymbol{\Sigma}_k\,. D'autre part, en notant \pi_1,\dots,\pi_g les proportions des différents groupes, \boldsymbol{\theta}_k=\left(\boldsymbol{\mu_k},\boldsymbol{\Sigma_k}\right) le paramètre de chaque loi normale et \boldsymbol{\Phi}=\left(\pi_1,\dots,\pi_g,\boldsymbol{\theta}_1,\dots,\boldsymbol{\theta}_g\right) le paramètre global du mélange, la loi mélange que suit l'échantillon peut s'écrire

g(\boldsymbol{x},\boldsymbol{\Phi})=\sum_{k=1}ˆg\pi_kf(\boldsymbol{x},\boldsymbol{\theta}_k),

avec f(\boldsymbol{x},\boldsymbol{\theta}_k)\, la loi normale multidimensionnelle paramétrée par \boldsymbol{\theta}_k\,.

La principale difficulté de cette approche consiste à déterminer le meilleur paramètre \boldsymbol{\Phi}. Pour cela, on cherche généralement le paramètre qui maximise la vraisemblance, donnée dans ce cas, par

L\left(\mathbf{x};\boldsymbol{\Phi}\right)=\sum_{i=1}ˆn\log\left(\sum_{k=1}ˆg\pi_kf(\boldsymbol{x}_i,\boldsymbol{\theta}_k)\right).

Bien que ce problème puisse sembler spécifiquement ardu, l'algorithme EM sert à lever cette difficulté.

Une fois l'estimation effectuée, il s'agit d'attribuer à chaque individu la classe à laquelle il appartient le plus certainement. Pour cela, on utilise la règle d'inversion de Bayes. Selon celle-ci, on a

P\left(\boldsymbol{x}\in G_k\right)=\frac{P\left(\boldsymbol{x}|\boldsymbol{x}\in G_k\right).P\left(\boldsymbol{x}\in G_k\right)}{P(x)},

ce qui se traduit, dans notre cas, par

P\left(\boldsymbol{x}_i\in G_k\right)=\frac{\pi_kf\left(\boldsymbol{x}_i,\boldsymbol{\theta}_k\right)}{\sum_{\ell=1}ˆg\pi_\ell f\left(\boldsymbol{x}_i,\boldsymbol{\theta}_\ell\right)}.

Il suffit alors d'attribuer chaque individu \boldsymbol{x}_i à la classe pour laquelle la probabilité a posteriori P\left(\boldsymbol{x}_i\in G_k\right) est la plus grande.

Modèles parcimonieux

Un problème qu'on peut rencontrer lors de la mise en œuvre des modèles de mélange concerne la taille du vecteur de paramètres à estimer. Dans le cas d'un mélange gaussien de g composantes de dimension p le paramètre est de dimension k (1 + p + p2) − 1. La quantité de données indispensable à une estimation fiable peut alors être trop importante comparé au coût de leur recueil.

Une solution fréquemment employée est de déterminer quelles sont , parmi l'ensemble des variables disponibles, celles qui apporteront le plus d'information à l'analyse et d'éliminer les variables ne présentant que peu d'intérêt. Cette technique, particulièrement employée dans des problèmes de discrimination l'est moins dans les problèmes de classification.

Une méthode alternative consiste à considérer des modèles dits parcimonieux dans lesquels on contraint le modèle d'origine de façon à n'estimer qu'un nombre plus restreint de paramètres. Dans le cas gaussien, la paramétrisation synthétique des lois de probabilités grâce à deux ensembles \boldsymbol{\mu}_k et \boldsymbol{\Sigma}_k de paramètres permet des ajouts de contraintes assez simples. Le plus fréquemment, ces contraintes ont une signification géométrique en termes de volumes, d'orientation et de forme.

En notant Bk la matrice des valeurs propres de \boldsymbol{\Sigma}_k et Dk la matrice de ses vecteurs propres, on peut noter

\boldsymbol{\Sigma}_k=D_kB_kD_kˆ{-1}.

D'autre part, Bk peut aussi être décomposée en Bk = λkAkλk est un réel et Ak une matrice dont le déterminant vaut 1. En utilisant ces notations, on considère généralement que λk représente le volume de la classe, la matrice Ak représente sa forme et Dk son orientation.

Il est alors envisageable d'ajouter des hypothèses sur formes, des volumes ou les orientations des classes :

Liens externes

Voir aussi

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Mod%C3%A8le_de_m%C3%A9langes_gaussiens.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu