Analyse sémantique latente probabiliste

L'analyse sémantique latente probabiliste ou PLSA — aussi nommée indexation sémantique latente probabiliste ou PLSI, est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente.



Catégories :

Statistiques - Intelligence artificielle - Apprentissage automatique

Page(s) en rapport avec ce sujet :

  • Résumé : Dans cet article, nous proposons une extension du modèle sémantique latent probabiliste (PLSA) pour la tâche de partitionnement de documents (clus-... (source : www-connex.lip6)

L'analyse sémantique latente probabiliste ou PLSA (de l'anglais : Probabilistic latent semantic analysis) — aussi nommée indexation sémantique latente probabiliste ou PLSI, est une méthode de traitement automatique des langues inspirée de l'analyse sémantique latente.

Elle perfectionne cette dernière en incluant un modèle statistique spécifique. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.

Elle fut introduite en 1999 par Thomas Hofmann [1], [2], et possède des liens avec la factorisation de matrices positives.

Comparée à l'analyse sémantique latente simple, qui découle de l'algèbre linéaire pour diminuer les matrices des occurrences (au moyen d'une décomposition en valeurs singulières), l'approche probabiliste emploie un mélange de décompositions issues de l'analyse des classes latentes. On obtient ainsi une approche plus souple, fondée sur les statistiques.

Il a été montré que l'analyse sémantique latente probabiliste souffre quelquefois de surapprentissage[3], le nombre de paramètres croissant linéairement avec celui des documents. Quoique PLSA soit un modèle génératif des documents de la collection, elle modélise effectivement directement la densité jointe P (mot, document) , elle ne permet pas de générer de nouveaux documents, et en ce sens n'est pas un «vrai» modèle génératif [4]. Cette limitation est levée par l'Allocation de Dirichlet latente (LDA).

Évolutions de la PLSA

Voir aussi

Références et notes

  1. (en) Thomas Hofmann, «Probabilistic Latent Semantic Indexing», Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. (en) Thomas Hofmann, «Learning the Similarity of Documents : an information-geometric approach to document retrieval and categorization», Advances in Neural Information Processing Systems 12, pp-914-920, MIT Press, 2000
  3. David M. Blei, Andrew Y. Ng et Michæl I. Jordan, «Latent Dirichlet Allocation», dans Journal of Machine Learning Research, vol.  3, 2003, p.  993-1022 [texte intégral]
  4. (en) Test Data Likelihood for PLSA Models, Thorsten Brants, 2005
  5. (en) Alexei Vinokourov et Mark Girolami, «A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections», in Information Processing and Management, 2002
  6. (en) Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, «A Hierarchical Model for Clustering and Categorising Documents», in "Advances in Information Retrieval -- Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02) ", 2002

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Analyse_s%C3%A9mantique_latente_probabiliste.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu