Fouille de textes

La fouille de textes ou l'extraction de connaissances dans les textes est une spécialisation de la fouille de données et est membre du domaine de l'intelligence artificielle.



Catégories :

Exploration de données - Statistiques - Collecte de données

Page(s) en rapport avec ce sujet :

  • Domaines d'application et exemples de dispositifs. Fouille du web. Catégorisation des textes et extration d'information. Question-réponse et résumé automatique... (source : eyrolles)
  • Application de méthodes de fouille de textes pour l'annotation fonctionnelles de gènes. 22 mai 2006. UMR_S 729. Ingénierie des connaissances en santé... (source : math-info.univ-paris5)
  • Fouille de Texte (Text Mining) Objectifs, Applications Exemple des CRH Construction du Lexique Vectorisation des Textes Classification des vecteurs Retour... (source : slidefinder)

La fouille de textes ou l'extraction de connaissances dans les textes est une spécialisation de la fouille de données et est membre du domaine de l'intelligence artificielle. Cette technique est fréquemment désignée sous l'anglicisme text mining.

C'est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithmes un modèle simplifié des théories linguistiques dans des dispositifs informatiques d'apprentissage et de statistiques.

Les disciplines impliquées sont par conséquent la linguistique calculatoire, l'ingénierie du langage, l'apprentissage artificiel, les statistiques et évidemment l'informatique.

Mise en œuvre

On peut distinguer deux étapes principales dans les traitements mis en place par la fouille de textes.

La première étape, l'analyse, consiste à reconnaître les mots, les phrases, leurs rôles grammaticaux, leurs relations et leur sens. Cette première étape est commune à l'ensemble des traitements. Une analyse sans interprétation n'a que peu d'intérêt et les deux sont dépendantes. C'est par conséquent le rôle de la seconde étape d'interpréter cette analyse.

La seconde étape, l'interprétation de l'analyse, sert à sélectionner un texte parmi d'autres. Des exemples d'applications sont la classification de courriers en spam, c'est-à-dire les courriers non sollicités, ou non spam, l'application de requêtes dans un moteur de recherche de documents ou le résumé de texte qui sélectionne les phrases représentatives d'un texte ou alors les reformule.

Le critère de sélection peut être d'au moins deux types : la nouveauté et la similarité. Celui de la nouveauté d'une connaissance consiste à découvrir des relations, surtout des implications qui n'étaient pas explicites car indirectes ou entre deux éléments éloignés dans le texte. Celui de la similarité ou contradiction comparé à un autre texte ou encore la réponse à une question spécifique consiste à découvrir des textes qui correspondent le plus à un ensemble de descripteurs dans la requête d'origine. Les descripteurs sont par exemple les noms et verbes les plus habituels d'un texte.

Exemple : indexation de textes

La fouille de texte peut consister en l'indexation d'un ensemble de textes comparé aux mots qu'ils contiennent. On peut ensuite interroger l'index ainsi créé pour connaître les similarités entre une requête et notre liste de textes.

L'algorithme d'indexation se décrit comme suit :

  1. On indexe le texte comparé aux mots qui le composent
  2. On effectue l'index inversé (on indexe les mots contenus comparé aux textes les contenant)
  3. Au moment de traiter une requête, on teste la similarité de cette requête avec notre index inversé
  4. Cela nous retourne les textes identiques avec notre requête, et pour chaque texte, un rang

Les applications sont multiples : d'une simple indexation pour les moteurs de recherche à l'extraction de connaissances dans des documents non structurés.

D'autres techniques, comme la lemmatisation, permettent de perfectionner notre indexation, en perdant néanmoins une partie du sens.

Applications

Recherche d'information

Les moteurs de recherche tels Google, Exalead ou Yahoo! sont des applications particulièrement connues de fouille de textes sur de grandes masses de données. Notons cependant que les moteurs de recherche ne se basent pas seulement sur le texte pour l'indexer, mais également sur la façon dont les pages sont mises en valeurs les unes comparé aux autres. L'algorithme utilisé par Google est PageRank, et il est courant de voir HITS dans le milieu académique[1].

Applications biomédicales

Un exemple d'application biomédicale de fouille de textes est PubGene, qui combine la fouille de textes et la visualization des resultats sous forme de réseaux graphiques[2]. Un autre exemple d'utilisation d'ontologies avec la fouille de textes est GoPubMed. org. [3]

Filtrage des communications

Énormément de gestionnaires de courriers électroniques sont désormais livrés avec un filtre anti-spam. Il existe aussi des logiciels anti-spam qui s'interfacent entre le serveur de courrier et votre gestionnaire de courrier.

Applications de sécurité

Le dispositif mondial d'interception des communications privées et publiques Echelon est un exemple d'utilisation militaire et économique de la fouille de textes.

En 2007, la division de lutte anti-criminelle d'Europol a acquis un dispositif d'analyse pour lutter plus efficacement contre le crime organisé. Ce dispositif intègre parmi les technologies les plus avancées dans le domaine de la fouille et d'analyse de textes. Grâce à ce projet Europol a accompli des progrès particulièrement significatifs dans la poursuite de ces objectifs. [4]

Gestion des connaissances

Les méthodes d'Intelligence économique ont pour objectif général d'apporter des informations à l'organisation.

Analyse du sentiment

Une utilisation spécifique de traitement de l'information non structurée peut déboucher sur une analyse du sentiment. A titre d'exemple, ces documents montrent-ils que mon produit sera bien vu par les utilisateurs ?

Disciplines connexes

La fouille de textes se distingue du traitement automatique du langage naturel par son approche générale, massive, pratique et algorithmique de par sa filiation avec la fouille de données. Son approche est moins linguistique. Qui plus est , la fouille de textes ne s'intéresse pas au langage oral comme le fait la reconnaissance vocale.

La fouille de textes recoupe la recherche d'information pour la partie requête sur un moteur de recherche de documents. Par contre, la recherche d'information s'intéresse a priori plus aux types de requêtes envisageables ainsi qu'aux indexations associées qu'à l'interprétation des textes.

Et pour information, car on s'éloigne alors du domaine de la fouille de textes, l'interprétation de l'analyse peut aussi générer un nouveau texte. Des exemples d'applications sont la correction des fautes d'orthographe, la traduction, le dialogue homme-machine ou l'imitation d'un style d'écriture.

Standards

Plateformes

Notes

  1. Pour une explication du fonctionnement de ces algorithmes et la résolution de certains des pièges que les utilisateurs posent afin d'avoir un meilleur référencement, voir (en) Mining page farms and its application in link spam detection, Bin Zhou, mémoire de Master à l'Université Simon Fraser, mars 2007.
  2. Tor-Kristian Jenssen, Astrid Lægreid, Jan Komorowski1 & Eivind Hovig, «A literature network of human genes for high-throughput analysis of gene expression», dans Nature Genetics, vol.  28, 2001, p.  21–28 [texte intégral lien PMID lien DOI]
    • Summary : Daniel R. Masys, «Linking microarray data to the literature», dans Nature Genetics, vol.  28, 2001, p.  9–10 [lien PMID lien DOI]
  3. GoPubMed transforme un moteur de recherche monotone en un véritable cerveau, publié le 18 décembre 2009
  4. "IALEIA-LEIU Annual Conference in Boston on April 9, 2008"

Voir aussi

Sujets connexes

  • Linguistique calculatoire
  • Apprentissage artificiel
  • DEFT : Défi Francophone de Fouille de Textes

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Fouille_de_textes.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu