Similarité cosinus

La similarité cosinus sert à calculer la similarité entre deux vecteurs à n dimensions en déterminant l'angle entre eux.



Catégories :

Traitement automatique du langage naturel - Analyse des données - Statistiques

Page(s) en rapport avec ce sujet :

  • Subsections. Tableau de comparaison de deux documents · Similarité entre documents avec lexique spécifique · Indice de Jaccard · Mesure cosinus... (source : limsi)
  • par l'utilisation de la mesure de similarité du cosinus qui est indépendante de la norme. 2.3. Représentation des documents dans le cadre du modèle DSIR... (source : cavi.univ-paris3)
  • reconnus et transformés lors de la lemmatisation, les empêchant d'être pris en compte par notre programme. Lemmatisation non oui. Similarité (cosinus)... (source : lirmm)

La similarité cosinus (ou mesure cosinus) sert à calculer la similarité entre deux vecteurs à n dimensions en déterminant l'angle entre eux. Cette métrique est souvent utilisée en fouille de textes.

Soit deux vecteurs A et B, l'angle θ s'obtient par le produit scalaire et la norme des vecteurs :

 \theta = \arccos \frac{A \cdot B}{\|A\|\cdot\|B\|}.

Comme l'angle θ est compris dans l'intervalle [0, π], la valeur π indiquera des vecteurs fermement opposés, π / 2 des vecteurs indépendants (orthogonaux) et 0 des vecteurs colinéaires. Les valeurs intermédiaires permettent d'évaluer le degré de similarité.

Dans le cas d'une comparaison de documents textuels

La similarité cosinus est souvent utilisée comme mesure de ressemblance entre deux documents. Il pourra s'agir de comparer les textes issus d'un corpus dans une optique de classification (regrouper l'ensemble des documents relatifs à une thématique spécifique), ou de recherche d'information (dans ce cas, un document vectorisé est constitué par les mots de la requête et est comparé par mesure de cosinus de l'angle avec des vecteurs correspondants à l'ensemble des documents présents dans le corpus. On évalue ainsi lesquels sont les plus proches).

La mesure d'angle entre deux vecteurs ne pouvant être réalisée qu'avec des valeurs numériques, il faut imaginer un moyen de convertir les mots d'un document en nombres. On partira d'un index correspondant aux mots présents dans le documents puis on attribuera à ces mots des valeurs. La forme la plus simple pourrait être de compter le nombre d'occurrences des mots dans les documents.

En règle générale, pour mesurer finement la similarité entre des séquences de texte, les vecteurs sont construit selon un calcul de type TF-IDF (term frequency–inverse document frequency) qui permet d'estimer l'importance d'un mot comparé au document qui le contient, en tenant compte du poids de ce mot dans le corpus complet.

Indice de Tanimoto

L'indice de Tanimoto reprend cette idée dans le cas des attributs binaires. Il se définit comme suit :

 T(A,B) = \frac{A \cdot B}{\|A\|ˆ2 +\|B\|ˆ2 - A \cdot B}.

Voir aussi

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 07/04/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu