next up previous contents
Next: Classification de documents Up: Recherche et extraction d'information Previous: Extraction d'information utilisant des

Utilisation de la base de concept à NTT

Dans le Communication Science Laboratory de NTT, un projet de recherche d'information est en cours, en collaboration avec l'université de Stanford et le Stanford Japan Center. Ce système est basé sur la base de concept (voir gif) qui permet de mesurer la similarité entre deux mots, et de regrouper les textes selon leur contenu.

La base de concept, qui donne des informations sur le sens des mots, contient environ 20.000 concepts. Elle permet de représenter un ensemble de mots (par exemple une requête) par un vecteur dans l'espace des concepts à 20.000 dimensions. La similarité entre deux mots est définie comme le produit scalaire des vecteurs les représentant dans l'espace des concepts, et le vecteur d'un ensemble de mots est défini comme la moyenne entre les vecteurs des différents mots. Inversement, les mots caractéristiques d'un vecteur sont définis comme ceux dont la représentation vectorielle est proche (au sens de la norme euclidienne) du vecteur considéré.

Ces définitions permettent par exemple d'étendre une requête en ajoutant les mots caractéristiques de sa représentation vectorielle. D'autre part, les articles ayant des représentations vectorielles proches peuvent être regroupés, et les mots caractéristiques peuvent en être extraits. Cette méthode permet en particulier de retrouver des textes ne contenant pas explicitement les termes de la requête initiale, mais conceptuellement proches.

Alors que seule une version japonaise était disponible lors de la visite au laboratoire de NTT, une version anglaise a été développée à l'université de Stanford.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998