next up previous contents
Next: Des vecteurs sémantiques à Up: Représentations sémantiques non ordonnées Previous: Représentations sémantiques non ordonnées

Une approche vectorielle pour l'extraction d'information à NTT

Le laboratoire ``Human Interface'' de NTT, situé à Yokasuka, entre Tokyo et Yokohama, a un projet en cours concernant l'extraction automatique du sujet des informations à partir de journaux radiodiffusés en anglais. Il utilise pour ce faire une liste de 70.000 mots décrivant des sujets possibles, cette liste pouvant être considérée comme une base de concepts pour un univers sémantique restreint.

Utilisant des archives d'information, une matrice de distance entre un mot de cette liste et n'importe quel mot anglais fut créée, en comptant les co-occurence entre un mot de la liste apparaissant dans la ``headline'' et les mots apparaissant dans la dépêche. Cette matrice est alors utilisée pour créer des modèles d'information mutuelle ou de tex2html_wrap_inline359 , afin de définir un score entre chacun des 70.000 mots de la liste et n'importe quel mot anglais. Finalement, le score d'un mot de la liste par rapport à une dépêche quelconque est défini comme la somme (normalisée) des scores entre le mot-clé et les mots composant la dépêche.

Il est ensuite possible de montrer les mots-clés ayant les scores les plus importants par rapport à une dépêche donnée, ceux-ci étant censés représenter le sujet de la dépêche. Le modèle peut également être utilisé dans le sens inverse, afin de faire de la recherche de documents correspondant à un mot-clé donné (en recherchant dans la base de données d'articles les dépêches ayant les scores les plus élevés par rapport au mot-clé choisi)

Sous couvert de régression, afin d'estimer la fonction qui à un article associe son sujet, l'approche décrite ici utilise implicitement une représentation de l'espace des sujets, comparable à l'espace des concepts, comme un espace vectoriel à 70.000 dimensions, dans lequel chaque mot anglais a une représentation (ses coordonnées étant ses ``scores''). Des outils de géométrie apparaissent naturellement, comme la définition du vecteur d'une dépêche comme l'équibarycentre (c'est-à-dire la moyenne) des vecteurs correspondant aux mots qui la composent.


next up previous contents
Next: Des vecteurs sémantiques à Up: Représentations sémantiques non ordonnées Previous: Représentations sémantiques non ordonnées

Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998