next up previous contents
Next: Mesure de similarité entre Up: Approches mixtes Previous: Approches mixtes

La classification automatique de documents, à l'université de Tokushima

 

Le laboratoire du professeur Aoe, de l'université de Tokushima (située sur l'île de Shikoku), a développé un système, bientôt commercialisé, de classification automatique de textes en japonais situés dans un répertoire informatique, en fonction de leur contenu. Cet outil utilise une approche en deux étapes:

La recherche des mots-clés d'un texte s'effectue en comptant les fréquences absolues et relatives d'une liste de 40.000 bigrammes (suite de deux caractères japonais), permettant d'extraire ceux qui caractérisent le plus le texte considéré. Cette première étape est donc caractéristique des représentations sémantiques vectorielles non ordonnées.

La seconde phase, par contre, utilise une hiérarchie sémantique préexistante sur les mots-clés, afin de classer les textes eux-mêmes selon une hiérarchie sémantique. Cet phase s'apparente donc aux approches évoquées précédemment, utilisant des représentations sémantiques ordonnées.

La combinaison des deux types d'approches, dans le but ici de classer une base de données textuelles en fonction de critères sémantiques, présente l'intérêt de combiner les avantages calculatoires de la méthode par représentation vectorielle non ordonnée aux avantages sémantiques - notamment pour les relations entre les mots-clés - des approches utilisant des structures de représentation sémantique ordonnée.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998