next up previous contents
Next: Représentations sémantiques non ordonnées Up: L'organisation structurée des concepts Previous: Des graphes de co-occurence

Regroupement hiérarchique de mots, à ATR

Partant d'une base de donnée textuelle, constituée d'archives du Wall Street Journal, des chercheurs de l'institut ATR (Advanced Telecommunication Research Institute), près de Kyoto, ont créé une classification automatique des 70.000 mots les plus employés au sein de classes ordonnées hiérarchiquement. Le résultat de cette classification est un arbre binaire, où les 70.000 feuilles terminales représentent chacun des 70.000 mots, et dans lequel chaque n tex2html_wrap347 ud représente une classe de mots (englobant les classes des deux n tex2html_wrap347 uds dérivés).

L'arbre a été construit automatiquement, en partant de 70.000 feuilles isolées, et en regroupant de manière itérative les classes le plus souvent utilisées dans des situations similaires. Chaque n tex2html_wrap347 ud de l'arbre binaire peut ensuite être représenté par une suite de bits, codant par la même des concepts plus ou moins généraux.

Cette construction, de nouveau entièrement automatique, propose ainsi une organisation des concepts sous forme d'arbre binaire; la navigation au sein de cet arbre ouvre de nouvelles possibilités d'études sémantiques.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998