next up previous contents
Next: Applications Up: Approches mixtes Previous: La classification automatique de

Mesure de similarité entre mots au laboratoire CS de NTT

 

Le laboratoire CS (Communication Science Laboratory) de NTT, situé près de l'ancienne capitale impériale Nara, a développé une hiérarchie d'environ 3.000 concepts sémantiques reliés par des relations ``has-a'' et ``is-a''. Si elle apparaît beaucoup plus petite que le dictionnaire de 400.000 concepts développé par EDR, cette base de données hiérarchisée se veut également plus robuste que sa grande s tex2html_wrap347 ur.

Cette base de concepts, appelée ``base de connaissances'', est utilisée comme base d'un espace euclidien à 3.000 dimensions dans lequel est représenté l'ensemble des mots japonais, réduit à un ensemble de 40.000 mots-concepts par standardisation, grâce notamment au thésaurus de NTT qui utilise lui-même la classification hiérarchique des 3.000 concepts de base. Le résultat de ces opérations est une matrice de 3.000 concepts sur 40.000 mots-concepts, où les coordonnées des mots-concepts sont normalisées.

Cette construction permet de calculer la similarité entre deux mots selon un certain point de vue. Par exemple, selon le point de vue ``animal'', le mot ``cheval'' sera plus près de ``lapin'' que de ``voiture'', mais le résultat sera contraire selon le point de vue ``moyen de transport''. Pour inclure le point de vue dans la mesure de similarité, des opérations vectorielles sont introduites, principalement des projections (pour projeter selon un point de vue) et des calculs de produits scalaires (pour mesurer des similarités).

Même si cette réalisation s'apparente aux approches purement vectorielles, il convient de remarquer que la base de l'espace des connaissances est constituée de concepts placés précisément dans un graphe hiérarchique, ce qui ouvre la voie à d'éventuelles utilisations de cette base comme moyen d'analyse plus poussée.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998