next up previous contents
Next: Le corpus de l'université Up: Ressources linguistiques Previous: Les productions d'EDR

Les productions de NTT

Le géant des télécommunications a produit des dictionnaires et des corpus pour ses recherches en NLP, et plus particulièrement en traduction automatique. Ces ressources, produites entièrement à la main, ont ensuite été mises à la disposition de nombreux centres de recherche.

Le dictionnaire proposé par NTT contient 400.000 mots. Pour chacun d'eux, la prononciation, la forme canonique, ainsi que des informations syntaxiques et sémantiques sont fournies. Les informations sémantiques utilisent un graphe hiérarchique contenant 3.000 attributs sémantiques, classés grâce à des relations du type ``is a'' ou ``has a''. Pour chaque mot du dictionnaire, les attributs sémantiques correspondants sont précisés.

Parallèlement à ce dictionnaire japonais, NTT a développé un dictionnaire bilingue japonais/anglais de structures classiques et d'idiomes, contenant 17.000 entrées dont 6.000 verbes ambigus. Ce dictionnaire contient les équivalences entre structures japonaises et anglaises.

Enfin, un dictionnaire japonais/anglais, contenant les informations syntaxiques et sémantiques, a été développé.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998