Next: Les productions de NTT
Up: Ressources linguistiques
Previous: Ressources linguistiques
En avril 1986, le Japan Electronic Dictionnary Research Institute (E.D.R.) fut créé, dans le but de réaliser un dictionnaire électronique utilisable pour la recherche avancée en TALN. Pour mener à bien ses recherches, cette entreprise reçut des fonds du Japan Key Technology Center et de huit entreprises productrices d'ordinateurs : Fujitsu, NEC, Hitachi, Sharp, Toshiba, Oki Electric, Mitsubishi Electric, Matsushita Electric. Le projet, s'étalant sur une période de 9 ans, entre 1986 et 1994, permit de créer un ensemble de cinq dictionnaires, utilisables indépendemment:
- Dictionnaire japonais Il s'agit d'un dictionnaire de 250.000 mots, contenant pour chaque mot des informations morphologiques (prononciation, accent, etc...), des informations syntaxiques (caractérisation grammaticale, aspect, ...) et des informations sémantiques (explication du sens et lien avec tous les concepts concernés).
- Dictionnaire anglais Reprenant la philosophie du dictionnaire japonais, il contient 190.000 mots, et définit pour chacun d'eux les concepts qu'on peut lui attribuer ainsi que des informations morphologiques (inflection, adjacence, prononciation, accent), syntaxiques (POS, dénombrabilité...) et sémantiques.
- Dictionnaire technique Spécialisé en traitement de l'information, il contient 120.000 mots japonais et 90.000 mots anglais.
- Dictionnaire de concepts Ce dictionnaire original décrit et classe l'ensemble des 400.000 concepts qui ont été définis pour comprendre le sens de chaque mot. La classification utilise des relations super/supra. La description contient des relations sémantiques binaires entre concepts, telles que agent/action, objet/action etc...
- Dictionnaire bilingue
- Co-occurence Cette table contient des informations sur l'acceptabilité ou non de combinaisons de mots dans les phrases, et sur les collocations binaires de concepts.
- Corpus japonais et anglais Ce corpus contient 220.000 phrases en japonais et 160.000 phrases en anglais. Pour chacune de ces phrases, les informations morphologiques, syntaxiques et sémantiques sont précisés.
Ces dictionnaires ont par exemple été utilisés dans la mise au point du système d'analyse morphologique JUMAN, développé à l'université de Kyoto et faisant aujourd'hui référence.
Depuis 1996, EDR a rejoint le ANSI Ad-Hoc Group for Ontology Standards, et travaille dans le but de relier EDR et Worldnet.
En juillet 1998, le prix du dictionnaire était de 100.000 JPY (environ 5.000 FF) pour les universités et 1.200.000 JPY (environ 60.000 FF) pour les entreprises.
Next: Les productions de NTT
Up: Ressources linguistiques
Previous: Ressources linguistiques
Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998