next up previous contents
Next: Les ressources d'ATR Up: Ressources linguistiques Previous: Les productions de NTT

Le corpus de l'université de Kyoto

Un projet de réalisation de corpus est en tex2html_wrap347 uvre à l'université de Kyoto. Le but de ce projet est de créer de manière semi-automatique un corpus de textes japonais analysés grammaticalement, tout en améliorant les outils d'analyse automatique.

Le corpus était composé de 20.000 phrases, en juillet 1998. Les phrases sont décomposées grammaticalement de manière automatique, en utilisant l'analyseur morphologique JUMAN et le logiciel de décomposition grammaticale KNP. Chaque phrase est vérifiée et éventuellement modifiée par l'homme, les erreurs détectées étant utilisées pour l'amélioration des algorithmes d'analyse. Le corpus augmente à une vitesse d'environ 40 phrases par heure et par personne.

Ce corpus peut être téléchargé par Internet sur le site de l'université de Kyoto, mais il faut en plus acheter le CD-Rom du journal utilisé.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998