next up previous contents
Next: Une approche statistique au Up: Segmentation et analyse morphologique Previous: Segmentation et analyse morphologique

JUMAN : la référence

 

JUMAN est un analyseur morphologique pour le japonais qui a été développé à l'université de Kyoto sous la direction du professeur Nagao. Lorsqu'une phrase en japonais lui est présentée, il la segmente en morphèmes et indique la classe morphologique de chaque morphème (nom, terminaison verbale...). Pour effectuer cette opération, il s'appuie sur un ensemble de deux dictionnaires:

La force de cet outil est sa modularité et son adaptabilité. En effet, il existe de nombreux formalismes morphologiques en japonais, de même qu'il existe maintes grammaires différentes et encore plus de dictionnaires de morphèmes. Pour assurer son adaptabilité, JUMAN a été conçu comme un noyau se servant des dictionnaires définis par chaque utilisateur. Et s'il est fourni avec une configuration de base (avec un dictionnaire de 120.000 mots et 14 classes de morphèmes), il peut ainsi être configuré pour n'importe quel formalisme et avec n'importe quel dictionnaire. C'est ainsi qu'il est actuellement utilisé a l'université de Kyoto avec le dictionnaire EDR, contenant 230.000 entrées et 3.000 classes de morphèmes. Lorsqu'une phrase est entrée, JUMAN recherche l'analyse morphologique compatible avec ses dictionnaires et qui contient le moins de mots inconnus, de morphèmes et de mots indépendants.

JUMAN est utilisé par de nombreux laboratoires comme analyseur morphologique du japonais, aussi bien au Japon qu'à l'étranger (au SRI de Stanford par exemple). Il est gratuit et peut être téléchargé électroniquement sur le site du laboratoire du docteur Kurohashi, à l'université de Kyoto, ou sur celui du professeur Matsumoto, au NAIST.


next up previous contents
Next: Une approche statistique au Up: Segmentation et analyse morphologique Previous: Segmentation et analyse morphologique

Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998