Next: Une approche statistique au
Up: Segmentation et analyse morphologique
Previous: Segmentation et analyse morphologique
JUMAN est un analyseur morphologique pour le japonais qui a été développé à l'université de Kyoto sous la direction du professeur Nagao. Lorsqu'une phrase en japonais lui est présentée, il la segmente en morphèmes et indique la classe morphologique de chaque morphème (nom, terminaison verbale...). Pour effectuer cette opération, il s'appuie sur un ensemble de deux dictionnaires:
- le dictionnaire de la grammaire, qui contient la liste des classes et sous-classes de morphèmes, un dictionnaire de conjugaison, et une liste des règles de connection entre morphèmes.
- le dictionnaire des morphèmes, qui contient la liste des morphèmes du japonais avec différentes informations: leur classe et sous-classe, leur prononciation, leur signification etc...
La force de cet outil est sa modularité et son adaptabilité. En effet, il existe de nombreux formalismes morphologiques en japonais, de même qu'il existe maintes grammaires différentes et encore plus de dictionnaires de morphèmes. Pour assurer son adaptabilité, JUMAN a été conçu comme un noyau se servant des dictionnaires définis par chaque utilisateur. Et s'il est fourni avec une configuration de base (avec un dictionnaire de 120.000 mots et 14 classes de morphèmes), il peut ainsi être configuré pour n'importe quel formalisme et avec n'importe quel dictionnaire. C'est ainsi qu'il est actuellement utilisé a l'université de Kyoto avec le dictionnaire EDR, contenant 230.000 entrées et 3.000 classes de morphèmes. Lorsqu'une phrase est entrée, JUMAN recherche l'analyse morphologique compatible avec ses dictionnaires et qui contient le moins de mots inconnus, de morphèmes et de mots indépendants.
JUMAN est utilisé par de nombreux laboratoires comme analyseur morphologique du japonais, aussi bien au Japon qu'à l'étranger (au SRI de Stanford par exemple). Il est gratuit et peut être téléchargé électroniquement sur le site du laboratoire du docteur Kurohashi, à l'université de Kyoto, ou sur celui du professeur Matsumoto, au NAIST.
Next: Une approche statistique au
Up: Segmentation et analyse morphologique
Previous: Segmentation et analyse morphologique
Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998