next up previous contents
Next: JUMAN : la référence Up: Analyse morpho-syntaxique Previous: Analyse morpho-syntaxique

Segmentation et analyse morphologique

Il convient ici de préciser une particularité du japonais, qui est l'absence d'espaces pour séparer les mots. La phase de segmentation d'un texte en japonais est d'autant plus cruciale qu'un mauvais regroupement des caractères peut changer complètement le sens d'une phrase.

L'approche la plus répandue pour effectuer la segmentation et l'analyse morphologique du japonais est de combiner ces deux tâches en une seule opération, en se servant d'un lexique contenant la liste des suites élémentaires de caractères admissibles, accompagnés de leurs caractéristiques morphologiques. Ce lexique peut fournir, pour une phrase donnée, une liste des segmentations et caractéristiques morphologiques admissibles, et un ensemble de contraintes est généralement chargé d'éliminer des possibilités de cette liste ou de les classer selon leur caractère plus ou moins probable. Ces contraintes peuvent par exemple être représentées sous la forme de contraintes sur les suites de caractéristiques morphologiques (ex: une terminaison verbale doit suivre la racine d'un verbe), comme dans le cas du logiciel JUMAN, ou être probabilisées sous la forme de n-grammes portant sur les suites de n caractères, comme dans le cas de l'analyseur du NAIST.





Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998