next up previous contents
Next: Des arbres de décision Up: Segmentation et analyse morphologique Previous: JUMAN : la référence

Une approche statistique au NAIST

Plutôt que de baser l'analyse morphologique sur une grammaire prédéfinie, le laboratoire du professeur Matsumoto, au NAIST, a développé une approche statistique pour cette tâche. Pour ce faire, l'analyseur commence par découper une phrase quelconque en mots, grâce à un dictionnaire, en conservant toutes les ambiguïtés possibles. Puis un coût est donné à chaque bigramme, en fonction des fréquences d'apparition calculées sur un corpus. Enfin, la solution de moindre coût est choisie comme étant la plus probable. Le formalisme utilisé contient 14 catégories morphologiques, divisées en sous-catégories (ex: nom commun, nom de pays, nom de personne...). La matrice de coûts des bigrammes a été en partie remplie à la main, mais une automatisation est en cours à partir du corpus EDR.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998