next up previous contents
Next: Analyse syntaxique Up: Segmentation et analyse morphologique Previous: Une approche statistique au

Des arbres de décision qui n'utilisent pas de dictionnaire à ATR

Constatant la prolifération de systèmes d'annotations et de dictionnaires associés pour l'analyse morphologique du japonais, l'institut ATR (Advanced Telecommunications Research Institute) propose une analyse morphologique robuste basée sur des arbres de décision et n'utilisant pas de dictionnaire, pour palier aux inconvénients suivants:

La méthode consiste à introduire des informations aidant à déterminer les limites des mots et les annotations correspondantes. Par exemple, en français, une terminaison en ``-er'' d'un mot est un indice que le mot peut être un verbe du premier groupe à l'infinitif. En japonais, de nombreuses structures systématiques aident également à repérer les coupures entre les mots (comme par exemple le suffixe ``na'' à la fin de certains types d'adjectifs). Les informations se présentent sous la forme de questions sur le mot visé ou bien sur les relations avec les caractères qui l'entourent, et peuvent être combinées (ex: ``le mot se termine en caractères hiragana et le caractère suivant est un kanji'')

De cette manière, de nombreuses questions peuvent être imaginées, et des arbres de décisions sont créés selon des méthodes classiques, à partir de ces questions, et en utilisant un corpus annoté comme ensemble d'entraînement pour les arbres. Les annotations utilisées dans les expériences contiennent 209 annotations possibles, regroupées en 18 annotations de base (nom commun, nom propre, verbe...).

Une fois entraîné, chaque feuille finale de l'arbre de décision contient une distribution de probabilités sur la structure morphologique (segmentation et annotation) des phrases que l'on traite caractère par caractère.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998