Un mélange de n-grammes à l'université de Tohoku

Next: Résumé automatique Up: Désambiguation de caractères Previous: Un modèle de n-grammes

Un mélange de n-grammes à l'université de Tohoku

Le laboratoire du professeur Aso, de l'université de Tohoku dans la ville de Sendai, s'est spécialisé dans la digitalisation intelligente de documents papier. En particulier, il a mis au point un système de reconnaissance de caractères, incluant une partie de désambiguation.

Cette méthode de désambiguation utilise des n-grammes comme approximation de modèles du langage, mais a l'originalité de combiner des n-grammes pour n=0, 1, 2, 3. Le modèle final apparaît comme une combinaison linéaire de ces différents modèles, où les poids de chaque modèle prennent en compte la taille du corpus qui a servi à les entraîner. Cette approche permet d'obtenir des approximations même quand le corpus d'entraînement est relativement petit, car les poids sont estimés afin d'optimiser la consistance du modèle final.

Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998