Le laboratoire du professeur Aso, de l'université de Tohoku dans la ville de Sendai, s'est spécialisé dans la digitalisation intelligente de documents papier. En particulier, il a mis au point un système de reconnaissance de caractères, incluant une partie de désambiguation.
Cette méthode de désambiguation utilise des n-grammes comme approximation de modèles du langage, mais a l'originalité de combiner des n-grammes pour n=0, 1, 2, 3. Le modèle final apparaît comme une combinaison linéaire de ces différents modèles, où les poids de chaque modèle prennent en compte la taille du corpus qui a servi à les entraîner. Cette approche permet d'obtenir des approximations même quand le corpus d'entraînement est relativement petit, car les poids sont estimés afin d'optimiser la consistance du modèle final.