next up previous contents
Next: Un mélange de n-grammes Up: Désambiguation de caractères Previous: Désambiguation de caractères

Un modèle de n-grammes performant à l'université de Kyoto

Pour estimer les probabilités découlant d'un modèle de n-gramme à partir d'un corpus, où n est quelconque, un comptage des fréquences d'apparition de chaque n-gramme dans le corpus est nécessaire. Le laboratoire du docteur Kurohashi, à l'université de Kyoto, utilise une méthode simple pour obtenir ces estimations rapidement pour n quelconque.

La méthode consiste à utiliser des pointeurs qui pointent sur les caractères du corpus. Il y a donc autant de pointeurs que de caractères dans le corpus (pour obtenir un modèle de n-grammes sur les caractères). Cet ensemble de pointeurs est ensuite classé selon un ordre lexicographique, en utilisant la suite de caractères commençant à l'endroit pointé pour caractériser chaque pointeur. Une fois ce classement effectué, il est aisé de compter le nombre de fois qu'une suite de n caractères apparaît dans le corpus, en repérant cette suite de caractères dans la liste ordonnée des pointeurs, et en comptant simplement combien de pointeurs commencent par cette suite de caractères.



Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998