Pour estimer les probabilités découlant d'un modèle de n-gramme à partir d'un corpus, où n est quelconque, un comptage des fréquences d'apparition de chaque n-gramme dans le corpus est nécessaire. Le laboratoire du docteur Kurohashi, à l'université de Kyoto, utilise une méthode simple pour obtenir ces estimations rapidement pour n quelconque.
La méthode consiste à utiliser des pointeurs qui pointent sur les caractères du corpus. Il y a donc autant de pointeurs que de caractères dans le corpus (pour obtenir un modèle de n-grammes sur les caractères). Cet ensemble de pointeurs est ensuite classé selon un ordre lexicographique, en utilisant la suite de caractères commençant à l'endroit pointé pour caractériser chaque pointeur. Une fois ce classement effectué, il est aisé de compter le nombre de fois qu'une suite de n caractères apparaît dans le corpus, en repérant cette suite de caractères dans la liste ordonnée des pointeurs, et en comptant simplement combien de pointeurs commencent par cette suite de caractères.