Extraction d'information utilisant des template matching à Kyutech

Next: Utilisation de la base Up: Recherche et extraction d'information Previous: Une classification 5W1H à

Extraction d'information utilisant des template matching à Kyutech

Le laboratoire du professeur Nomura, au Kyushu Institute of Technology, a développé un outil permettant l'extraction automatique d'information à partir de dépêches diverses. Une démonstration disponible sur Internet en juillet 1998 utilisait par exemple une base de données de 2.000 dépêches concernant la commercialisation de différents types de biens, pour lesquels des informations pouvaient être extraites automatiquement : le type de bien, son nom, le nom du fabricant, le prix, la date de sortie etc...

L'extraction des informations commence par l'analyse morphologique des dépêches à l'aide de l'analyseur JUMAN de l'université de Kyoto (voir ). Les informations de surface données par cette analyse sont ensuite utilisées par le moteur de recherche d'information à l'aide de template matching. En d'autres termes, chaque type d'information recherché est caractérisé par un ensemble de propriétés (les templates) portant sur les environnements linguistiques de l'information (par exemple, le type de particule qui précède une date) et sur l'information elle-même. Le moteur de recherche repère les candidats à chaque type d'information par une procédure classique de template matching. Le système applique pour cela chaque template à chaque phrase de la dépêche étudiée. Chaque phrase produit alors des candidats pour l'information recherchée, et le système choisit les candidats les plus probables, en prenant en compte le nombre de templates qui ont extrait chaque candidat, et le poids à donner à chaque candidats (dépendant du nombre de phrases qui l'ont extrait).

Un ensemble de 3.840 templates fut initialement créé à la main, afin de caractériser chaque information à extraire. Grâce à une procédure de réduction automatique à partir de l'entraînement du système sur un corpus, ce nombre est ensuite passé à 1.403. La précision des résultats est supérieure à 90% sur la base de données proposées en démonstration, pour les différentes informations à extraire.

Next: Utilisation de la base Up: Recherche et extraction d'information Previous: Une classification 5W1H à

Jean-Philippe Vert
Mon Nov 2 11:04:59 MET 1998