Amélioration de la précision de systèmes d'extraction de relations en utilisant un filtre générique basé sur l'apprentissage statistique

L’extraction de relations contribue à l’amélioration de la recherche sémantique, recherche basée sur la compréhension du sens des termes de recherche. Puisque la recherche d’information est principalement axée sur des mots-clés, l’extraction de relations offre un éventail de possibilités en identifiant les liens entre les entités. L’extraction de relations permet entre autres de transformer de l’information non structurée en information structurée. Les bases de connaissances,telles que Google Knowledge Graph et DBpedia, permettent un accès plus précis et plus direct à l’information. Le slot filling, qui consiste à peupler une base de connaissances à partir de textes, a été une tâche très active depuis quelques années faisant l’objet de plusieurs campagnes évaluant la capacité d’extraire automatiquement des relations prédéfinies d’un corpus de documents. Malgré quelques progrès, les résultats de ces compétitions demeurent modestes. Nous nous concentrons sur la tâche de slot filling dans le cadre de la campagne d’évaluation TAC KBP 2013. Cette tâche vise l’extraction de 41 relations prédéfinies basées sur les infobox de Wikipédia (par exemple: title, date of birth, countries of residence, etc.)liées à des entités nommées spécifiques (personnes et organisations). Une entité nommée (l’entité requête) et une relation sont soumises à un système (extracteur de relations) qui doit automatiquement trouver, parmi un corpus de plus de deux millions de documents, toute entité liée à l’entité requête par la relation donnée. Le système doit également retourner un segment textuel justifiant cette relation. Ce mémoire présente un filtre basé sur l’apprentissage statistique dont l’objectif principal est d’améliorer la précision d’extracteurs de relations tout en minimisant l’impact sur le rappel. Notre approche consiste à filtrer la sortie des extracteurs de relations en utilisant un classifieur. Notre filtre est annexé à la sortie de l’extracteur de relations, pouvant ainsi être facilement testé sur n’importe quel système. Notre classifieur est basé sur un large éventail de caractéristiques (features), incluant des caractéristiques statistiques, lexicales, morphosyntaxiques, syntaxiques et sémantiques extraites en majorité des phrases justificatives soumises par les systèmes. Nous proposons également une méthode efficace permettant d’extraire les patrons les plus fréquents (ex.: catégories orphosyntaxiques, dépendances syntaxiques) afin d’en dériver des caractéristiques booléennes utiles pour notre tâche de filtrage. Les caractéristiques utilisées pour l’entraînement des classifieurs sont soit génériques. Ainsi, notre méthode peut être utilisée pour la classification de toute relation prédéfinie. Nous avons testé le filtre sur 14 systèmes ayant participé à la tâche de slot filling. Le filtre permet d’améliorer la précision pour chacun de ces systèmes. Nos résultats démontrent également que le filtre permet d’améliorer la précision du meilleur système de plus de 20% (points de pourcentage) et d’améliorer le F-score pour 20 relations.

Pour plus d'informations, cliquez ici

Publications

2016	A Machine learning Filter for Relation Extraction Kevin Lange Di Cesare, Amal Zouaq, Ludovic Jean-Louis, Michel Gagnon 25th World Wide Web Conference, Montreal