Extraction de relations sémantiques à partir de descriptions de sites patrimomiaux du Québec

Une grande partie de l’information présente sur le web et dans les bases de données l’est sous forme de textes. Ces données sont difficilement exploitables de façon automatique et il est impossible de procéder à des requêtes particulières sur celles-ci, puisqu’elles ne sont pas décrites par des métadonnées. Structurer ces données est un enjeu de taille qui permettra de les rendre plus accessibles et exploitables. De nombreuses méthodes d’extraction d’informations à partir de textes bruts ont vu le jour. Les plus répandues reposent sur des algorithmes d’apprentissage automatique et font appel à différentes techniques pour représenter les mots. Ces techniques sont indispensables et permettent de mettre en valeur certaines informations, comme la nature des mots, leur fonction, leur répartition dans le corpus, ou encore leur sémantique.

Dans le cadre de ce projet, nous allons travailler avec les données du Répertoire du Patrimoine Culturel du Québec. Ce répertoire inventorie l’ensemble du patrimoine immobilier, mobilier et immatériel du Québec. Toutefois, la classification actuelle présente des problèmes majeurs et ne répond plus aux besoins du Ministère de la Culture et des Communications du Québec (MCC). C’est pourquoi, en vue d’une refonte de la base de connaissances, le MCC nous a proposé de nous intéresser aux relations pouvant exister entre des biens immobiliers et des personnes (physiques ou morales). Ces relations sont décrites dans les synthèses historiques des biens immobiliers ; des textes décrivant chacun l’histoire d’un bien immobilier. Il existe déjà des relations modélisées dans le répertoire, mais dans l’optique d’une refonte de la classification, nous proposons une application capable de peupler de façon automatique la future base de connaissances. Les données d’entrée de notre problème sont donc, pour chaque bien immobilier, une synthèse historique relatant l’histoire du bien immobilier et une liste de personnes qui ont été en relation avec ledit bien.

La question de recherche est de savoir si une approche basée sur l’apprentissage machine est suffisante pour extraire les relations à partir de ces synthèses.

Pour plus d'informations, cliquez ici