Thèse de doctorat en Histoire préparée par Mathieu Chartier, sous la direction de Guillaume Bourgeois (Criham / Université de Poitiers).

• Date de dépôt du sujet : octobre 2022

 

Présentation du thème de recherche

Humanités numériques et ontologies historiques : conception et alimentation d’un graphe de connaissances historiques et géographiques interrogeable exploitant les variations temporelles et spatiales

Le déchiffrement de données historiques à la temporalité composite implique que le vocabulaire utilisé ainsi que l’ensemble des terminologies évoluent notamment dans des domaines tels que l’onomastique (toponymes, oronymes, anthroponymes, rétronymes, chrononymes…) et la géographie. L’un des principaux enjeux scientifiques est de pouvoir identifier et extraire de manière intelligente des concepts relatifs aux ontologies, en recouvrant l’ensemble des variations linguistiques dans le temps. Le but de cette thèse vise donc à créer les ressources expertes permettant d’expliciter les relations entre concepts divers et à nourrir dynamiquement les bases de données.

Les données historiques évoluent au fil du temps (linguistique, toponymie, précisions spatiale et graphique de la cartographie…). Les travaux effectués dans le cadre de L’Atlas historique de la Nouvelle-Aquitaine ont jusqu’à présent permis de recueillir de vastes corpus numérisés (mémoires, thèses, articles, sources historiques contemporaines…) et océrisées. De nombreux enjeux scientifiques et techniques se présenteront, au fur et à mesure de la réalisation de la plateforme permettant de coordonner et d’organiser savamment les données de ces corpus. Maîtriser ce processus implique de commencer par traiter intelligemment les évolutions du langage à travers le temps et de générer des ontologies dynamiques. Les ontologies (ou graphes de connaissances) sont des modèles sémantiques propres à faciliter la mise en correspondance entre données formalisées et intuitions de recherche d’un utilisateur. La définition communément admise d’une ontologie est énoncée par Thomas Gruber (Gruber, 1993) comme « la spécification explicite d’une conceptualisation ». Une ontologie permet de représenter formellement la sémantique d’un domaine de connaissance et de permettre des traitements automatiques sur celle-ci.
Prenons l’exemple d’une requête qui pourrait être traitée par l’outil dans sa version définitive : « Jean Bouchet à Poitiers ». En l’apparence anodine, cette recherche masque de nombreux concepts et des relations que L’Atlas historique de la Nouvelle-Aquitaine a la volonté de résoudre. À partir de l’extraction de données issues de corpus de documents, voici une liste non exhaustive des problématiques qu’une telle requête pourrait soulever afin de concevoir des ontologies dynamiques :

• Extraction et prédiction du contexte de la recherche. Parle-t-on du poète du XVIe siècle ou de la rue Jean Bouchet à Poitiers qui nous est contemporaine ?

• Reconnaissance des entités nommées (noms, lieux, dates…), en tenant compte de leur contexte historique :
– Jean Bouchet est un poète ayant vécu de la fin du XVe siècle à la moitié du XVIe siècle, mais a-t-il eu des homonymes de renom ?
– Poitiers est une ville située en Nouvelle-Aquitaine actuellement mais sa situation géopolitique de l’époque doit être recontextualisée : Poitiers appartient alors à la province du Poitou (dans le comté de Poitou).
– « Poictiers » et « Jehan Bouchet » sont respectivement des toponymes et noms que l’on retrouve dans la période. Il faut donc gérer les alias selon le concept historique décrit par la requête.

• Mise en place de relations entre des concepts approchants. Une telle requête pourrait nouer des résultats avec d’autres thématiques relatives, telles que la poésie à la fin du Moyen Âge, la vie à Poitiers à cette époque, etc.

Les ontologies représentent la sémantique des concepts d’un domaine en termes de classes et de propriétés hiérarchisées. Dans notre exemple, les ontologies sur lesquelles se baserait un puissant système d’information historique tel L’Atlas historique de la Nouvelle-Aquitaine pourraient ainsi contenir une classe « Auteur » qui aurait au moins une sous-classe « Poète ». Comme propriétés, de telles classes pourraient être caractérisées par la localisation du personnage (une ville) et la période historique correspondante (dates, ères…), etc. Plusieurs langages existent pour construire une ontologie. Les plus connus, issus du web sémantique, sont RDF Schema (Brickley et al., 2014) et OWL (McGuinness & Van Harmelen, 2004).
Ce travail d’extraction et d’identification partira de corpus de documents de recherches historiques numérisés, desquels doivent être récupérées des entités nommées de tous types et des concepts avancés ; il s’appuiera partiellement sur des experts et des travaux de qualité. Des ontologies généralistes comme YAGO (Pellissier Tanon et al., 2020) ou DBPedia (Lehmann et al., 2015) fournissent déjà de nombreuses informations sur les villes de Nouvelle-Aquitaine et pourront servir d’appui pour la reconnaissance d’entités et la génération automatisée. Enfin, il recourra massivement aux connaissances des historiens impliqués aux côtés d’ActuData, lesquelles devront être formalisées.

 

École doctorale

ED 612 Humanités – Université de Poitiers