Participation à l'ANR DAI-CRéTDHI

Depuis 2023, l’équipe « Charleville » (Vincent Gourdon, Doriane Hare, Isabelle Robin, François-Joseph Ruggiu) est engagée dans le programme de l’Agence nationale de la Recherche (ANR) : « Développement d’Approches Intelligentes – Charleville, (Ile de) Ré, Tours, Données Historiques de l’Ined » (DAI-CRéTDHI).

Situé à la croisée entre les sciences du numérique et des données et la démographie historique et l’histoire sociale des familles, ce programme vise à renouveler notre connaissance des populations anciennes en exploitant de vastes corpus démographiques grâce aux avancées récentes en intelligence artificielle. Celle-ci doit, en effet, nous aider à extraire et à structurer automatiquement les informations tirées des registres paroissiaux. Les Ardennes, et plus exactement les registres des baptêmes, mariages et sépultures (BMS) d’une vingtaine de paroisses proches de Charleville forment un des terrains de cette grande enquête.

Le programme de recherche réunit La Rochelle Université (Laboratoire L3i, spécialisé en informatique et analyse documentaire), l’Institut National d’Etudes Démographiques (Ined), l’Université de Tours (Laboratoire CeTHiS), Sorbonne Université (Centre Roland Mousnier) ainsi que Geneanet, une société spécialisée dans les services en généalogie en ligne, et Teklia, la principale société privée en France en reconnaissance automatique de documents numérisés. Il a démarré en novembre 2023 pour 48 mois et a reçu de l’ANR un budget d’environ 70 000 euros (pour le versant ardennais) auxquels s’ajoutent les contributions des partenaires.

La sélection des paroisses comprend Charleville, et des localités environnantes (Mézières, Villers-Semeuse, Montcy-Saint-Pierre, Lumes, etc.). Elles ont été choisies en s’appuyant sur les bases de données, déjà constituées par l’équipe « Charleville », des habitants de la ville dont ont été extraits les lieux de provenance principaux des individus ardennais non carolopolitains. La période de sélection des registres embrasse les années 1690-1793 (soit la fin de l’enregistrement religieux de l’état civil).

Environ un millier d’actes issus des registres paroissiaux sélectionnés ont d’abord été numérisés, segmentés puis retranscrits manuellement par l’équipe « Charleville ». Il s’agissait de fournir de bonnes transcriptions de textes produits par des scripteurs très différents selon les paroisses et les années afin d’entraîner les machines à la lecture des textes manuscrits du XVIIIe siècle.

L’opération suivante a consisté à annoter les informations contenues dans les transcriptions de sorte à identifier, grâce à des étiquettes, l’ensemble des informations susceptibles d’apparaître dans les actes comme, par exemple, les métadonnées relatives à l’acte (nature de l’acte ; jour, mois, année…) ; les informations de localisation (diocèse, paroisse…) ou encore les informations concernant les personnes impliquées dans l’acte (enfant baptisé, mariés, défunt, parents, témoins, officiant…).

Ces opérations ont été réalisées dans l’interface collaborative en ligne Callico, développée par la société Teklia. La transcription et l’annotation de ces actes sont destinées à entraîner un modèle d’intelligence artificielle qui pourra, ensuite, réaliser seul ces opérations sur le reste des actes des registres sélectionnés.

L’objectif final du programme de recherche est que le modèle d’IA puisse directement verser les informations étiquetées dans une base de données qui permette de construire des généalogies ou qui autorise des analyses statistiques en démographie historique et en histoire sociale des familles anciennes.