Le TAL au service d'une meilleure exploitation des documents historiques

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Automatiser la retranscription de manuscrits médiévaux

Pour les chercheurs en histoire, le choix de la photographie s'impose, car les éléments non textuels sont aussi importants que le texte lui-même. Dans les manuscrits médiévaux, par exemple, les motifs ornementaux ou encore l'écriture utilisée permettent de dater ou localiser puisque les manuscrits ne sont ni datés, ni titrés par leurs auteurs. De plus, le format photographique ne gêne en rien la consultation pour un utilisateur humain. C'est pour cela que nos documents sont numérisés sous formes d'images malgré les inconvénients que cela peut apporter.

Mais dans le cadre de mon projet de semi-automatisation d'exercices de paléontologie, l'attention est portée exclusivement sur l'aspect textuel des manuscrits. Les exercices sont disponibles sur une plateforme en ligne. Le principe est simple : sur une page web est disponible une page d'un manuscrit sous la forme d'une image et sa transcription, rédigée par un professeur et disponible sous la forme d'un fichier texte à télécharger quand l'étudiant qui consulte la page aura fini son exercice. Il pourra alors comparer son travail à la correction proposée par le professeur.

Cependant, mes collègues et moi espérons renouveler l'offre d'exercices disponibles plus souvent grâce à la retranscription automatisée que nous corrigerons en aval. En effet, nous espérons que corriger le texte généré par la retranscription automatisée sera moins chronophage que recopier les documents à la main.

J'insiste sur le fait que j'aimerais favoriser la méthode la plus adaptée à des manuscrits enluminés du IXe au XVe siècle et minimiser les erreurs pour que la correction ne devienne pas, paradoxalement, plus fastidieuse que la transcription manuelle.

La solution

Optimiser la reconnaissance de caractères aux documents manuscrits et structurés

Reconnaissance des Caractères

Différences entre OCR et ICR

La reconnaissance optique de caractères (en anglais OCR pour "Optical Character Recognition") désigne la tâche de convertir des images de texte en texte éditable. Une entrée FAQ existe déjà sur le sujet et se conclut ainsi :

Au-delà des subtilités technologiques, la principale différence entre l’OCR et l’ICR est que l’ICR intègre la reconnaissance de l’écriture manuscrite alors que l’OCR se limite aux caractères d’imprimerie.

Dans cet article, nous allons être un peu plus exhaustifs en ce qui concerne les subtilités technologiques :

  • OCR : cette méthode consiste à comparer chaque caractère du document d’origine avec un caractère issu d’un jeu de données annotées associant à chaque image de caractère le caractère correspondant. On trouve donc une correspondance entre les deux images. Pas nécessairement au pixel près, mais la marge d'erreur acceptable est définie après une phase d'apprentissage.
  • ICR : avec cette méthode, on repère certaines caractéristiques du caractère. Donc, on détermine de quel caractère il s'agit en fonction de sa forme plus ou moins ronde ou encore de la présence ou absence de boucles, plutôt que de se baser sur une comparaison entre deux images comme avec la première méthode.

La première méthode est plus adaptée aux documents dont les caractères sont standardisés et prévisibles, typiquement : les documents tapuscrits comme un journal. En revanche, pour les documents manuscrits, il est préférable d'utiliser la reconnaissance des caractéristiques. En effet, les copistes essayaient d'utiliser des conventions d'écritures similaires et c'est pour ça qu'on peut diviser les écritures livresques en plusieurs grandes catégories comme l'écriture gothique, caroline ou humanistique. Cependant, les documents restent manuscrits et les lettres peuvent être différemment calligraphiées d'une personne à une autre ou une même personne peut calligraphier une lettre de manières sensiblement différentes.

Fine-tuning

Trois alphabets écrits tour à tour avec l'écriture gothique textualis, puis cursiva et hybrida. Toutes les lettres sont en noirs sauf les lettres "a", "l" et "s" dans les trois alphabets.
Les trois critères de la classification de Lieftinck-Gumbert-Derolez. source : Les écritures gothiques livresques : Classification de Lieftinck-Gumbert-Derolez. (2012, février 20). Paléographie médiévale. )

Pour réduire d'autant plus le risque d'erreurs, il est possible d'affiner notre modèle d'ICR. Prenons l'exemple de l'écriture gothique qui est une grande catégorie d'écriture livresque, mais qui peut être divisée en plusieurs sous-catégories comme textualis, cursiva et hybrida. Si un corpus n'est rédigé que dans une seule de ces sous-catégories d'écriture gothique, on peut affiner le modèle en conséquence. Pour cela, il faut entraîner le modèle une première fois sur une base de données qui rassemble tous types d'écrits gothiques pour avoir le plus de données possibles, puis effectuer une deuxième phase d’entraînement avec un corpus composé exclusivement de manuscrits écrits en écriture gothique dite textualis, par exemple. Vous pouvez retrouver les subtilités techniques dans la rubrique "fine-tuning" de la FAQ sur BERT.

Il est important de noter que l’OCR, comme l’ICR, ne reconnaissent qu'un caractère à la fois, alors qu'un texte est une séquence de caractères. Il est donc nécessaire de déterminer où commence et finit une ligne de texte, de faire la distinction entre les images et les zones de texte, ou encore définir s'il y a une ou plusieurs colonnes sur une même page. C'est là qu'intervient le travail préalable de l'analyse automatique de la mise en page du document (en anglais DLA pour "Document Layout Analysis" ).

Analyse de la mise en page du document

Il existe deux types complémentaires de méthodes pour l'analyse de la mise en page du document :

  • soit, on parcourt chaque pixel du document et identifie les symboles, les mots et les lignes en se basant sur la disposition des pixels. Par exemple, les pixels contigus de la même couleur peuvent former un symbole, les symboles espacés d'une même distance peuvent former un mot, et les mots alignés sur le même axe horizontal peuvent former une ligne.
  • soit, on définit les régions d'intérêt du texte en se basant sur les espaces vides du document et les informations géométriques.

Cette dernière méthode est plus rapide, car elle ne nécessite pas de parcourir chaque pixel de l'image et est donc moins sensible aux bruits de l’image, mais elle nécessite de prévoir les types de régions d'intérêt  qui composeront le document. Par exemple, s'il y aura des lettrines ou encore des miniatures ou des annotations dans la marge.

Solutions dite "de bout en bout"

Il est important de noter que traiter les deux aspects de la numérisation et de l'exploitation des documents historiques comme deux tâches distinctes peut entraîner une accumulation d'erreurs d'une étape à l'autre. Par exemple, si l'analyse de la mise en page du document coupe la dernière lettre de tous les mots justifiés à droite, cela entraînera des erreurs lors de l'exploitation du document, même dans l'hypothèse où tous les caractères ont été reconnus correctement ensuite. C'est pourquoi des solutions "de bout en bout" (en anglais ‘end-to-end’) ont récemment été développées pour traiter ces deux aspects avec un seul logiciel.

Correcteur autographique pour assister l'évaluation humaine

Finalement, il y aura tout de même des erreurs et l’évaluation d’un être humain qui compare côte à côte le texte produit par la reconnaissance des caractères et le document original, mais même dans cette étape, nous pouvons utiliser d'autres outils issus du TAL pour rendre cette tâche moins fastidieuse. On peut, par exemple, utiliser un correcteur orthographique qui permettra de mettre en valeur les potentielles erreurs du texte généré par retranscription automatique. Il est possible d'affiner ce correcteur orthographique pour qu'il soit adapté au français de l'époque et la région étudiée. Vous pouvez en apprendre plus sur le fonctionnement des correcteurs orthographiques ou lesquels choisir en fonction de vos besoins dans cet article.

Par Alexia Ebako