Le résumé automatique, comment ça marche ?
Sommaire
- Qu’est-ce qu’un résumé de texte automatique ?
- Quels sont les grandes types de résumés automatiques ?
- Quelles techniques sont utilisées pour le résumé automatique de texte ?
- Peut-on entraîner un algorithme pour du résumé par apprentissage ?
- Comment peut-on évaluer un résumé produit automatiquement ?
Qu’est-ce qu’un résumé de texte automatique ?
Le résumé automatique consiste à analyser un ou plusieurs documents et produire un nouveau document plus court qui permet à l’utilisateur d’accéder aux informations pertinentes. La notion de pertinence est évidemment relative à un contexte particulier. On distingue donc plusieurs types de résumés.
Quels sont les grandes types de résumés automatiques ?
LLoret et Palomar ont proposé quelques grands critères pour distinguer les familles de résumé, en particulier :
- l’entrée : s’agit-il de résumer un document ou de faire une synthèse de plusieurs documents ?
- l’objectif : le résumé doit-il être
- informatif, pour que l’utilisateur puisse décider de lire le document complet
- générique, c’est à dire viser un texte indépendant de la tâche
- orienté pour un thème particulier.
- la langue : le résumé doit-il être produit dans la même langue que le document, ou dans une ou plusieurs autres langues.
Ainsi, une solution de veille multilingue pourra par exemple viser à analyser plusieurs documents dans différentes langues et en proposer une synthèse dans une seule langue.
Quelles techniques sont utilisées pour le résumé automatique de texte ?
On distingue habituellement deux grandes familles de techniques de résumé de texte, le résumé par extraction, et le résumé par abstraction.
Qu’est-ce que le résumé par extraction ?
Le résumé par extraction consiste à identifier dans un ou plusieurs documents des segments saillants, puis de concaténer ces segments pour produire un texte nouveau.
De nombreuses techniques existent pour identifier ces segments saillants, dont certaines sont proches des approches utilisées pour le clustering. ll est possible de jouer sur le seuil de pertinence en fonction de la longueur relative souhaitée du texte à produire.
Des techniques linguistiques, telles que, par exemple, le traitement des anaphores, peuvent être utilisées pour améliorer la qualité linguistique du texte produit.
Ces techniques présentent l’avantage d’être relativement indépendantes de la disponibilité d’une base de connaissances et peuvent donc traiter une large gamme de sujets.
Qu’est-ce qu’un résumé par abstraction
Le résumé par abstraction consiste à construire dans un premier une représentation abstraite du ou des documents à résumer, par exemple en effectuant une analyse sémantique, puis à générer un texte à partir de cette représentation.
Ces approches nécessitent de disposer d’une base de connaissances. Elles permettent notamment de produire des résumés dans des langues différentes du ou des textes à résumer.
Peut-on entraîner un algorithme pour du résumé par apprentissage ?
Les techniques de résumé par apprentissage reposent habituellement sur des techniques de résumé par abstraction. Il s’agit d’entraîner un algorithme à partir d’un corpus étiqueté en fonction des termes à conserver ou non dans un résumé. L’algorithme ainsi entraîné pourra identifier les termes à garder dans les nouveaux textes à résumer.
[HdM ajouter] Les progrès en apprentissage, en particulier avec les modèles à base de Transformers, permettent à la fois de réduire singulièrement la taille du corpus d’apprentissage car les modèles sont censés intégrer une connaissance du monde générique qu’il suffit d’adapter. Ils peuvent également produire directement du texte. En revanche, ces techniques restent mal maîtrisées et sont sujettes à des hallucinations (omission d’informations ou ajout d’informations qui ne sont pas présentes dans le texte initial).
Comment peut-on évaluer un résumé produit automatiquement ?
Outre quelques critères évidents de qualité, telles que la longueur relative du résumé (le résumé fait-il bien 15% de l’original ?) ou la qualité linguistique, l’évaluation prend habituellement en compte des critères intrinsèques ou des critères extrinsèques.
Quelles mesures intrinsèques pour l’évaluation du résumé automatique
Les mesures intrinsèques consistent à évaluer directement le texte produit par l’outil de résumé automatique. Par exemple, en évaluant la distance entre le résumé produit et un ou plusieurs résumés rédigés par des humains, ou bien en y vérifiant la présence de mots clefs.
Une métrique fréquemment utilisée pour l’évaluation d’un résumé est la métrique ROUGE (Recall-Oriented Understudy for Gisting Evaluation), qui évalue le nombre de mots communs entre le résumé produit automatiquement et un ensemble de résumés de référence. Elle souffre pourtant de plusieurs défauts, au premier rang desquels le présupposé qu’il existerait une liste finie de résumés optimaux pour un texte donné, tous les autres résumés devant être considérés comme « moins bons ». ROUGE n’en demeure pas moins la métrique la plus utilisée, en particulier pour l’entrainement des systèmes par apprentissage.
Quelles méthodes extrinsèques pour l’évaluation de résumés automatiques
Les méthodes d’évaluations extrinsèques de résumés consistent à évaluer si ces résumés sont utiles, ou utilisables, pour des actions données, telles que la prise de décision, la restitution ou la réponse à des questionnaires. Ces méthodes, quoi que pertinentes, se heurtent cependant aux coûts qu’elles induisent car elles doivent être manuelles.