Le résumé automatique, comment ça marche ?

Qu’est-ce qu’un résumé de texte automatique ?

Le résu­mé auto­ma­tique consiste à ana­ly­ser un ou plu­sieurs docu­ments et pro­duire un nou­veau docu­ment plus court qui per­met à l’u­ti­li­sa­teur d’ac­cé­der aux infor­ma­tions per­ti­nentes. La notion de per­ti­nence est évi­dem­ment rela­tive à un contexte par­ti­cu­lier. On dis­tingue donc plu­sieurs types de résu­més.

Quels sont les grandes types de résumés automatiques ?

LLo­ret et Palo­mar ont pro­po­sé quelques grands cri­tères pour dis­tin­guer les familles de résu­mé, en particulier :

  • l’entrée : s’a­git-il de résu­mer un docu­ment ou de faire une syn­thèse de plu­sieurs documents ?
  • l’objec­tif : le résu­mé doit-il être 
    • infor­ma­tif, pour que l’u­ti­li­sa­teur puisse déci­der de lire le docu­ment complet
    • géné­rique, c’est à dire viser un texte indé­pen­dant de la tâche
    • orien­té pour un thème particulier.
  • la langue : le résu­mé doit-il être pro­duit dans la même langue que le docu­ment, ou dans une ou plu­sieurs autres langues.

Ain­si, une solu­tion de veille mul­ti­lingue pour­ra par exemple viser à ana­ly­ser plu­sieurs docu­ments dans dif­fé­rentes langues et en pro­po­ser une syn­thèse dans une seule langue. 

Quelles techniques sont utilisées pour le résumé automatique de texte ?

On dis­tingue habi­tuel­le­ment deux grandes familles de tech­niques de résu­mé de texte, le résu­mé par extrac­tion, et le résu­mé par abs­trac­tion.

Qu’est-ce que le résumé par extraction ?

Le résu­mé par extrac­tion consiste à iden­ti­fier dans un ou plu­sieurs docu­ments des seg­ments saillants, puis de conca­té­ner ces seg­ments pour pro­duire un texte nouveau. 

De nom­breuses tech­niques existent pour iden­ti­fier ces seg­ments saillants, dont cer­taines sont proches des approches uti­li­sées pour le clus­te­ring. ll est pos­sible de jouer sur le seuil de per­ti­nence en fonc­tion de la lon­gueur rela­tive sou­hai­tée du texte à produire. 

Des tech­niques lin­guis­tiques, telles que, par exemple, le trai­te­ment des ana­phores, peuvent être uti­li­sées pour amé­lio­rer la qua­li­té lin­guis­tique du texte produit.

Ces tech­niques pré­sentent l’a­van­tage d’être rela­ti­ve­ment indé­pen­dantes de la dis­po­ni­bi­li­té d’une base de connais­sances et peuvent donc trai­ter une large gamme de sujets.

Qu’est-ce qu’un résumé par abstraction 

Le résu­mé par abs­trac­tion consiste à construire dans un pre­mier une repré­sen­ta­tion abs­traite du ou des docu­ments à résu­mer, par exemple en effec­tuant une ana­lyse séman­tique, puis à géné­rer un texte à par­tir de cette représentation. 

Ces approches néces­sitent de dis­po­ser d’une base de connais­sances. Elles per­mettent notam­ment de pro­duire des résu­més dans des langues dif­fé­rentes du ou des textes à résumer.

Peut-on entraîner un algorithme pour du résumé par apprentissage ? 

Les tech­niques de résu­mé par appren­tis­sage reposent habi­tuel­le­ment sur des tech­niques de résu­mé par abs­trac­tion. Il s’a­git d’en­traî­ner un algo­rithme à par­tir d’un cor­pus éti­que­té en fonc­tion des termes à conser­ver ou non dans un résu­mé. L’al­go­rithme ain­si entraî­né pour­ra iden­ti­fier les termes à gar­der dans les nou­veaux textes à résumer.

[HdM ajou­ter] Les pro­grès en appren­tis­sage, en par­ti­cu­lier avec les modèles à base de Trans­for­mers, per­mettent à la fois de réduire sin­gu­liè­re­ment la taille du cor­pus d’ap­pren­tis­sage car les modèles sont cen­sés inté­grer une connais­sance du monde géné­rique qu’il suf­fit d’a­dap­ter. Ils peuvent éga­le­ment pro­duire direc­te­ment du texte. En revanche, ces tech­niques res­tent mal maî­tri­sées et sont sujettes à des hal­lu­ci­na­tions (omis­sion d’in­for­ma­tions ou ajout d’in­for­ma­tions qui ne sont pas pré­sentes dans le texte initial).

Comment peut-on évaluer un résumé produit automatiquement ? 

Outre quelques cri­tères évi­dents de qua­li­té, telles que la lon­gueur rela­tive du résu­mé (le résu­mé fait-il bien 15% de l’o­ri­gi­nal ?) ou la qua­li­té lin­guis­tique, l’é­va­lua­tion prend habi­tuel­le­ment en compte des cri­tères intrin­sèques ou des cri­tères extrin­sèques.

Quelles mesures intrinsèques pour l’évaluation du résumé automatique

Les mesures intrin­sèques consistent à éva­luer direc­te­ment le texte pro­duit par l’ou­til de résu­mé auto­ma­tique. Par exemple, en éva­luant la dis­tance entre le résu­mé pro­duit et un ou plu­sieurs résu­més rédi­gés par des humains, ou bien en y véri­fiant la pré­sence de mots clefs.

Une métrique fré­quem­ment uti­li­sée pour l’é­va­lua­tion d’un résu­mé est la métrique ROUGE (Recall-Orien­ted Unders­tu­dy for Gis­ting Eva­lua­tion), qui éva­lue le nombre de mots com­muns entre le résu­mé pro­duit auto­ma­ti­que­ment et un ensemble de résu­més de réfé­rence. Elle souffre pour­tant de plu­sieurs défauts, au pre­mier rang des­quels le pré­sup­po­sé qu’il exis­te­rait une liste finie de résu­més opti­maux pour un texte don­né, tous les autres résu­més devant être consi­dé­rés comme « moins bons ». ROUGE n’en demeure pas moins la métrique la plus uti­li­sée, en par­ti­cu­lier pour l’en­trai­ne­ment des sys­tèmes par apprentissage.

Quelles méthodes extrinsèques pour l’évaluation de résumés automatiques

Les méthodes d’é­va­lua­tions extrin­sèques de résu­més consistent à éva­luer si ces résu­més sont utiles, ou uti­li­sables, pour des actions don­nées, telles que la prise de déci­sion, la res­ti­tu­tion ou la réponse à des ques­tion­naires. Ces méthodes, quoi que per­ti­nentes, se heurtent cepen­dant aux coûts qu’elles induisent car elles doivent être manuelles.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Études de cas associés

Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition

Je suis responsable de la pharmacovigilance au sein d'une structure publique de veille sanitaire. Je souhaite pouvoir exploiter plus largement les sources d'information sur les effets des traitements et garantir une certaine objectivité des analyses à partir des textes libres : l'analyse linguistique automatisée répond-elle à ces objectifs et comment ?

Pousser au client l'information qu'il ne cherche pas encore

Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.