Générer des bulletins de presse

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Produire et publier des centaines de commentaires d'actualité en quelques minutes

L'actualité en temps quasi-réel : une exigence devenue un standard

Mes titres de presse en ligne opèrent dans un contexte hautement concurrentiel pour gagner l’audience.  La fraîcheur de l'information constitue un enjeu décisif : le lecteur s'attend à trouver à chaque clic une actualité en temps réel ou presque. L'audience et ses recettes associées se jouent en minutes de délais de publication.

Les technologies de traitement du langage sont-elles capables aujourd'hui de produire automatiquement et massivement des bulletins à  partir de données brutes disponibles pour un domaine d'information, telles que : résultats sportifs, données météorologiques, résultats d'élections, données de veille sanitaire ?

Générer automatiquement des bulletins de presse : vite mais bien !

Je dois bel et bien viser une qualité de langue qui fasse ignorer le mode de production automatisé, quelle que soit la difficulté de concilier traitement de masse, publication quasi-instantanée et qualité de rédaction.

En outre, je dois conformer les contenus aux contraintes de référencement, de structuration (par exemple la présence d'une accroche) et de style (charte éditoriale de la publication).

Je souhaite même aller plus loin et générer des bulletins de presse en plusieurs langues à partir des mêmes données pour assurer la mise en ligne simultanée des informations sur mes sites localisés.

La solution

La génération automatique de bulletins de presse : une réalité opérationnelle

La solution est adossée essentiellement à une fonction de génération automatique de texte.

Génération automatique : transformer des données en texte bien formé

La génération de texte opère sur des  données de typologie régulière, structurées de manière relativement régulière également : le système doit pouvoir reconnaître à quoi il a affaire.

La fonction de génération de texte consiste à associer ces données à des connaissances contenues dans le système pour construire du texte bien formé dans la ou les langue(s) visée(s).

Les connaissances embarquées par la solution sont d'ordre lexical (vocabulaire), phraséologique (expressions, tournures)  et des règles de construction (syntaxiques, pragmatiques) acquises soit de manière déclarative (par une opération humaine), soit par un apprentissage (machine learning, deep learning), souvent par une approche hybride.

Ce type de technologies est devenu une réalité opérationnelle dans divers domaines d'application pour les médias : résultats sportifs, bulletins météo, informations financières.

En option : traduction automatique, génération multilingue, synthèse vocale

Selon les besoins propres à la publication, la solution peut être complétée par diverses fonctions.

Un besoin de publication multilingue à partir des mêmes données peut appeler une fonction de traduction automatique des bulletins  ou bien de génération directement dans plusieurs langues à partir du même ensemble de données.

Une fonction de synthèse vocale peut compléter le dispositif si la publication de podcasts est attendue.

Points d'attention

Veiller à la qualité des données sources

La qualité des textes générés dépend fortement de la qualité des données disponibles en entrée : structure des données, complétude, cohérence, fiabilité... Un travail préalable sur ces données pourra être nécessaire lors de la mise en œuvre d'une solution de génération automatique.

Diversité des compétences requises

La conception fonctionnelle de la solution fait appel à des compétences variées : spécialistes des données, linguistes,  rédacteurs, voire juristes pour cadrer les conditions de conformité des contenus à produire, ou  encore spécialistes du webmarketing pour optimiser le référencement des contenus produits.

Mesurer les gains : audience, référencement, productivité, visibilité

Le ROI d'une solution de génération automatique peut se mesurer :

  • En termes d'audience par le différentiel constaté après mise en place de la solution, toutes choses égales par ailleurs (contrainte la plus complexe à satisfaire),
  • En termes de visibilité par le référencement des contenus générés automatiquement,
  • En termes de productivité, par le temps de travail nécessaire à la production des mêmes contenus sans automatisation, rapporté au coût (initial et récurrent) consacré à la solution automatique.
Par Christine Reynaud
Chef de projet contenus numériques