Argumenter au lieu de bloquer : modérer des commentaires en ligne tout en promouvant le débat

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Modérer les commentaires des abonnés en évitant le blocage de contenus

Je suis chef de produit d'un quotidien d'actualités.

Pour promouvoir les discussions entre les abonnés de la version en ligne de notre quotidien, nous avons décidé de mettre en place une section de discussion en bas de chaque article.

Ayant déjà recruté des modérateurs de commentaires à cet effet, nous voulons aujourd'hui, au lieu de bloquer les commentaires douteux, appliquer une méthode qui consiste à générer automatiquement des contre-arguments à un commentaire contenant de fausses informations ou un raisonnement douteux. L'avantage d'une telle méthode sera double :

  1. Par rapport au blocage, cette méthode compromet moins la liberté d'expression, principe cher à la démocratie.
  2. La génération automatique de contre-arguments fournit une base de discussion susceptible d'augmenter le taux de participation de nos abonnés dans la section de discussion.

Je cherche donc des outils permettant, lorsque la situation le permet, de fournir automatiquement ou semi-automatiquement des contre-arguments aux commentaires des abonnés.

La solution

Générer automatiquement des contre-arguments

Modération de commentaires, une tâche délicate

La modération de commentaires, ou plus généralement la modération de contenus en ligne, est une tâche courante et importante pour tout média soucieux de la qualité d'échanges entre ses abonnés. Un commentaire peut faire l'objet d'une mesure de modération car il contient des messages haineux, de fausses informations, ou encore, des raisonnements bancals tels que des raisonnements fallacieux du type « Trump n'est pas milliardaire parce que c'est lui-même qui prétend l'être. ». De nos jours, il existe principalement deux méthodes de modération : blocage et avertissement, toutes deux nécessitant un repérage efficace des commentaires non conformes à la loi ou à la charte de publication interne. La première approche a l'avantage d'endiguer d'emblée la mésinformation/désinformation, tandis que la deuxième approche, en signalant des messages douteux aux lecteurs, représente un compromis entre liberté et contrainte. Toutefois, ces deux solutions présentent deux inconvénients principaux :

  1. Elles sont binaires. Un commentaire contient soit une information douteuse, soit une information exacte. Cependant, des commentaires du type « Cette crème solaire est à déconseiller, car Kim Kardashian l'aime beaucoup. » nécessite un traitement plus nuancé.
  2. Elles sont passives, en ce sens que le feed-back fourni aux lecteurs reste peu informatif.

Malgré ces deux désavantages, il est à noter que le blocage reste nécessaire dans le cas où certains commentaires enfreindraient la loi, ce qui par conséquent implique la responsabilité de l'éditeur.

Contre-argumentation ou débat en tant que moyen de modération

Grâce aux dernières avancées de l'Intelligence Artificielle et notamment dans les domaines de la fouille de texte et de la génération automatique de textes (GAT), de nouvelles solutions commencent à faire surface, telles que la génération de contre-arguments qui se montre particulièrement prometteuse. Les contre-arguments générés automatiquement peuvent soit être insérés directement sur les réseaux sociaux, soit être présentés aux modérateurs qui les utilisent par la suite pour fournir un feed-back plus riche aux lecteurs sur les informations douteuses. La génération automatique de contre-arguments présente de multiples avantages :

  1. Elle préserve mieux la liberté d'expression et le droit à l'information par rapport au blocage.
  2. L'utilisation de la génération de contre-arguments comme procédé de modération constitue un moyen stimulant pour fait réfléchir les lecteurs, contribuant ainsi à former/éveiller l'esprit critique de ces derniers.
  3. L'art du débat remonte aux antiquités et il est toujours autant apprécié aujourd'hui. Introduire un débat sur la base des commentaires permet d'augmenter le taux de participation des membres d'une communauté. L'une des communautés les plus actives sur le site de discussion Reddit s'appelle par exemple Change My View (change mon opinion). Chaque jour, de nombreux internautes postent des prises de position sur des sujets sociétaux, incitant les lecteurs à présenter des contre-arguments. L'ambiance particulièrement animée de cette communauté suggère que l'argumentation peut augmenter le degré d'engagement des internautes.

L'une des techniques les plus médiatisées visant à développer les capacités d'argumentation de la machine est sans doute le Projet Debater d'IBM, initié en 2021. L'objectif principal de ce système est de pouvoir engager un débat avec un être humain (et éventuellement gagner le débat). Quelque peu à l'instar de la fameuse compétition pendant laquelle AlphaGo, programme informatique capable de jouer au jeu de go, a battu plusieurs champions du monde, un événement similaire a été organisé en 2019, confrontant le Projet Debater au champion d'un concours de débats interuniversitaires à l'échelle européenne. Bien que le système d'IBM soit conçu pour mener des débats à l'oral, les principales composantes de ce système restent valables pour la génération automatique de contre-arguments en général. Nous présentons dans ce qui suit les étapes essentielles d'un tel système dans le cadre de la modération des commentaires.

Composantes principales d'une chaîne de génération de contre-arguments

Dans un premier temps, il s'agit de repérer automatiquement des éléments argumentatifs d'un commentaire (fouille d'arguments, argument mining en anglais). Ce type de techniques ont déjà été explorées sur les textes biomédicaux où l'on trouve une abondance de mesures expérimentales qui confirment ou infirment les conclusions scientifiques. Dans le cas des commentaires, l'analyse de la structure argumentative peut recourir à des éléments linguistiques différents car les textes de commentaires présentent souvent une subjectivité accrue (je pense que, il est évident que..., etc.). À l'issue de ce stade, deux éléments principaux sont isolés : affirmation et prémisse (claim et evidence en anglais, voir les exemples ci-dessous pour mieux appréhender ces deux concepts).

Dès lors que l'affirmation et la/les prémisse(s) sont identifiées, trois types de contre-argumentation sont possibles :

  1. On attaque directement l'affirmation. Concrètement, deux cas de figure sont possibles :
    • Le premier cas de figure relève de la vérification des faits (fact-checking en anglais). Soit le commentaire « Trump n'est pas milliardaire parce que c'est lui-même qui prétend l'être. ». Pour contrer ce commentaire, il suffit de chercher la réponse à la question « Trump est-il milliardaire ? » dans une base de connaissances, construite souvent à base de corpus de presse ou d'articles de Wikipédia.
    • Dans le deuxième cas, l'affirmation de l'auteur n'est pas vérifiable et reflète plutôt une prise de position. Un exemple sera le commentaire « Non. Les droits des femmes sont parfaitement protégés en France car dans certains pays, les femmes n'ont même pas le droit de montrer leur visage. ». Ce genre de situations nécessitent un autre type de base de connaissances, cette fois-ci construite manuellement ou de manière semi-automatique. Le système d'IBM utilise une base de connaissance constituée de triplets « argument ~ contre-arguments ~ exemples d'illustration ».
  2. On attaque la prémisse. Les mêmes techniques du point 1 sont applicables à ce cas de figure, avec la nuance suivante que dans le cas où il y aurait plusieurs prémisses, il convient de classer tout d'abord les prémisses par ordre d'attaquabilité et ensuite d'attaquer les prémisses les plus vulnérables, dans le souci de produire une contre-argumentation concise et efficace.
  3. On attaque le raisonnement reliant l'affirmation et la prémisse. Ce type de contre-arguments est particulièrement difficile à générer car l'algorithme doit être capable de raisonner sur des liens de causalité. Si l'on reprend l'exemple de « Non. Les droits des femmes sont parfaitement protégés en France car dans certains pays, les femmes n'ont même pas le droit de montrer leur visage. ». Un contre-argument possible sera de dire que « Ce n'est pas parce que les droits des femmes sont extrêmement mal protégés dans certains pays que la protection des mêmes droits est parfaite en France. ». Une technique courante pour relever ce défi consiste à classer des paires de phrases : ainsi le commentaire « Trump n'est pas milliardaire, parce que c'est lui-même qui l'a dit. » peut être classé comme un raisonnement fallacieux du type Ad Hominem (attaque personnelle).

Enfin, il est à noter que quelle que soit la stratégie de contre-argumentation, il est impératif d'inclure en aval un module de génération automatique de textes afin de produire un texte argumentatif entier, compréhensible et si possible fluide, au lieu de segments non structurés. Le système d'IBM a utilisé un système à base de règles qui commence par générer un thème général à partir des contre-arguments. Ensuite, des techniques de paraphrase et des modèles de paragraphes ont été utilisés pour produire la contre-argumentation complète. Des solutions plus récentes, en s'appuyant sur des progrès en apprentissage profond, utilisent des modèles de langue génératifs du type GPT afin de produire des contre-arguments plus fluides. Ces modèles ont été entraînés sur des corpus textuels gigantesques et peuvent être ajustés (fine-tunés dans le jargon informatique) afin de produire des textes de grande qualité et de nature très différente tels que CV, lettres de motivation, commentaires, voire poèmes, etc.

 

Points d'attention

La génération automatique de contre-arguments constitue un moyen de modération intéressant en ce qu'elle offre un feed-back plus riche que le blocage ou l'avertissement. Le développement de cette famille de solutions, pas encore entièrement industrialisées, requiert des compétences techniques très variées et attire de plus en plus d'attention aussi bien dans le milieu académique que professionnel.

L'un des défis principaux est la construction ainsi que la constante mise à jour de bases de connaissances contenant des informations fiables ou bien des contre-arguments rédigés par des spécialistes. Générer des contre-arguments visant les raisonnements fallacieux demande aussi une expertise accrue. Des connaissances avancées en génération automatique de textes sont nécessaires afin de produire des textes contre-argumentatifs fluides. Enfin, la relecture humaine reste indispensable afin d'effectuer un blocage lorsque c'est nécessaire, ou de prévenir le cas où les contre-arguments générés automatiquement constitueraient une nouvelle source d'infox.

Par Xiaoou Wang
Ingénieur-Chercheur en Traitement automatique des Langues, fondateur de https://aiprototypes.com/.

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Argumenter au lieu de bloquer : modérer des commentaires en ligne tout en promouvant le débat
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
Leader des technologies d'investigation et services pour la sécurité globale.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Yseop’s Augmented Analyst platform brings natural language generation and other advanced technologies together to offer automation fit for regulated industries.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Emvista fait gagner du temps à ses clients en repensant le Traitement Automatique du Langage Naturel, la discipline de l’intelligence artificielle consacrée à la compréhension de texte. Ses équipes de chercheurs et d’ingénieurs conçoivent des produits pour aider les humains à faire face à l’afflux d’informations et à les transformer en valeur.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Agir chaque jour dans votre intérêt, et celui de la société.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Comment fonctionne la génération de texte ?
Que signifie le sigle NLG ? NLG est l’a­cro­nyme anglais de « Natu­ral Lan­guage Gene­ra­tion », en d’autres termes géné­ra­tion (de textes) en lan­gage natu­rel. Il s’a­git de faire...

Ces études de cas peuvent aussi vous intéresser

Mettre en place une veille scientifique multilingue

Je suis responsable produits/R&D dans le domaine pharmaceutique, et je souhaite mettre en place une veille multilingue.

Tendances selfcare et modernisation du support client

Je suis directeur du support client chez un fournisseur de télévision par satellite. J’ai pour objectif de mettre en place plus de selfcare et automatiser mon support pour que mes clients trouvent plus rapidement les informations qu’ils recherchent. En parallèle, je dois faire baisser les coûts du support client. Alors, comment faire ?

Exploiter efficacement les bases de brevets

En tant que responsable R&D, il est important pour moi d’exploiter les bases de données de brevets dans mon domaine d’activités pour m'assurer que la société ne va pas investir du temps et de l'argent dans un projet qui pourrait être considéré comme une violation de brevet. Cependant, la volumétrie des données disponibles est considérable. A titre d’exemple, l’Office Européen des Brevets donne accès à plus de 140 millions documents de brevets. Le Traitement Automatique des Langues peut-il m’aider à mieux présélectionner des brevets via un fournisseur de brevets et ensuite à en faire un tri efficace ?