Argumenter au lieu de bloquer : modérer des commentaires en ligne tout en promouvant le débat

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Modérer les commentaires des abonnés en évitant le blocage de contenus

Je suis chef de produit d'un quotidien d'actualités.

Pour promouvoir les discussions entre les abonnés de la version en ligne de notre quotidien, nous avons décidé de mettre en place une section de discussion en bas de chaque article.

Ayant déjà recruté des modérateurs de commentaires à cet effet, nous voulons aujourd'hui, au lieu de bloquer les commentaires douteux, appliquer une méthode qui consiste à générer automatiquement des contre-arguments à un commentaire contenant de fausses informations ou un raisonnement douteux. L'avantage d'une telle méthode sera double :

  1. Par rapport au blocage, cette méthode compromet moins la liberté d'expression, principe cher à la démocratie.
  2. La génération automatique de contre-arguments fournit une base de discussion susceptible d'augmenter le taux de participation de nos abonnés dans la section de discussion.

Je cherche donc des outils permettant, lorsque la situation le permet, de fournir automatiquement ou semi-automatiquement des contre-arguments aux commentaires des abonnés.

La solution

Générer automatiquement des contre-arguments

Modération de commentaires, une tâche délicate

La modération de commentaires, ou plus généralement la modération de contenus en ligne, est une tâche courante et importante pour tout média soucieux de la qualité d'échanges entre ses abonnés. Un commentaire peut faire l'objet d'une mesure de modération car il contient des messages haineux, de fausses informations, ou encore, des raisonnements bancals tels que des raisonnements fallacieux du type « Trump n'est pas milliardaire parce que c'est lui-même qui prétend l'être. ». De nos jours, il existe principalement deux méthodes de modération : blocage et avertissement, toutes deux nécessitant un repérage efficace des commentaires non conformes à la loi ou à la charte de publication interne. La première approche a l'avantage d'endiguer d'emblée la mésinformation/désinformation, tandis que la deuxième approche, en signalant des messages douteux aux lecteurs, représente un compromis entre liberté et contrainte. Toutefois, ces deux solutions présentent deux inconvénients principaux :

  1. Elles sont binaires. Un commentaire contient soit une information douteuse, soit une information exacte. Cependant, des commentaires du type « Cette crème solaire est à déconseiller, car Kim Kardashian l'aime beaucoup. » nécessite un traitement plus nuancé.
  2. Elles sont passives, en ce sens que le feed-back fourni aux lecteurs reste peu informatif.

Malgré ces deux désavantages, il est à noter que le blocage reste nécessaire dans le cas où certains commentaires enfreindraient la loi, ce qui par conséquent implique la responsabilité de l'éditeur.

Contre-argumentation ou débat en tant que moyen de modération

Grâce aux dernières avancées de l'Intelligence Artificielle et notamment dans les domaines de la fouille de texte et de la génération automatique de textes (GAT), de nouvelles solutions commencent à faire surface, telles que la génération de contre-arguments qui se montre particulièrement prometteuse. Les contre-arguments générés automatiquement peuvent soit être insérés directement sur les réseaux sociaux, soit être présentés aux modérateurs qui les utilisent par la suite pour fournir un feed-back plus riche aux lecteurs sur les informations douteuses. La génération automatique de contre-arguments présente de multiples avantages :

  1. Elle préserve mieux la liberté d'expression et le droit à l'information par rapport au blocage.
  2. L'utilisation de la génération de contre-arguments comme procédé de modération constitue un moyen stimulant pour fait réfléchir les lecteurs, contribuant ainsi à former/éveiller l'esprit critique de ces derniers.
  3. L'art du débat remonte aux antiquités et il est toujours autant apprécié aujourd'hui. Introduire un débat sur la base des commentaires permet d'augmenter le taux de participation des membres d'une communauté. L'une des communautés les plus actives sur le site de discussion Reddit s'appelle par exemple Change My View (change mon opinion). Chaque jour, de nombreux internautes postent des prises de position sur des sujets sociétaux, incitant les lecteurs à présenter des contre-arguments. L'ambiance particulièrement animée de cette communauté suggère que l'argumentation peut augmenter le degré d'engagement des internautes.

L'une des techniques les plus médiatisées visant à développer les capacités d'argumentation de la machine est sans doute le Projet Debater d'IBM, initié en 2021. L'objectif principal de ce système est de pouvoir engager un débat avec un être humain (et éventuellement gagner le débat). Quelque peu à l'instar de la fameuse compétition pendant laquelle AlphaGo, programme informatique capable de jouer au jeu de go, a battu plusieurs champions du monde, un événement similaire a été organisé en 2019, confrontant le Projet Debater au champion d'un concours de débats interuniversitaires à l'échelle européenne. Bien que le système d'IBM soit conçu pour mener des débats à l'oral, les principales composantes de ce système restent valables pour la génération automatique de contre-arguments en général. Nous présentons dans ce qui suit les étapes essentielles d'un tel système dans le cadre de la modération des commentaires.

Composantes principales d'une chaîne de génération de contre-arguments

Dans un premier temps, il s'agit de repérer automatiquement des éléments argumentatifs d'un commentaire (fouille d'arguments, argument mining en anglais). Ce type de techniques ont déjà été explorées sur les textes biomédicaux où l'on trouve une abondance de mesures expérimentales qui confirment ou infirment les conclusions scientifiques. Dans le cas des commentaires, l'analyse de la structure argumentative peut recourir à des éléments linguistiques différents car les textes de commentaires présentent souvent une subjectivité accrue (je pense que, il est évident que..., etc.). À l'issue de ce stade, deux éléments principaux sont isolés : affirmation et prémisse (claim et evidence en anglais, voir les exemples ci-dessous pour mieux appréhender ces deux concepts).

Dès lors que l'affirmation et la/les prémisse(s) sont identifiées, trois types de contre-argumentation sont possibles :

  1. On attaque directement l'affirmation. Concrètement, deux cas de figure sont possibles :
    • Le premier cas de figure relève de la vérification des faits (fact-checking en anglais). Soit le commentaire « Trump n'est pas milliardaire parce que c'est lui-même qui prétend l'être. ». Pour contrer ce commentaire, il suffit de chercher la réponse à la question « Trump est-il milliardaire ? » dans une base de connaissances, construite souvent à base de corpus de presse ou d'articles de Wikipédia.
    • Dans le deuxième cas, l'affirmation de l'auteur n'est pas vérifiable et reflète plutôt une prise de position. Un exemple sera le commentaire « Non. Les droits des femmes sont parfaitement protégés en France car dans certains pays, les femmes n'ont même pas le droit de montrer leur visage. ». Ce genre de situations nécessitent un autre type de base de connaissances, cette fois-ci construite manuellement ou de manière semi-automatique. Le système d'IBM utilise une base de connaissance constituée de triplets « argument ~ contre-arguments ~ exemples d'illustration ».
  2. On attaque la prémisse. Les mêmes techniques du point 1 sont applicables à ce cas de figure, avec la nuance suivante que dans le cas où il y aurait plusieurs prémisses, il convient de classer tout d'abord les prémisses par ordre d'attaquabilité et ensuite d'attaquer les prémisses les plus vulnérables, dans le souci de produire une contre-argumentation concise et efficace.
  3. On attaque le raisonnement reliant l'affirmation et la prémisse. Ce type de contre-arguments est particulièrement difficile à générer car l'algorithme doit être capable de raisonner sur des liens de causalité. Si l'on reprend l'exemple de « Non. Les droits des femmes sont parfaitement protégés en France car dans certains pays, les femmes n'ont même pas le droit de montrer leur visage. ». Un contre-argument possible sera de dire que « Ce n'est pas parce que les droits des femmes sont extrêmement mal protégés dans certains pays que la protection des mêmes droits est parfaite en France. ». Une technique courante pour relever ce défi consiste à classer des paires de phrases : ainsi le commentaire « Trump n'est pas milliardaire, parce que c'est lui-même qui l'a dit. » peut être classé comme un raisonnement fallacieux du type Ad Hominem (attaque personnelle).

Enfin, il est à noter que quelle que soit la stratégie de contre-argumentation, il est impératif d'inclure en aval un module de génération automatique de textes afin de produire un texte argumentatif entier, compréhensible et si possible fluide, au lieu de segments non structurés. Le système d'IBM a utilisé un système à base de règles qui commence par générer un thème général à partir des contre-arguments. Ensuite, des techniques de paraphrase et des modèles de paragraphes ont été utilisés pour produire la contre-argumentation complète. Des solutions plus récentes, en s'appuyant sur des progrès en apprentissage profond, utilisent des modèles de langue génératifs du type GPT afin de produire des contre-arguments plus fluides. Ces modèles ont été entraînés sur des corpus textuels gigantesques et peuvent être ajustés (fine-tunés dans le jargon informatique) afin de produire des textes de grande qualité et de nature très différente tels que CV, lettres de motivation, commentaires, voire poèmes, etc.

 

Points d'attention

La génération automatique de contre-arguments constitue un moyen de modération intéressant en ce qu'elle offre un feed-back plus riche que le blocage ou l'avertissement. Le développement de cette famille de solutions, pas encore entièrement industrialisées, requiert des compétences techniques très variées et attire de plus en plus d'attention aussi bien dans le milieu académique que professionnel.

L'un des défis principaux est la construction ainsi que la constante mise à jour de bases de connaissances contenant des informations fiables ou bien des contre-arguments rédigés par des spécialistes. Générer des contre-arguments visant les raisonnements fallacieux demande aussi une expertise accrue. Des connaissances avancées en génération automatique de textes sont nécessaires afin de produire des textes contre-argumentatifs fluides. Enfin, la relecture humaine reste indispensable afin d'effectuer un blocage lorsque c'est nécessaire, ou de prévenir le cas où les contre-arguments générés automatiquement constitueraient une nouvelle source d'infox.

Par Xiaoou Wang
Ingénieur-Chercheur en Traitement automatique des Langues (https://xiaoouwang.github.io/)

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Argumenter au lieu de bloquer : modérer des commentaires en ligne tout en promouvant le débat
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Comment fonctionne la génération de texte ?
Que signifie le sigle NLG ? NLG est l’a­cro­nyme anglais de « Natu­ral Lan­guage Gene­ra­tion », en d’autres termes géné­ra­tion (de textes) en lan­gage natu­rel. Il s’a­git de faire...

Ces études de cas peuvent aussi vous intéresser

Aide à la saisie de comptes rendus d'intervention de maintenance

Responsable du service après-vente (SAV) dans une entreprise de fabrication et d’installation de volets roulants, j'envoie quotidiennement des techniciens de maintenance intervenir chez nos clients. Après chaque intervention, ils doivent rédiger un compte rendu (CR) dont une grande partie est pré-remplie à l’aide de notre logiciel de gestion de maintenance assistée par ordinateur (GMAO). Il reste cependant une zone de texte libre à renseigner, quel que soit le type d’intervention (corrective, préventive ou curative). Le clavier des tablettes et téléphones qu’utilisent nos techniciens ne permet pas de le faire rapidement. La reconnaissance vocale peut-elle faciliter la tâche de nos techniciens lors de rédaction de leurs CR, tout en s'intégrant aisément à notre application de GMAO ?

Classer la polarité des avis clients de manière fine

Je suis responsable du service après-vente d'un site de vente en ligne et nous avons actuellement un système de prédiction automatique permettant de classer les avis de clients comme positifs, négatifs et neutres. Cependant, nous aimerions un système de détection qui, au lieu de donner une étiquette globale à un texte entier, fournisse des informations à un niveau plus fin. Existe-t-il des solutions de ce genre ?

Qualifier automatiquement les leads : un gain de temps et de précision

Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.