Détecter le plagiat dans les médias en ligne

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Gare au plagiat : une double préoccupation dans les médias

Dans un monde d’information de masse, les contenus exclusifs constituent une valeur très convoitée et le plagiat une concurrence déloyale.

Afin de prévenir des contentieux en traitant les risques au plus tôt, je souhaite détecter des contenus reprenant sans consentement une  de mes publications.

Inversement, je dois m'assurer que mes publications ne contiennent pas de contenus trop ressemblants avec la production de confrères.

Rechercher des similitudes suspectes dans des masses gigantesques d'information est un défi : des outils d'analyse avancés permettent-ils de le relever ?

La solution

Des outils linguistiques pour évaluer de possibles cas de plagiat

Pour alerter une rédaction sur de possibles cas de plagiat dans les flux de presse, la solution typique met en œuvre plusieurs fonctions principales :

  • la collecte de contenus proches des miens,
  • une comparaison poussée des contenus et un calcul de leur proximité sur des critères multiples de vocabulaire, de phraséologie, de structure des contenus, etc. et l'attribution d'un score de ressemblance,
  • un dispositif d'une alerte aux utilisateurs de la solution, intégré aux processus de publication, dans le cas où la ressemblance franchit un seuil de suspicion,
  • une aide à la lecture permettant de mettre en évidence les similitudes suspectes entre les deux contenus pour un lecteur expert.

Collecter les flux à examiner

Malgré la puissance des traitements automatiques du langage, il est impensable d'analyser la totalité des publications francophones au fil de l'eau sur Internet. Plusieurs types d' outils permettent de cibler le périmètre pertinent pour rechercher de possibles plagiats afin de n'avoir pas à analyser au fil de l'eau la totalité des publications francophones sur Internet :

  • crawlers sur des URL connues et déclarées,
  • requêtes lancées dans un moteur de recherche à partir de mes publications pour cerner des périmètres thématiques proches.

Evaluer la proximité entre des textes

La mesure de la proximité entre deux textes est multifactorielle.

La simple ressemblance lexicale ou thématique est insuffisante pour caractériser le plagiat, d'autant que les plagiaires auront tendance à déguiser superficiellement leurs agissement par un recours aux synonymes, à la périphrase.

De plus, quoi d'étonnant que toute la presse d'actualité présente des contenus proches par leur vocabulaire et leurs concepts à la même date ?

Les contenus doivent donc également présenter des similitudes formelles, structurelles, voire rhétoriques pour que la ressemblance devienne suspecte.

Le traitement du langage naturel permet de telles analyses en produisant beaucoup plus rapidement qu'un opérateur humain des constats chiffrés sur une multitude de points de comparaison entre deux textes. Les techniques de traitement automatique des langues peuvent non seulement aider à la détection de textes suspects de plagiat, mais encore apporter des mesures lexicométriques pour étayer un recours si besoin.

Alerter les utilisateurs et leur présenter les cas suspects

Lorsque des contenus sont identifiés comme possiblement plagiaires, l'utilisateur doit pouvoir évaluer lui-même jusqu'à quel point la suspicion est fondée.

Au-delà d'un certain score de proximité, la solution gagnera à prévoir une alerte à qui de droit et à présenter une restitution des facteurs de similitude identifiés, incluant une aide à la lecture parallèle et annotée des documents.

Points d'attention

Le calcul de distance entre deux contenus peut mêler :

  • des calculs statistiques ou probabilistes déclarés initialement par le développement,
  • un apprentissage par machine learning, initial puis dans le cadre d'une boucle d'amélioration de la qualité.

L'apprentissage suppose d'organiser le processus de feedback et de sensibiliser les utilisateurs à l'intérêt de fournir des retours.

Par Christine Reynaud
Chef de projet contenus numériques

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Détecter le plagiat dans les médias en ligne
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Agir chaque jour dans votre intérêt, et celui de la société.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Emvista fait gagner du temps à ses clients en repensant le Traitement Automatique du Langage Naturel, la discipline de l’intelligence artificielle consacrée à la compréhension de texte. Ses équipes de chercheurs et d’ingénieurs conçoivent des produits pour aider les humains à faire face à l’afflux d’informations et à les transformer en valeur.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Qu'est-ce qu'un crawler ?
Un craw­ler, ou scra­per, est un outil qui per­met d’ob­te­nir le conte­nu (géné­ra­le­ment tex­tuel) d’une page web afin d’ap­pli­quer des trai­te­ments d’analyse. On se place...
Comment comparer des documents ?
Comparaison de documents, de quoi parle-t-on ? De nom­breuses appli­ca­tions néces­sitent de pou­voir com­pa­rer des docu­ments entre eux, par exemple pour cor­ri­ger un docu­ment, détec­ter du...

Ces études de cas peuvent aussi vous intéresser

Mettre en place une veille scientifique multilingue

Je suis responsable produits/R&D dans le domaine pharmaceutique, et je souhaite mettre en place une veille multilingue.

Tendances selfcare et modernisation du support client

Je suis directeur du support client chez un fournisseur de télévision par satellite. J’ai pour objectif de mettre en place plus de selfcare et automatiser mon support pour que mes clients trouvent plus rapidement les informations qu’ils recherchent. En parallèle, je dois faire baisser les coûts du support client. Alors, comment faire ?

Comment recommander du contenu qui sera le plus à même d’intéresser le lecteur suite à l’article qu’il vient de consulter ?

Je suis directeur webmarketing pour un éditeur d'informations d'actualité en ligne et je souhaite utiliser un système de recommandation d’articles efficace pour diminuer le taux de rebond des visiteurs du site et les fidéliser.