Détecter le plagiat multilingue dans l'enseignement supérieur

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comment identifier la plagiat dans les copies des étudiants de manière simple, rapide et la plus exhaustive possible ?

Je suis professeur dans l'enseignement supérieur et je demande souvent à mes étudiants de rédiger des documents afin de les évaluer. Cette évaluation est importante car elle compte pour l'attribution de leur diplôme. En outre, avoir une bonne appréciation du niveau des étudiants me permet d'adapter mon cours en conséquence.

Cependant, certains étudiants utilisent des procédés qui faussent cette évaluation, notamment en recopiant la traduction d'articles disponibles dans une langue étrangère sur Internet. D'après mon expérience, cela concerne environ 3% des copies que je corrige. Vérifier les sources disponibles en ligne est une tâche fastidieuse et dont l'exhaustivité n'est pas garantie.

Comment identifier la plagiat dans les copies des étudiants de manière simple, rapide et la plus exhaustive possible ?

La solution

Identifier les sources, collecter, analyser, traduire et comparer avec les copies de mes étudiants

La solution  à mettre en œuvre pour aider à identifier les extraits traduits dans les copies des étudiants nécessite un processus de traitement qui s'apparente à la veille d'information, couplé à un traitement de comparaison de documents.

Deux grandes approches peuvent être mises en œuvre pour détecter le plagiat dans les copies des étudiants :

  • traduire, dans un premier temps, chacun des devoirs rédigés par les étudiants dans une ou plusieurs langues pertinentes dans le domaine, puis comparer ces traductions avec les documents disponibles en ligne
  • traduire automatiquement les documents pertinents disponibles en ligne puis les comparer à ceux rédigés par les étudiants.

La première approche présente l'avantage que l'on ne traduit qu'un volume relativement faible de documents - les devoirs des étudiants. Cependant, la langue source et la langue cible de la traduction sont inversées par rapport à celle potentiellement effectuée par les étudiants, rendant la comparaison moins fiable.

La seconde approche repose sur une traduction dans le même sens - même langue source et même langue cible - que celle utilisée par les étudiants, elle nécessite de traduire un plus grand nombre de documents. (Lors de cette étape d'identification des sources, on veillera à ce que le nombre et la qualité des sources ne génèrent pas un trop grand nombre de documents à traduire, ce qui nécessiterait des ressources machines importantes.

Les fonctions nécessaires à la détection de plagiat dans les copies d'étudiants

Les approches mentionnées - traduction des sources ou des copies en premier - passent toutes deux par les mêmes étapes qu'elles mettent en œuvre dans des ordres différents :

  1. Identifier les sources d'information.
  2. Collecter les documents pertinents.
  3. Traduire les documents (copies des étudiants ou documents sources selon l'approche choisie).
  4. comparer les documents.

Identifier les sources d'information

Les sources d'information sont généralement spécifiques à chacun des domaines scientifiques. Il peut s'agir notamment de sites de laboratoires, d'enseignants ou de chercheurs, de bases documentaires génériques ou spécifiques.

Les sources d'informations peuvent être définies de plusieurs façons :

  • par leur adresse sur Internet (URL) dans le cas par exemple d'une base documentaire spécialisée
  • par des mots clefs spécifiques, qui correspondent au vocabulaire du domaine.

Ces deux approches sont ensuite croisées, par exemple dans le cas d'une base documentaire générique.

Collecter les documents pertinents

La définition des sources permet de configurer la collecte des documents pertinents. Cette collecte est effectuée au moyen d'un collecteur (crawler en anglais) qui parcourt les sources d'information et collecte les documents pertinents.

Prévoir les accès privés

Certaines bases documentaires sont accessibles via un accès sécurisé,  par exemple dans le cas de journaux, ou d'environnement numérique de travail dédié à l'université. Le collecteur doit pouvoir prendre en compte ces contraintes de connexion aux sources d'information.

Traduire les documents

Il existe plusieurs approches pour la traduction automatique de documents. S'agissant de domaines circonscrits et hautement techniques, les approches à base de mémoire de traduction peuvent s'avérer particulièrement pertinents.

Comparer les documents

La comparaison de documents, couvre un large éventail de techniques. S'agissant de comparer des documents traduits, la comparaison devra être suffisamment tolérante aux différences, tout en évitant de pointer des faux positifs.

Points d'attention

La traduction de grands volumes  de documents peut nécessiter des ressources informatiques importantes en processeur et en stockage) qui doivent être prises en compte dans la mise en place de la solution.

Du point de vue de l'enseignant, la masse d'information disponible modifie les pratiques habituelles de correction, qui reposent  exclusivement sur les connaissances des enseignants. Si elles permettent d'aider à pallier cette profusion, ces solutions impliquent cependant une modification, qui peut s'avérer profonde, de ces pratiques.

Par Alain Couillault
PhD Chargé de Mission Innovation APIL

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Détecter le plagiat multilingue dans l’enseignement supérieur
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Yseop’s Augmented Analyst platform brings natural language generation and other advanced technologies together to offer automation fit for regulated industries.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Emvista fait gagner du temps à ses clients en repensant le Traitement Automatique du Langage Naturel, la discipline de l’intelligence artificielle consacrée à la compréhension de texte. Ses équipes de chercheurs et d’ingénieurs conçoivent des produits pour aider les humains à faire face à l’afflux d’informations et à les transformer en valeur.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Agir chaque jour dans votre intérêt, et celui de la société.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Qu'est-ce qu'un crawler ?
Un craw­ler, ou scra­per, est un outil qui per­met d’ob­te­nir le conte­nu (géné­ra­le­ment tex­tuel) d’une page web afin d’ap­pli­quer des trai­te­ments d’analyse. On se place...
Comment comparer des documents ?
Comparaison de documents, de quoi parle-t-on ? De nom­breuses appli­ca­tions néces­sitent de pou­voir com­pa­rer des docu­ments entre eux, par exemple pour cor­ri­ger un docu­ment, détec­ter du...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...
Comment un ordinateur peut-il aider à traduire ?
De quand date la traduction automatique ? Les pre­mières solu­tions de tra­duc­tion auto­ma­tique et de tra­duc­tion assis­tée par ordi­na­teur sont appa­rues dès le milieu du XXème...
Sur quels principes fonctionne un module de recherche textuelle ?
Moteur de recherche grand public, moteur de recherche professionnel, quelles différences ? Les moteurs de recherche du Web sont deve­nus des outils du quo­ti­dien, et ces...

Ces études de cas peuvent aussi vous intéresser

Mettre en place une veille scientifique multilingue

Je suis responsable produits/R&D dans le domaine pharmaceutique, et je souhaite mettre en place une veille multilingue.

Tendances selfcare et modernisation du support client

Je suis directeur du support client chez un fournisseur de télévision par satellite. J’ai pour objectif de mettre en place plus de selfcare et automatiser mon support pour que mes clients trouvent plus rapidement les informations qu’ils recherchent. En parallèle, je dois faire baisser les coûts du support client. Alors, comment faire ?

Comment recommander du contenu qui sera le plus à même d’intéresser le lecteur suite à l’article qu’il vient de consulter ?

Je suis directeur webmarketing pour un éditeur d'informations d'actualité en ligne et je souhaite utiliser un système de recommandation d’articles efficace pour diminuer le taux de rebond des visiteurs du site et les fidéliser.