Détecter le plagiat multilingue dans l'enseignement supérieur

Le besoin

Comment identifier la plagiat dans les copies des étudiants de manière simple, rapide et la plus exhaustive possible ?

Je suis professeur dans l'enseignement supérieur et je demande souvent à mes étudiants de rédiger des documents afin de les évaluer. Cette évaluation est importante car elle compte pour l'attribution de leur diplôme. En outre, avoir une bonne appréciation du niveau des étudiants me permet d'adapter mon cours en conséquence.

Cependant, certains étudiants utilisent des procédés qui faussent cette évaluation, notamment en recopiant la traduction d'articles disponibles dans une langue étrangère sur Internet. D'après mon expérience, cela concerne environ 3% des copies que je corrige. Vérifier les sources disponibles en ligne est une tâche fastidieuse et dont l'exhaustivité n'est pas garantie.

Comment identifier la plagiat dans les copies des étudiants de manière simple, rapide et la plus exhaustive possible ?

La solution

Identifier les sources, collecter, analyser, traduire et comparer avec les copies de mes étudiants

La solution à mettre en œuvre pour aider à identifier les extraits traduits dans les copies des étudiants nécessite un processus de traitement qui s'apparente à la veille d'information, couplé à un traitement de comparaison de documents.

Deux grandes approches peuvent être mises en œuvre pour détecter le plagiat dans les copies des étudiants :

traduire, dans un premier temps, chacun des devoirs rédigés par les étudiants dans une ou plusieurs langues pertinentes dans le domaine, puis comparer ces traductions avec les documents disponibles en ligne
traduire automatiquement les documents pertinents disponibles en ligne puis les comparer à ceux rédigés par les étudiants.

La première approche présente l'avantage que l'on ne traduit qu'un volume relativement faible de documents - les devoirs des étudiants. Cependant, la langue source et la langue cible de la traduction sont inversées par rapport à celle potentiellement effectuée par les étudiants, rendant la comparaison moins fiable.

La seconde approche repose sur une traduction dans le même sens - même langue source et même langue cible - que celle utilisée par les étudiants, elle nécessite de traduire un plus grand nombre de documents. (Lors de cette étape d'identification des sources, on veillera à ce que le nombre et la qualité des sources ne génèrent pas un trop grand nombre de documents à traduire, ce qui nécessiterait des ressources machines importantes.

Les fonctions nécessaires à la détection de plagiat dans les copies d'étudiants

Les approches mentionnées - traduction des sources ou des copies en premier - passent toutes deux par les mêmes étapes qu'elles mettent en œuvre dans des ordres différents :

Identifier les sources d'information.
Collecter les documents pertinents.
Traduire les documents (copies des étudiants ou documents sources selon l'approche choisie).
comparer les documents.

Identifier les sources d'information

Les sources d'information sont généralement spécifiques à chacun des domaines scientifiques. Il peut s'agir notamment de sites de laboratoires, d'enseignants ou de chercheurs, de bases documentaires génériques ou spécifiques.

Les sources d'informations peuvent être définies de plusieurs façons :

par leur adresse sur Internet (URL) dans le cas par exemple d'une base documentaire spécialisée
par des mots clefs spécifiques, qui correspondent au vocabulaire du domaine.

Ces deux approches sont ensuite croisées, par exemple dans le cas d'une base documentaire générique.

Collecter les documents pertinents

La définition des sources permet de configurer la collecte des documents pertinents. Cette collecte est effectuée au moyen d'un collecteur (crawler en anglais) qui parcourt les sources d'information et collecte les documents pertinents.

Prévoir les accès privés

Certaines bases documentaires sont accessibles via un accès sécurisé, par exemple dans le cas de journaux, ou d'environnement numérique de travail dédié à l'université. Le collecteur doit pouvoir prendre en compte ces contraintes de connexion aux sources d'information.

Traduire les documents

Il existe plusieurs approches pour la traduction automatique de documents. S'agissant de domaines circonscrits et hautement techniques, les approches à base de mémoire de traduction peuvent s'avérer particulièrement pertinents.

Comparer les documents

La comparaison de documents, couvre un large éventail de techniques. S'agissant de comparer des documents traduits, la comparaison devra être suffisamment tolérante aux différences, tout en évitant de pointer des faux positifs.