La Convergence de la Criminalistique et de l'Analyse Linguistique : Nouvelles Frontières dans la Lutte contre la Cybercriminalité
|
|
Le besoin
Identifier les Acteurs de l'Ombre dans le Cyberespace
Je suis Directrice d'un Laboratoire de la Police Scientifique. Notre mission implique la réalisation d'examens, de recherches et d'analyses scientifiques et techniques sur demande des autorités judiciaires, ainsi que des services de la police et de la gendarmerie nationales dans l’optique de constater les infractions pénales et d'identifier leurs auteurs.
Traditionnellement, les experts en analyse de documents dans le domaine de la criminalistique se concentrent sur l'examen des indices liés aux documents ou à des objets similaires. Ces investigations englobent divers aspects tels que l'évaluation de la composition du papier, la détection de marques mécaniques invisibles à l'œil nu, l'identification des techniques d'impression, l'analyse et la distinction des encres, ainsi que la comparaison des écritures manuscrites.
Cependant, l'évolution croissante de la vie numérique nous pousse à élargir notre champ d'intervention. Les réseaux sociaux, les SMS et les e-mails facilitent grandement la communication et l'échange d'informations, offrant la possibilité d'une utilisation anonyme, préservant ainsi le droit à la protection de la vie privée et contribuant à la liberté d'expression. Malheureusement, cette évolution s'accompagne d'une augmentation de la cybercriminalité et de la cyberdélinquance, notamment à travers le harcèlement en ligne, les discours de haine et le phishing. Dans de nombreux cas, le seul élément dont nous disposons pour identifier les cybercriminels est un texte numérique.
Les techniques et les approches provenant du traitement automatique des langues peuvent-elles offrir des indices sur l'identité des rédacteurs de textes anonymes, voire les dévoiler ?
La solution
Découvrir les Visages Cachés de la Cyberdélinquance grâce au Traitement Automatique des Langues
Reconnaître par l’expression
Il est envisageable d'acquérir des informations sur l'identité d'une personne à partir de son expression orale ou écrite. En effet, au sein d'une communauté linguistique, il existe une manière de parler caractéristique de chaque groupe social (le sociolecte) et un usage de la langue spécifique à un individu (idiolecte) qui façonnent le style de chaque locuteur, se manifestant à travers des particularités lexicales, syntaxiques et grammaticales dans le cas de l'écrit, ainsi que par des traits distinctifs de prononciation et d'intonation pour la langue parlée. Ces particularités constituent une sorte d’empreinte styliste qui renseigne sur le locuteur.
Stylométrie et applications
Aux origines
À la croisée de la linguistique et des statistiques, la stylométrie se consacre à la description quantitative des caractéristiques stylistiques d'un texte. Ce terme fait son apparition à la fin du 19ᵉ siècle grâce à l'helléniste Wincenty Lutosławski, qui l'utilise dans un ouvrage visant à établir la chronologie des œuvres de Platon en se basant sur des indices stylistiques. L'idée sous-jacente était que le style de Platon a évolué de manière progressive au fil du temps, impliquant ainsi que deux textes proches dans le temps devraient présenter des marqueurs stylistiques similaires.
Applications récentes
En 2019, l'application de la stylométrie a formellement réfuté une thèse apparue au début des années 2000, selon laquelle Corneille serait l'auteur des œuvres de Molière.
Dans le domaine de la criminalistique, la linguistique judiciaire (forensic linguistic en anglais), qui applique des techniques linguistiques dans le cadre d'enquêtes criminelles, est largement utilisée depuis les années 1970 dans les pays anglophones. Un exemple marquant de son efficacité est son rôle déterminant dans la résolution de l'affaire de l'Unabomber aux États-Unis à la fin des années 70. En identifiant des éléments tels que l'usage de termes peu communs, des variantes inhabituelles d'expressions courantes, et des particularités typographiques dans le manifeste envoyé à la presse américaine en 1995, cette approche a considérablement restreint la liste des suspects.
Les descripteurs stylométriques
Les descripteurs stylométriques ont pour objectif de définir le style d'écriture à divers niveaux, notamment lexical, structurel, syntaxique, thématique et idiosyncrasique.
Les descripteurs lexicaux capturent les caractères et les mots employés par un individu, détaillant la richesse du vocabulaire et les préférences pour certains symboles ou mots. Ils peuvent englober des éléments tels que le nombre ou la fréquence des différents caractères. En ce qui concerne les mots, ces descripteurs englobent le total de mots, la longueur moyenne des mots, la proportion de mots courts et longs, les mots les plus fréquents, le nombre de mots uniques. Ils peuvent également inclure les fréquences de séquences de n éléments (n-grammes), pouvant être des caractères, des syllabes, des mots, voire plus généralement des symboles.
Les descripteurs structurels rendent compte de l'organisation des paragraphes et des phrases, incluant le nombre de phrases, de paragraphes, de lignes, de ponctuation, ainsi que la longueur moyenne des phrases ou des paragraphes.
Les descripteurs lexicaux et structurels ne prennent pas en compte l'ordre des mots, la grammaire, ni le contexte.
Les descripteurs syntaxiques, quant à eux, caractérisent l'utilisation de la ponctuation et des mots fonctionnels (prépositions, conjonctions, etc.), contribuant à définir le sens du texte. Ils englobent la fréquence d’occurrence de chaque type de ponctuation et des différentes catégories grammaticales présentes dans le texte.
Les descripteurs thématiques analysent, par exemple, la distribution ou la fréquence de mots-clés spécifiques.
Enfin, les descripteurs idiosyncrasiques cherchent à saisir les particularités propres à un auteur, telles que les mots mal orthographiés ou rares, les abréviations utilisées, ou l'usage de caractères spéciaux comme les émoticônes.
Identification d’auteur de texte en ligne
Les descripteurs stylométriques peuvent servir à effectuer une attribution d'auteur, c'est-à-dire à identifier, parmi un ensemble de candidats, l'auteur le plus probable d'un texte. Ainsi, il s'agit d'un problème de classification en apprentissage automatique. Lorsque la liste des candidats est limitée à une seule personne, on parle alors du problème de vérification d'auteur. Un défi plus vaste et d'un intérêt particulier pour les experts en criminalistique est celui du profilage d'auteur, qui implique l'inférence de données sociologiques sur l'auteur à partir d'un texte, telles que son genre ou son niveau d'éducation. Dans la suite, il sera uniquement question du problème d'attribution d'auteur.
Données
Pour effectuer une attribution d'auteur, il est nécessaire de disposer au préalable un ensemble de données textuelles contenant des textes rédigés par chaque auteur potentiel. En particulier, lorsqu'il s'agit d'identifier l'auteur de textes publiés sur les réseaux sociaux, il serait idéal que le jeu de données contienne des écrits d'utilisateurs de ces plateformes.
Un exemple étudié dans la littérature est le corpus public #Présidentielle2017, constitué des tweets des candidats à l'élection présidentielle française de 2017. Ces tweets ont été collectés à partir du 1er septembre 2016, dans le cadre de leurs campagnes électorales. Dans le cadre d'enquêtes pour cyber-criminalité ou cyber-délinquance (harcèlement en ligne, hameçonnage, chantage, usurpation d'identité, etc.), les textes à expertiser seraient à confronter à des corpus de publications sur les réseaux sociaux, obtenus au moyen des API fournies par les plateformes correspondantes, et circonscrits selon un périmètre de recherche initial. De même, l'analyse des communications électroniques, incluant les courriels, les messages instantanés, les publications sur les réseaux sociaux ou les forums en ligne, peut constituer des corpus lorsqu'ils sont liés à des activités criminelles. Il est essentiel de souligner que tout accès et traitement de ces données doivent s'opérer dans le plus strict respect de la législation en vigueur en matière de protection des données personnelles, en particulier les dispositions relatives à la lutte contre les discours de haine et les contenus illicites en ligne.
Les textes publiés sur les réseaux sociaux nécessitent des pré-traitements spécifiques, tels que la suppression des balises HTML influençant l'apparence du texte en ligne, et une adaptation de la tokenisation (le découpage du texte en unités morpho-syntaxiques) pour la prise en charge des URL et des symboles non linguistiques comme les "#" dans les "hashtags", voire des émoticônes, ceux-ci pouvant fournir des indices stylistiques..
Attribution d’auteur basée sur les descripteurs stylométriques
Sélection des descripteurs
Sélection par analyse
Une fois les textes prétraités, il est essentiel de sélectionner les descripteurs stylométriques à calculer. En effet, il existe une multitude de descripteurs, mais tous ne seront pas nécessairement efficaces pour différencier les différents auteurs.
Dans le contexte des publications sur les réseaux sociaux, les textes tendent à être succincts. Par conséquent, des descripteurs structurels comme le nombre de paragraphes ou des descripteurs thématiques comme la fréquence d'un mot-clé peuvent a priori ne pas être pertinents pour caractériser un texte.
Sélection automatique
Après avoir préalablement choisi les descripteurs stylométriques à calculer, la sélection peut être affinée parmi ces descripteurs en utilisant une méthode de sélection de variable supervisée. Diverses approches permettent de mesurer la pertinence de chaque descripteur pour prédire l'identité de l'auteur.
Imaginons un corpus composé de 1 000 publications provenant de 10 auteurs (donc 100 publications par auteur en moyenne). L'objectif est d'évaluer la pertinence de la fréquence des prépositions pour différencier les auteurs. Pour ce faire, il est nécessaire de constituer un vecteur d'étiquettes de taille 100, indiquant l'auteur de chaque texte, par exemple sous la forme d'un entier compris entre 1 et 10. En parallèle, un vecteur de taille 100 doit être construit, contenant les fréquences des prépositions dans chacun des textes, calculées comme le quotient du nombre de prépositions par la longueur du texte.
Ensuite, l'information mutuelle entre ces deux vecteurs peut être calculée pour mesurer la force du lien statistique entre la fréquence des prépositions et l'identité de l'auteur. Une information mutuelle nulle indiquerait une indépendance statistique entre les deux variables, signifiant que la fréquence des prépositions ne fournirait aucune indication sur l'identité de l'auteur. À l'inverse, une valeur élevée d'information mutuelle indiquerait un lien statistique fort entre la fréquence des prépositions et l'identité de l'auteur.
La sélection de variable consiste donc à calculer l'information mutuelle entre chacun des descripteurs stylométriques et le vecteur codant les identités des auteurs, puis à retenir uniquement les descripteurs pour lesquels la valeur de l'information mutuelle dépasse un seuil déterminé.
Modèle d’inférence
À ce stade, les descripteurs stylométriques les plus pertinents ont été calculés, et chaque texte du jeu de données d'entraînement est représenté par un vecteur de descripteurs. Si l'on considère, par exemple, que l'on dispose de 100 textes pour chaque auteur, cela signifie que l’on dispose de 100 vecteurs distincts pour chaque auteur.
Une approche simple consiste à calculer la moyenne des 100 vecteurs de descripteurs pour chaque auteur, créant ainsi un unique vecteur qui peut être considéré comme la signature stylistique de cet auteur. Pour identifier l'auteur le plus probable parmi les dix auteurs d'un nouveau texte anonyme, on suit les étapes suivantes :
- calcul du vecteur de descripteurs stylométriques pour le texte anonyme ;
- calcul des distances entre ce vecteur et les vecteurs signatures des auteurs candidats ;
- attribution du texte à l'auteur dont la signature est la plus proche des descripteurs stylométriques du texte anonyme.
La distance peut être simplement une distance euclidienne, ou de manière plus appropriée, une distance de Mahalanobis, prenant en compte les différences de variabilités des différents descripteurs stylométriques et leurs corrélations croisées. Cette approche repose sur l'hypothèse que les vecteurs de descripteurs stylométriques calculés sur les textes du même auteur suivent une distribution gaussienne autour d'une signature moyenne. Elle présente l'avantage d'être simple à mettre en œuvre et intuitive.
Cependant, les descripteurs stylométriques peuvent suivre une distribution plus complexe, par exemple si les auteurs utilisent différents styles en fonction du contexte. De manière plus générale, si l'on dispose d'au moins une centaine de textes par auteur, on peut opter pour une approche d'apprentissage supervisé. On peut entraîner un modèle à associer le bon auteur à chaque descripteur stylométrique, traitant ainsi le problème comme une classification multiclasse. Plusieurs modèles peuvent être adoptés, parmi lesquels les Séparateurs à Vastes Marges (SVM), les forêts aléatoires ou encore des arbres de décisions boostés.
Attribution basée sur l’apprentissage profond
L’approche présentée précédemment repose sur de l’ingénierie des descripteurs. A partir de connaissances linguistiques, on construit explicitement une représentation vectorielle des textes que l’on veut pertinente pour résoudre le problème d’attribution d’auteurs.
Une approche alternative consiste à laisser le modèle de classification le soin d’extraire automatiquement (et implicitement) les propriétés statistiques pertinentes dans les textes pour distinguer les auteurs et ensuite les attribuer à un texte anonyme.
L'approche exposée précédemment repose sur l'ingénierie des descripteurs. À partir de connaissances linguistiques, on construit explicitement une représentation vectorielle des textes afin de la rendre pertinente pour résoudre le problème d'attribution d'auteurs.
Une approche alternative consiste à laisser le modèle de classification prendre en charge l'extraction automatique (et implicite) des propriétés statistiques pertinentes dans les textes, afin de distinguer les auteurs.
Plongement sémantique
Après avoir effectué un prétraitement similaire, la première étape consiste à calculer une représentation vectorielle pour chaque mot du corpus d'apprentissage. On peut obtenir ces représentations en utilisant un modèle de langue de grande taille. Ce sont des modèles mathématiques qui évaluent la probabilité d'occurrence d'une séquence de mots dans une langue, voire dans un ensemble donné de documents. Ils reposent sur la capture des relations contextuelles entre les mots, ce qui les rend efficaces pour mesurer les similarités sémantiques. Les représentations vectorielles internes résultantes sont donc appelées des plongements sémantiques.
Ainsi, les textes du jeu de données d'entraînement sont représentés par des séquences de vecteurs de longueurs différentes.
Modèle séquentiel
On obtient un problème classique de classification de données séquentielles pour lequel des réseaux de neurones séquentiels ont été spécifiquement conçus. Il s’agit par exemple des LSTM (long short term memory) ou encore des Transformers, utilisés notamment pour l’apprentissage des modèles de langues.
Ces modèles ont la particularité de pouvoir capturer les dépendances qui existent entre plusieurs éléments dans une séquence longue, et de pouvoir sélectionner les éléments les plus pertinents de la séquence, en fonction de la variable à prédire, dans ce contexte, l’identité de l’auteur.
Ainsi, utilisés pour l’attribution d’auteur, ces modèles doivent par entraînement, arriver à découvrir les motifs stylistiques propres à chaque auteur, lesquels resteront codés implicitement par les paramètres du modèles appris.
Comme précédemment, pour identifier l’auteur d’un nouveau texte, il suffit de vectoriser ses mots, après prétraitements, et ensuite de passer la séquence obtenue en entrée du modèle séquentiel appris.
On se retrouve face à un problème classique de classification de données séquentielles. Pour le résoudre, des réseaux de neurones séquentiels ont été spécifiquement conçus. Parmi eux, on trouve les LSTM (long short term memory) et les Transformers, qui sont largement utilisés dans l'apprentissage de modèles de langues de grande taille.
Ces modèles présentent la particularité de pouvoir saisir les dépendances entre différents éléments dans une séquence longue, ainsi que de sélectionner les éléments les plus pertinents de la séquence en fonction de la variable à prédire, en l’occurrence, l'identité de l'auteur. Lorsqu'ils sont employés pour l'attribution d'auteur, ces modèles doivent, par le biais de l'entraînement, découvrir les motifs stylistiques spécifiques à chaque auteur, lesquels resteront codés implicitement par les paramètres du modèle appris.
De la même manière qu'auparavant, pour identifier l'auteur d'un nouveau texte, il suffit de vectoriser ses mots après prétraitements, puis de soumettre la séquence obtenue en entrée du modèle séquentiel appris.
Points d'attention
Auteurs inconnus
Il est crucial de se rappeler que l'attribution d'auteur fournit l'identité de l'auteur le plus probable parmi une liste de candidats connus. Par conséquent, l'interprétation des scores d'attribution générés par les modèles doit prendre en compte la possibilité que le texte provienne d'un auteur inconnu.
D'un point de vue méthodologique, les approches supervisées d'attribution d'auteur présentées peuvent être complétées par des méthodes non supervisées de détection de nouveauté et de clustering, permettant ainsi d'identifier (statistiquement) les auteurs inconnus.
Interprétabilité
Dans le contexte délicat d'une enquête judiciaire, il est essentiel de comprendre pourquoi un modèle identifie une personne comme l'auteur le plus probable d'un texte. C’est la propriété d'interprétabilité des modèles d'apprentissage automatique.
Les modèles basés sur des descripteurs stylométriques sont a priori plus faciles à interpréter en raison de la nature même de ces descripteurs. En effet, un expert humain peut établir un lien entre les prédictions du modèle et les caractéristiques stylistiques du texte.
D'un autre côté, l'approche basée sur les réseaux de neurones profonds ne fournit pas naturellement une telle lisibilité. Cependant, des progrès significatifs ont été réalisés dans la recherche sur l'interprétabilité des modèles profonds, et de nombreuses approches permettent d'accéder a posteriori à ce que le modèle a appris puis d’interpréter ses prédictions. C'est une perspective cruciale, car les réseaux de neurones profonds peuvent gérer la complexité du problème en découvrant des caractéristiques stylistiques plus subtiles que celles identifiées par des descripteurs stylométriques.
Evolution du style au fil du temps
Un aspect essentiel à considérer dans l'attribution d'auteur est l'évolution potentielle du style d'écriture au fil du temps. Il est nécessaire d'adopter une stratégie de mise à jour continuelle du modèle pour garantir sa fiabilité. De plus, il est important de prendre en compte le recours à des tiers pour la rédaction de textes, notamment pour les personnalités publiques. De nos jours, l'utilisation de modèles de langues génératifs pour la création ou la reformulation de textes est également à prendre en considération. Ces éléments introduisent des variations et des effets d'homogénéisation du style, pouvant rendre l'attribution de texte plus complexe lorsque l’on dispose un faible volume de données.