Le besoin
Détecter des phénomènes et signaux peu perceptibles pour les opérateurs humains
Mettre en évidence des rôles ou des indices qui doivent alerter
A partir des enregistrements audio/vidéo ou de correspondances textuelles, les opérateurs de mon bureau doivent discerner de nouveaux acteurs au sein d'un réseau, les rôles des divers membres du réseau, des changements qui, même lorsqu'ils ne sont pas explicites, peuvent faire envisager des faits importants ou aider à prédire un risque de passage à l'acte.
Je sais que l'intelligence artificielle permet aujourd'hui de mettre en évidence des signaux peu perceptibles à un opérateur humain dans l'évolution d'un corpus de données textuelles, mais quel est l'état de l'art réel ? Ces technologies peuvent-elles identifier les rôles des membres d'un réseau ? Prédire un passage à l'acte ? Quelle place peut-on leur donner dans un dispositif de surveillance ?
Intégrer rapidement une nouvelle langue rare au dispositif de surveillance
Au gré des évolutions géopolitiques, le dispositif de surveillance doit porter une attention nouvelle à tel ou tel pays, région du monde, ou groupe étranger sur le territoire national. Mon équipe comprend des spécialistes bilingues, mais un outillage informatique de la surveillance doit lui aussi couvrir toutes les langues de travail des agents. Les technologies d'analyse linguistique capables d'outiller la surveillance des réseaux criminels sont-elles disponibles dans des langues rares telles que l'ourdou, le tchétchène ou le swahili ? A quelles conditions peut-on intégrer une nouvelle langue si besoin ?
La solution
Une palette d'outils de traitement du texte et de la parole
Transcrire la parole en texte pour unifier le corpus de données
Lorsque les sources collectées sont de nature audio, vidéo et textuelles, il peut être préférable de ramener l'ensemble du matériau à du texte, afin d'optimiser l'apprentissage par les systèmes automatisés.
La solution intègre donc classiquement un module de transcription de la parole, qui peut prendre en entrée un flux audio ou vidéo.
Reconnaître des situations dans le flux de données par l'apprentissage automatique
Les technologies de traitement du langage sont aujourd'hui mures pour identifier par apprentissage des "patterns" de situations dans des données textuelles fréquemment actualisées, même si les faits ou les situations ne sont pas explicitement abordés :
- la hiérarchie d'un réseau et certains rôles typiques de leurs membres,
- des modifications dans les relations entre les membres ou l'arrivée d'un nouveau membre,
- l'identité probable comme une seule et même personnes de deux intervenants présentés sous des noms différents,
- des changements d'activité prédictifs d'un passage à l'acte ou d'un fait majeur au sein du réseau.
Ces analyses reposent sur le repérage de patterns typiques dans le flux des données, c'est à dire des régularités admettant de possibles variantes, qui peuvent porter sur les mots, les expressions, la phraséologie et notamment la manière de s'adresser l'un à l'autre des interlocuteurs. Un historique de données déjà analysées, dont les conclusions ont pu être vérifiées, permet d'alimenter un système d'apprentissage automatique ; dès lors, l'outil peut induire, à partir de nouvelles données, des phénomènes extraits a posteriori de l'historique.
Ces analyses constituent un appoint précieux en complément du travail des agents humains, en mettant en évidence des phénomènes imperceptibles dans la masse.
Intégrer rapidement de nouvelles langues, y compris rares, par l'apprentissage automatique
La localisation d'un logiciel dans une nouvelle langue peut être une opération très lourde lorsqu'elle repose uniquement sur un moteur de règles linguistiques. Fort heureusement, les technologies de machine learning sont mures depuis déjà des années pour réaliser des tâches d'analyse sur une langue nouvelle, dès lors qu'elles disposent d'un corpus de taille suffisante et représentatif des données réelles à analyser. Si la qualité d'analyse peut être éternellement perfectionnée, une production opérationnelle dans une nouvelle langue peut être atteinte en quelques mois.
Points d'attention
Nous l'avons vu précédemment : les technologies linguistiques d'aide à la surveillance des réseaux criminels reposent très fortement sur des systèmes construits par apprentissage. La masse mais également la qualité des données d'apprentissage sont des conditions majeures de succès pour atteindre un apport décisif aux équipes de renseignement.
Ces technologies sont un complément précieux là où l'humain est limité dans ses analyses : elles s'intègrent idéalement dans un processus et un poste de travail adaptés aux modes opératoires des agents humains, aux côtés d'autres technologies assez similaires opérant sur l'image ou autres données non textuelles.