L'OSINT au service de l'information stratégique

Le besoin

Aller au-delà de la veille technologique pour obtenir des informations stratégiques

La veille est une activité-clé de la stratégie d’une entreprise. Elle consiste à rechercher et collecter des informations stratégiques pour avoir un aperçu global d’un secteur d’activité et ainsi anticiper les évolutions et innovations. C’est donc un moyen relativement efficace pour surveiller activement la concurrence et les tendances afin de définir une stratégie d’entreprise. En entreprise, le terme de « veille » renvoie en réalité à plusieurs branches spécifiques, parmi lesquelles :

la veille concurrentielle,
la veille technologique,
la veille commerciale,
la veille juridique et réglementaire,
La veille image.

Chacune d’elles répond à un objectif spécifique, mais toutes nécessitent des recherches approfondies et ciblées afin d’obtenir des informations pertinentes.

Or, il existe un biais fondamental : un veilleur sait ce qu’il cherche et va donc découvrir uniquement des informations en lien étroit avec sa recherche initiale. Il n’a pas de vue d’ensemble sur ce qu’il recherche et il aura même tendance à éviter le bruit, c’est-à-dire tout ce qui ne correspond pas exactement à sa requête. Cette façon de procéder le fait potentiellement passer à côté d’informations-clés. Alors, comment éviter ce biais ?

Quelle solution mon entreprise peut-elle mettre en place afin d’aller au-delà de la veille stratégique classique pour adopter une vision plus globale et pertinente de mon secteur ?

La solution

Sérendipité et prédiction à partir de l'OSINT

Pour trouver des informations stratégiques, il faut ratisser large, bien au-delà des recherches ciblées que peut habituellement faire un veilleur. L’objectif est de collecter une très grande quantité de données autour d’une thématique ou d’un secteur d’activité puis de les traiter à l’aide d’un modèle de traitement automatique des langues à base d’intelligence artificielle afin d’en extraire les informations pertinentes.

Collecter les données à l’aide d’un crawler web

Avant la diffusion d'Internet, 80% du savoir se trouvait dans les bases de données. Il en existe pour de nombreux domaines, on peut notamment citer TOPMed (programme Trans-Omics for Precision Medicine) et Embase pour le domaine médical et biomédical, ou bien le Derwent World Patents Index qui regroupe tous les dépôts de brevets à l'échelle internationale. Avec la montée du web, un système de revue a été mis en place avant de mettre en ligne de nouvelles informations mais ce processus prenait plusieurs semaines.

Aujourd’hui, la solution la plus efficace pour récupérer un maximum de données est donc d’adopter une démarche d’Open-source Intelligence (OSINT) en explorant l’ensemble du web. L’OSINT peut être définie comme "un ensemble hétéroclite de pratiques d'investigation et d'analyse visant à dévoiler une information préalablement dissimulée en récoltant, croisant ou analysant des données numériques disponibles en source ouverte" (Wikipédia). Autrement dit, on va pouvoir récupérer grâce à l’OSINT tout ce qui est accessible publiquement sans clauses restrictives. La Web Intelligence (WEBINT) est quant à elle un sous-ensemble de l’OSINT qui englobe tout ce qu'on peut trouver sur le web. L’immense masse d’informations est représentée dans le WEBINT, c’est donc sur cela qu’il faut se concentrer. Cette démarche va favoriser le phénomène de sérendipité, c'est-à-dire la découverte potentielle d'informations inattendues mais encore plus intéressantes que celles que l'on recherchait initialement.

Pour pouvoir collecter toutes les informations stratégiques, l’idée est d’utiliser un crawler (« robot d’indexation », en français) qui va parcourir le web à la recherche de données, analyser le contenu des sites et enregistrer tout ce qui concerne de près ou de loin le domaine visé et les domaines connexes. On peut notamment définir une recherche et regarder l’évolution de ce sujet dans le temps, ce qui permet de pouvoir prévenir ce qu’il va se passer autour d’une entreprise ou dans un secteur d’activités.

Une fois le crawling terminé, on se retrouve avec des milliers de documents à analyser. C’est à ce moment qu’un modèle de traitement automatique des langues (NLP) va être nécessaire.

Traiter les données à l’aide du NLP et de l’IA

Après avoir récupéré un maximum de données grâce au crawler, l’objectif est d’en extraire les entités nommées et les concepts.

Extraction des entités nommées et des concepts

Pour les entités nommées, il s’agit généralement de noms propres qui peuvent être des noms de personnes, de lieux, d’organisations, de sociétés ou encore des noms de produits présents dans les données et que l’on va détecter, extraire et catégoriser à l’aide d’un modèle dédié.

Les concepts sont quant à eux des unités sémantiques qui permettent de mieux comprendre le contenu d’un domaine. Ils peuvent être composés de termes simples, c’est-à-dire d’un seul mot, généralement simple à extraire, ou bien de termes composés, c’est-à-dire d’un ensemble de mots porteurs de sens, plus difficiles à extraire.

Recherche d’un compromis entre précision et rappel

Pour extraire les entités nommées et les concepts, il existe deux façons de procéder en traitement automatique des langues :

un modèle à base de règles qui va s’appuyer sur des dictionnaires et des ontologies,
un modèle à base d’intelligence artificielle.

D’un côté, le modèle à base de règles est très précis mais peu flexible, autrement dit, si les données que l’on traite ne sont pas présentes dans le dictionnaire, le modèle ne trouvera rien. Il risque donc de laisser passer beaucoup d’informations importantes.

D’un autre côté, le modèle qui s’appuie sur l’intelligence artificielle permet de ratisser plus large et donc de rater moins d’informations-clés. Cependant, cette approche conduit fréquemment à un phénomène de seuil de précision.

Le premier privilégie donc une bonne précision, c’est-à-dire l’exactitude (la qualité) des informations détectées, tandis que l’autre donne la priorité à l’exhaustivité (la quantité).

Aucun de ces deux extrêmes n’est préférable, l’objectif est plutôt de positionner le curseur entre les deux modèles, c’est-à-dire de trouver le bon équilibre entre précision et rappel.

Mise en relation des entités nommées et des concepts

Une fois l’extraction des entités nommées et des concepts terminée, le modèle de NLP à base d’intelligence artificielle va permettre de faire le lien entre toutes les notions. L’objectif est de qualifier les relations sémantiques entre ces entités.

On peut aussi aller plus loin et identifier les relations entre sociétés et événements, par exemple : un partenariat entre deux sociétés, une société qui sort une innovation, une invention qui vient d’être brevetée, ou encore une société qui fait du greenwashing.

L’OSINT nous permet ainsi d'extraire toute l’activité des concurrents, d’identifier les nouveaux entrants, de voir les innovations technologiques ou encore en cours dans notre domaine, les tendances marketing des concurrents et des nouveaux entrants, voire à terme les risques qui se positionnent sur notre marché, c’est-à-dire ce qui arrive à d’autres entreprises et pourrait nous impacter à moyen terme. Cette démarche va donc au-delà de la veille et permet d’anticiper l’avenir.

A partir d’un ensemble très parcellaire et désordonné récupéré sur le web, on arrive donc, grâce aux outils de NLP et à l’intelligence artificielle, à un ensemble ordonné et cohérent qui permet de définir des axes de stratégie et de réaction pertinents.

Cependant, contrairement à la veille, cette méthode fait manipuler de grosses masses de documents, ce qui, en plus d’un modèle performant, nécessite l’utilisation de nouveaux outils de data visualization.

Visualiser les données grâce aux outils de dataviz

Les outils de visualisation de données (data visualization en anglais, ou dataviz) comme Kibana permettent de représenter visuellement de grandes quantités de données afin d’en avoir une vision globale et ainsi analyser les tendances qui s’en dégagent.

Il existe deux moyens de visualiser les données :

la visualisation d'agrégation,
la visualisation de graphes.

Avec la visualisation d’agrégation, on va pouvoir mettre en lumière dans un secteur ce qu’on ne pourrait pas voir à l’échelle d’une seule entreprise, par exemple un secteur qui s’oriente progressivement vers la réduction carbone.

Voici un exemple de dataviz d'exploration d'agrégats concernant l'affaire Carlos Ghosn, le PDG de Renault et Nissan accusé de malversations financières et d'abus de confiance :

Cet outil d'exploration permet de visualiser les sociétés et organisations impliquées, mais aussi les personnes et les pays liés d'une manière ou d'une autre à l'affaire, notamment. Le récapitulatif des sources permet aussi de savoir où les informations ont principalement été relayées et donnent donc un indice sur leur fiabilité.

En revanche, il est plus difficile de se familiariser avec la visualisation de graphes car c’est une méthode plus déroutante au premier abord mais ce sont les graphes qui contiennent les informations les plus intéressantes. L'objectif est de naviguer dans les données représentées dans des graphes en 2D ou 3D et d’étudier les amas et galaxies qui se forment afin de comprendre vers quoi les données collectées tendent. La visualisation de données se pratique donc dans une démarche d’exploration, à la recherche de pépites informationnelles.

Voici des exemples de dataviz de graphes en 2D et 3D, toujours sur l'affaire Carlos Ghosn :

en vert, on peut voir les entreprises qui gravitent autour de l'affaire,
en bleu, les événements-clés liés à l'affaire,
en rouge, les risques divers qui en découlent.

Ces graphes mettent en valeur les interactions et les relations de l'ensemble de ces éléments entre eux. Les graphes en 3D ont l'avantage de pouvoir être manipulés et la troisième dimension les rend moins denses, contrairement aux graphes en 2D qui mettent toutes les informations à plat en les superposant parfois, ce qui les rend moins lisibles.

Comme les graphes restent compliqués à appréhender, une dernière phase est importante : le story telling.

L’importance du story telling

Le story telling, c’est l’art, pour un expert, de raconter les découvertes qu'il a faites en analysant les données, en les ramenant dans un contexte concret et en expliquant la méthode suivie. Autrement dit, c’est donner à un manager ou au dirigeant de l’entreprise, par exemple, les clés de compréhension de cette analyse complexe afin qu’il ou elle puisse suivre l'évolution des résultats dans le temps pour définir une stratégie d'entreprise à court et moyen terme. Des outils de visualisation de données de type présentation tels que PowerPoint peuvent être utilisés pour accompagner le story telling afin de faciliter la transmission et la diffusion des informations.