L'OSINT au service de l'information stratégique

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Aller au-delà de la veille technologique pour obtenir des informations stratégiques

La veille est une activité-clé de la stratégie d’une entreprise. Elle consiste à rechercher et collecter des informations stratégiques pour avoir un aperçu global d’un secteur d’activité et ainsi anticiper les évolutions et innovations. C’est donc un moyen relativement efficace pour surveiller activement la concurrence et les tendances afin de définir une stratégie d’entreprise. En entreprise, le terme de « veille » renvoie en réalité à plusieurs branches spécifiques, parmi lesquelles :

  • la veille concurrentielle,
  • la veille technologique,
  • la veille commerciale,
  • la veille juridique et réglementaire,
  • La veille image.

Chacune d’elles répond à un objectif spécifique, mais toutes nécessitent des recherches approfondies et ciblées afin d’obtenir des informations pertinentes.

Or, il existe un biais fondamental : un veilleur sait ce qu’il cherche et va donc découvrir uniquement des informations en lien étroit avec sa recherche initiale. Il n’a pas de vue d’ensemble sur ce qu’il recherche et il aura même tendance à éviter le bruit, c’est-à-dire tout ce qui ne correspond pas exactement à sa requête. Cette façon de procéder le fait potentiellement passer à côté d’informations-clés. Alors, comment éviter ce biais ?

Quelle solution mon entreprise peut-elle mettre en place afin d’aller au-delà de la veille stratégique classique pour adopter une vision plus globale et pertinente de mon secteur ?

La solution

Sérendipité et prédiction à partir de l'OSINT

Pour trouver des informations stratégiques, il faut ratisser large, bien au-delà des recherches ciblées que peut habituellement faire un veilleur. L’objectif est de collecter une très grande quantité de données autour d’une thématique ou d’un secteur d’activité puis de les traiter à l’aide d’un modèle de traitement automatique des langues à base d’intelligence artificielle afin d’en extraire les informations pertinentes.

Collecter les données à l’aide d’un crawler web

Avant la diffusion d'Internet, 80% du savoir se trouvait dans les bases de données. Il en existe pour de nombreux domaines, on peut notamment citer TOPMed (programme Trans-Omics for Precision Medicine) et Embase pour le domaine médical et biomédical, ou bien le Derwent World Patents Index qui regroupe tous les dépôts de brevets à l'échelle internationale. Avec la montée du web, un système de revue a été mis en place avant de mettre en ligne de nouvelles informations mais ce processus prenait plusieurs semaines.

Aujourd’hui, la solution la plus efficace pour récupérer un maximum de données est donc d’adopter une démarche d’Open-source Intelligence (OSINT) en explorant l’ensemble du web. L’OSINT peut être définie comme "un ensemble hétéroclite de pratiques d'investigation et d'analyse visant à dévoiler une information préalablement dissimulée en récoltant, croisant ou analysant des données numériques disponibles en source ouverte" (Wikipédia). Autrement dit, on va pouvoir récupérer grâce à l’OSINT tout ce qui est accessible publiquement sans clauses restrictives. La Web Intelligence (WEBINT) est quant à elle un sous-ensemble de l’OSINT qui englobe tout ce qu'on peut trouver sur le web. L’immense masse d’informations est représentée dans le WEBINT, c’est donc sur cela qu’il faut se concentrer. Cette démarche va favoriser le phénomène de sérendipité, c'est-à-dire la découverte potentielle d'informations inattendues mais encore plus intéressantes que celles que l'on recherchait initialement.

Pour pouvoir collecter toutes les informations stratégiques, l’idée est d’utiliser un crawler (« robot d’indexation », en français) qui va parcourir le web à la recherche de données, analyser le contenu des sites et enregistrer tout ce qui concerne de près ou de loin le domaine visé et les domaines connexes.  On peut notamment définir une recherche et regarder l’évolution de ce sujet dans le temps, ce qui permet de pouvoir prévenir ce qu’il va se passer autour d’une entreprise ou dans un secteur d’activités.

Une fois le crawling terminé, on se retrouve avec des milliers de documents à analyser. C’est à ce moment qu’un modèle de traitement automatique des langues (NLP) va être nécessaire.

Traiter les données à l’aide du NLP et de l’IA

Après avoir récupéré un maximum de données grâce au crawler, l’objectif est d’en extraire les entités nommées et les concepts.

Extraction des entités nommées et des concepts

Pour les entités nommées, il s’agit généralement de noms propres qui peuvent être des noms de personnes, de lieux, d’organisations, de sociétés ou encore des noms de produits présents dans les données et que l’on va détecter, extraire et catégoriser à l’aide d’un modèle dédié.

Les concepts sont quant à eux des unités sémantiques qui permettent de mieux comprendre le contenu d’un domaine. Ils peuvent être composés de termes simples, c’est-à-dire d’un seul mot, généralement simple à extraire, ou bien de termes composés, c’est-à-dire d’un ensemble de mots porteurs de sens, plus difficiles à extraire.

Recherche d’un compromis entre précision et rappel

Pour extraire les entités nommées et les concepts, il existe deux façons de procéder en traitement automatique des langues :

  • un modèle à base de règles qui va s’appuyer sur des dictionnaires et des ontologies,
  • un modèle à base d’intelligence artificielle.

D’un côté, le modèle à base de règles est très précis mais peu flexible, autrement dit, si les données que l’on traite ne sont pas présentes dans le dictionnaire, le modèle ne trouvera rien. Il risque donc de laisser passer beaucoup d’informations importantes.

D’un autre côté, le modèle qui s’appuie sur l’intelligence artificielle permet de ratisser plus large et donc de rater moins d’informations-clés. Cependant, cette approche conduit fréquemment à un phénomène de seuil de précision.

Le premier privilégie donc une bonne précision, c’est-à-dire l’exactitude (la qualité) des informations détectées, tandis que l’autre donne la priorité à l’exhaustivité (la quantité).

Aucun de ces deux extrêmes n’est préférable, l’objectif est plutôt de positionner le curseur entre les deux modèles, c’est-à-dire de trouver le bon équilibre entre précision et rappel.

Mise en relation des entités nommées et des concepts

Une fois l’extraction des entités nommées et des concepts terminée, le modèle de NLP à base d’intelligence artificielle va permettre de faire le lien entre toutes les notions. L’objectif est de qualifier les relations sémantiques entre ces entités.

On peut aussi aller plus loin et identifier les relations entre sociétés et événements, par exemple : un partenariat entre deux sociétés, une société qui sort une innovation, une invention qui vient d’être brevetée, ou encore une société qui fait du greenwashing.

L’OSINT nous permet ainsi d'extraire toute l’activité des concurrents, d’identifier les nouveaux entrants, de voir les innovations technologiques ou encore en cours dans notre domaine, les tendances marketing des concurrents et des nouveaux entrants, voire à terme les risques qui se positionnent sur notre marché, c’est-à-dire ce qui arrive à d’autres entreprises et pourrait nous impacter à moyen terme. Cette démarche va donc au-delà de la veille et permet d’anticiper l’avenir.

A partir d’un ensemble très parcellaire et désordonné récupéré sur le web, on arrive donc, grâce aux outils de NLP et à l’intelligence artificielle, à un ensemble ordonné et cohérent qui permet de définir des axes de stratégie et de réaction pertinents.

Cependant, contrairement à la veille, cette méthode fait manipuler de grosses masses de documents, ce qui, en plus d’un modèle performant, nécessite l’utilisation de nouveaux outils de data visualization.

Visualiser les données grâce aux outils de dataviz

Les outils de visualisation de données (data visualization en anglais, ou dataviz) comme Kibana permettent de représenter visuellement de grandes quantités de données afin d’en avoir une vision globale et ainsi analyser les tendances qui s’en dégagent.

Il existe deux moyens de visualiser les données :

  • la visualisation d'agrégation,
  • la visualisation de graphes.

Avec la visualisation d’agrégation, on va pouvoir mettre en lumière dans un secteur ce qu’on ne pourrait pas voir à l’échelle d’une seule entreprise, par exemple un secteur qui s’oriente progressivement vers la réduction carbone.

Voici un exemple de dataviz d'exploration d'agrégats concernant l'affaire Carlos Ghosn, le PDG de Renault et Nissan accusé de malversations financières et d'abus de confiance :

Cet outil d'exploration permet de visualiser les sociétés et organisations impliquées, mais aussi les personnes et les pays liés d'une manière ou d'une autre à l'affaire, notamment. Le récapitulatif des sources permet aussi de savoir où les informations ont principalement été relayées et donnent donc un indice sur leur fiabilité.

En revanche, il est plus difficile de se familiariser avec la visualisation de graphes car c’est une méthode plus déroutante au premier abord mais ce sont les graphes qui contiennent les informations les plus intéressantes. L'objectif est de naviguer dans les données représentées dans des graphes en 2D ou 3D et d’étudier les amas et galaxies qui se forment afin de comprendre vers quoi les données collectées tendent. La visualisation de données se pratique donc dans une démarche d’exploration, à la recherche de pépites informationnelles.

Voici des exemples de dataviz de graphes en 2D et 3D, toujours sur l'affaire Carlos Ghosn :

  • en vert, on peut voir les entreprises qui gravitent autour de l'affaire,
  • en bleu, les événements-clés liés à l'affaire,
  • en rouge, les risques divers qui en découlent.

Ces graphes mettent en valeur les interactions et les relations de l'ensemble de ces éléments entre eux. Les graphes en 3D ont l'avantage de pouvoir être manipulés et la troisième dimension les rend moins denses, contrairement aux graphes en 2D qui mettent toutes les informations à plat en les superposant parfois, ce qui les rend moins lisibles.

Comme les graphes restent compliqués à appréhender, une dernière phase est importante : le story telling.

L’importance du story telling

Le story telling, c’est l’art, pour un expert, de raconter les découvertes qu'il a faites en analysant les données, en les ramenant dans un contexte concret et en expliquant la méthode suivie. Autrement dit, c’est donner à un manager ou au dirigeant de l’entreprise, par exemple, les clés de compréhension de cette analyse complexe afin qu’il ou elle puisse suivre l'évolution des résultats dans le temps pour définir une stratégie d'entreprise à court et moyen terme. Des outils de visualisation de données de type présentation tels que PowerPoint peuvent être utilisés pour accompagner le story telling afin de faciliter la transmission et la diffusion des informations.

Points d'attention

L’une des difficultés principales est d’avoir un bon modèle pour analyser les données. C’est un investissement lourd et il faut dimensionner correctement l’architecture de manière à absorber la masse, sinon le temps de traitement peut être excessivement long. Si la quantité de données est insuffisante pour entrainer le modèle, il existe des solutions.

Cette méthode nécessite aussi la maîtrise de nouveaux outils de visualisation plus ou moins complexes avec lesquels il faut prendre le temps de se familiariser. Il y a un risque de se retrouver submergé par la quantité de données.

Pour finir, le manque d’implication du management est un danger important. Cette méthode demande un gros investissement de temps, d’argent et de ressources, il faut donc que la démarche vienne d’en haut, c’est-à-dire du dirigeant, en ayant au préalable évalué le rapport coût/efficacité. Si c’est aux veilleurs de convaincre le top management, alors c’est inutile de se lancer dans ce travail.

Par Angeline Lacassagne
Linguiste informaticienne

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas L’OSINT au service de l’information stratégique
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Qu'est-ce qu'un crawler ?
Un craw­ler, ou scra­per, est un outil qui per­met d’ob­te­nir le conte­nu (géné­ra­le­ment tex­tuel) d’une page web afin d’ap­pli­quer des trai­te­ments d’analyse. On se place...
Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Qu'est-ce que la fouille de texte ?
Fouille de texte ou text mining? Le trai­te­ment auto­ma­tique des langues est une étape préa­lable au trai­te­ment infor­ma­tique dans de nom­breuses appli­ca­tions. On consi­dère que...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...

Ces études de cas peuvent aussi vous intéresser

Mettre en place des outils de contrôle de conformité

Je suis directeur de la conformité dans le domaine de l’assurance, nous vendons par téléphone des produits variés dans un contexte particulièrement réglementé. J’ai donc besoin d’outils pour m’assurer que les obligations d’information sont comprises et appliquées par les équipes en tenant compte des spécificités de chaque produit, sans pour autant nuire à la performance commerciale. Comment puis-je faire ?

Diminuer considérablement le nombre d'emails à traiter par l'humain

Je suis dirigeant d’une société immobilière dont l’activité principale est la gestion syndicale de nombreux lots de copropriétés. Chaque jour, la boîte mail de ma société doit faire face à l’afflux de centaines d'emails : de la simple prise d’information à la demande d’intervention urgente. Comment puis-je automatiser le traitement d’un grand volume d'emails pour gagner en temps et en efficacité ?

Comment gérer les avis négatifs et minimiser l'impact des cas de crise sur les réseaux sociaux

Je suis responsable réseaux sociaux pour une marque de cosmétiques et je souhaite pouvoir mesurer la satisfaction de nos clients sur les réseaux sociaux afin de prendre en compte ces retours pour mieux communiquer autour de mon entreprise, ainsi que réagir au plus vite lors de potentiels cas de crise.