Le NLP au service de l'action publique
|
|
Le besoin
Obtenir une vision globale et évolutive des parties prenantes d'un dossier
Le lobbying est "une action menée par un lobby en vue d'obtenir quelque chose" (Dictionnaire Larousse). C'est un élément de la démocratie intéressant et l'un des moteurs de la vie publique : le lobby représente les intérêts d'une entreprise. L'objectif est donc d'identifier les personnes influentes qui s'occupent d'un sujet précis puis d'aller les voir afin de les sensibiliser à notre cause. Chacun peut ainsi faire entendre son opinion et la faire remonter auprès de ceux qui votent les lois, afin d'apporter des arguments pertinents pour faire pencher la balance en sa faveur.
En tant qu'expert en affaires publiques, j'ai donc besoin de :
- pouvoir identifier les parties prenantes qui sont à la fois engagées et influentes : parlementaires, syndicalistes, responsables d’association, responsables de grandes entreprises,
- pouvoir tracker les évolutions et les tendances : être rapidement au courant de ce qui se passe sur les différents canaux, qui s'exprime sur un sujet, les parties prenantes, les syndicats, les informations qui arrivent aux oreilles de quelqu'un de haut placé,
- diversifier mes sources afin de collecter aussi bien les données des institutions que celles des médias ou des réseaux sociaux : il ne faut pas rater une information importante ni se contenter d'une veille média uniquement,
- se focaliser sur le pouvoir et les proches du pouvoir,
- faire gagner du temps aux lobbyistes,
- automatiser la veille et mettre à jour les données en continu pour gagner en efficacité et être au plus près de l'information en temps réel.
Quels outils puis-je mettre en place pour automatiser et fiabiliser ce travail d'analyse aujourd'hui essentiellement manuel et ainsi gagner en temps et en efficacité ?
La solution
Un outil de veille et d'analyse automatisé à destination des lobbyistes
Une solution de veille et d'analyse des affaires publiques nécessite plusieurs étapes de traitement et d'analyse de données, dont la première et la plus cruciale : la collecte de données.
Collecte de données
La collecte de données se fait via divers canaux. L'objectif est de réunir toutes les informations utiles pour se tenir à jour sur les affaires publiques. Pour cela, il faut collecter les informations à l'aide d'un crawler et multiplier les sources d'informations : institutions, processus législatifs, vidéos, journal officiel, mais aussi presse et réseaux sociaux. Il est important de diversifier ses sources afin de recueillir un maximum d'informations, que ce soit le vote d'un nouvel amendement ou bien la prise de position d'une personnalité de la scène politique sur un sujet d'actualité via la publication d'un tweet, par exemple.
Parmi les sources intéressantes, il existe aussi un registre des représentants d’intérêts. La loi oblige tous les représentants d'intérêt qui ont une action dans les affaires publiques à s’identifier auprès de la Haute Autorité pour la Transparence de la Vie Publique (HATVP) avec le montant correspondant à chaque activité déclarée : rencontre d'un parlementaire, organisation d'un événement, etc. Cela permet de suivre avec attention les actions des parties prenantes ainsi que les relations qu'elles entretiennent au sein du microcosme politique.
Dans ce domaine en perpétuelle évolution, il est important de suivre très régulièrement l’actualité afin de se tenir informé des changements et des prises de position des différentes parties prenantes. Les informations collectées regroupent ainsi les toutes dernières mises à jour puisque le crawler va requêter le web toutes les heures à la recherche de nouveautés. En ce qui concerne les décisions prises à l’Assemblée Nationale (un amendement voté ou rejeté, par exemple), il y a au maximum un jour de décalage entre le moment où le résultat du vote est connu et le moment où l’information est mise en ligne. Les informations officielles sont donc elles aussi rapidement collectées.
Ces données sont d’ailleurs facilement accessibles puisqu’elles sont mises à disposition en Opendata au format XML ou dans un dump de base de données. On y trouve par exemple l’historique des votes des députés ainsi que les députés en exercice, l’ensemble des amendements déposés à l’Assemblée nationale, les projets et propositions de loi en cours d’examen, les textes adoptés, les questions posées au gouvernement ou encore les comptes-rendus de débats en séance publique.
En ce qui concerne les réseaux sociaux, l’intérêt est de suivre une liste de personnalités précise : des parlementaires, des ministres, ainsi que toutes les parties prenantes.
Contrairement à ce que l'on pourrait penser, même les fake news peuvent parfois s’avérer intéressantes puisque si un ministre relaye une fausse information, cela signifie qu’il est tout de même sensibilisé au sujet donc il peut être intéressant de le rencontrer et échanger avec lui sur le sujet évoqué.
Analyse sémantique
Une fois toutes ces données collectées, il faut les analyser pour en extraire des informations pertinentes pour les lobbyistes.
En général, ces informations proviennent de personnalités importantes à l’Assemblée et au Sénat. En effet, certaines personnalités politiques disposent d’une forte influence sur des sujets précis : on la définit selon leur capacité à faire passer un amendement, faire bouger les lois et être entendu lors des débats. Lorsqu’une personne parle d’un sujet, on va donc chercher à identifier les thématiques qu’elle évoque.
Ex : pour le projet de réforme des retraites (projet de loi de finance), on peut s’intéresser particulièrement à Christelle Petex-Levet (LR) et Rachel Keke (LFI – NUPES) comme personnalités influentes.
Autre exemple, plus visuel cette fois-ci, voici les thématiques évoquées par Emmanuel Macron lors des dernières élections présidentielles :
On constate que l'immigration y tient une place importante et que la thématique du travail a été abordée sous différents angles (sociaux, économiques, institutionnels, à l'échelle nationale comme européenne...). C'est l'analyse sémantique qui va permettre de faire ressortir ces éléments afin d'identifier une prise de position claire ou bien des thématiques importantes pour un candidat, par exemple.
Cependant, une problématique revient souvent dans le domaine du traitement automatique des langues : la manière dont les professionnels d’un domaine s’expriment est très particulière et différente de celle des "non professionnels".
Exemple : pour le terme « sophrologie », on parlera plutôt de « médecine douce ».
Exemple : « En trottinette, je veux que les casques deviennent obligatoires », on parlera plutôt de « protection individuelle dans le cadre de mobilité douce ».
Il faut alors choisir le bon terme entre le vocabulaire expert et le vocabulaire de la loi et être capable d'identifier les deux.
Cela nécessite donc une analyse sémantique spécifique. En réunissant les informations provenant à la fois de la presse, de l’Assemblée nationale et des réseaux sociaux, tous les types de vocabulaire sont regroupés sans distinction. Il faut donc capter ces différences de vocabulaire afin de pouvoir en faire une « traduction ».
Une autre problématique est liée à l’analyse du discours politique et à l’extraction des prises de position via de l'analyse d'opinion. C’est un travail plus complexe car lorsque le discours est long, on peut se retrouver avec des cas comme celui-ci où la personne développe longuement un sujet puis conclut avec son opinion, dans une phrase isolée :
Ex : « Il faut revaloriser le taux [...]. Je suis pour. »
Dans cet exemple, on ne pourra pas simplement extraire la phrase contenant l’opinion (« Je suis pour »). Cela nécessitera une analyse de tout ce qui a été dit auparavant afin de savoir à quoi se rattache cette opinion. C’est donc une analyse plus pointue et peu de chercheurs se sont déjà attaqués au discours politique, exceptés sous l’angle des fake news, il y a donc peu de documentation sur la manière d’aborder cette problématique de NLP.
L'analyse sémantique est donc déterminante mais, dans certains cas, plus difficile à réaliser. Elle amène parfois même à de l'interprétation, ce qui nécessite beaucoup de prudence puisque les résultats d'un algorithme ne sont jamais fiables à 100%, le langage humain étant très complexe (sous-entendus, implicite, figures de style…).
Classer les documents
Une fois l’analyse sémantique terminée, il est alors possible de classer les données collectées sur le web selon leur format ou ce qu’elles évoquent :
- informations,
- tribunes (et signataires),
- éditoriaux...
Les données provenant de l'Opendata de l'Assemblée nationale sont quant à elles déjà classées par type : amendements, comptes-rendus, question, rapports d'études...
Cette classification va permettre d’exploiter les données de deux manières différentes : soit dans le cadre d’une veille quotidienne via des résumés automatiques, soit dans le cadre de statistiques et d'une vision globale des informations concernant les parties prenantes, via des cartographies.
Résumé automatique
Il est possible d’entrainer un modèle de NLP qui va s’appuyer sur les données collectées et analysées précédemment afin de générer un résumé automatique d’articles identifiés à partir d'un ou plusieurs mots-clés et envoyer des mails ciblés sous forme d’alertes sur des sujets précis. Cette veille ciblée destinée aux lobbyistes va permettre de savoir ce que pensent chacune des parties prenantes et d’en suivre l’évolution et la propagation immédiatement, à chaque nouvel élément détecté, grâce à la mise à jour en continu des crawlers et des notifications envoyées par mail pour alerter l'utilisateur.
Analyse plus profonde
Au-delà de la génération de résumé automatique, il est possible de livrer une analyse plus profonde de toutes ces données pour faire des cartographies, voir les tendances, etc.
On va notamment s’intéresser à ces cinq éléments :
- Qui parle ?
- De quel sujet ?
- Quelle est sa prise de position ?
- Qui a de l’influence sur les votes des amendements ?
- A quel parti politique cette personne appartient-elle ?
Pour cela, on utilise des outils de visualisation de données afin d’obtenir une vision globale d’un sujet, des intervenants et de leurs prises de position respectives.
On va ainsi pouvoir définir les personnes à contacter en fonction de leur engagement pour un sujet et de leur influence, comme dans l'exemple ci-dessous :
In fine, les graphes et les cartographies vont permettre de rendre plus lisible cette analyse globale complexe des affaires publiques, en faisant ressortir les éléments essentiels et surtout les personnes à contacter pour les lobbyistes.
Au-delà de l’analyse de données : démarches à effectuer
Ce processus est au bout du compte un processus de relation individuelle. En effet, cet outil de veille et d'analyse permet de rester informé de l’actualité, d’obtenir une synthèse des arguments et des positions de chacune des parties prenantes d’un dossier et d'identifier les alliés influents. Cependant, la démarche de lobbying consiste avant tout à aller voir les personnes ciblées et discuter directement avec elles. On automatise donc l’amont de manière à faciliter les recherches d’informations, identifier les personnes à contacter et élaborer une stratégie d’influence mais il reste ensuite des démarches concrètes à effectuer que seul un humain peut faire.
Points d'attention
Pour conclure, il est important d'évoquer ces quelques points.
Lors d'une analyse sémantique, les données sont parfois sujettes à interprétation : comme tout traitement automatique, les éléments que peut mettre en avant la machine ne peuvent atteindre 100% de fiabilité. Il faut donc rester très prudent sur ce que l'on avance et parfois accepter de restreindre la quantité d'informations afin de ne conserver que celles qui semblent les plus fiables. C'est une problématique classique en NLP.
Autre point important, l'exhaustivité des sources : malgré la diversité des canaux, on ne peut pas récupérer la totalité des informations voulues, il y a des choses qui ne sont pas dans l'open data, comme par exemple des commissions à l'Assemblée ou au Sénat qui sont publiées en audio sur la chaîne du Sénat mais ne donnent pas lieu à des comptes-rendus. Il faudrait pour cela faire de l'analyse audio (speech-to-text) et arriver à identifier de manière fiable les personnes qui parlent tout au long de la vidéo.
Pour finir, il existe une problématique éthique : en effet, il y a une frontière à ne pas franchir entre les personnalités publiques (dont on peut afficher l'opinion) et les personnalités non publiques qui ne souhaitent pas divulguer ce genre d'informations. Dans le cas des cartographies, c'est à l'utilisateur de prévenir que telle ou telle personne est dans une cartographie. Il s'agit d'une contrainte relevant du Règlement Général sur la Protection des Données (RGPD). Le système va devoir limiter les informations que l'on récupère pour être certain de respecter le cadre éthique.