Dépouiller les contributions à une enquête d'opinion

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Quantifier des opinions dans des réponses libres : un défi

Les réponses libres, riches mais complexes à analyser en masse

Les questionnaires  ouverts (réponses libres) fournissent une vision plus riche et plus libre de l'opinion que les enquêtes à questions fermées ( choix multiples), lesquelles limitent les réponses dans un cadre prédéfini.

L'objectif peut se résumer selon deux axes :

  • quantifier des thématiques récurrentes sous la surface d'une grande variété de vocabulaire ou de tournures,
  • distinguer des opinions  ou sentiments variés sur un même thème.

Que sait faire la technologie en la matière ?

 

La solution

Repérer et quantifier des thématiques dans des enquêtes d'opinion avec les outils d'IA

Quelle méthode d'analyse automatique d'enquête à questions ouvertes ?

Que signifie repérer une thématique dans une enquête d'opinion ?

Le vocabulaire étant divers pour désigner des réalités sinon identiques, du moins très proches, l'analyse repose en grande part sur l'assimilation de mots ou d'expressions  comme représentatifs d'une même thématique.

Les regroupements de mots ou d'expressions constituent autant d'étiquettes thématiques avec lesquelles les réponses peuvent être annotées. Une analyse quantitative de ces annotations fournit ensuite des images de la répartition de ces thèmes dans l'opinion.

Selon le périmètre que l'on détermine pour chaque thématique, donc selon les regroupement opérés de mots ou d'expressions, l'image quantitative peut différer. Les choix opérés a priori dans un questionnaire fermé sont réalisés a posteriori sur un questionnaire ouvert par la grille d'analyse qu'on applique aux réponses collectées. Il peut être instructif de croiser plusieurs analyses, réalisées avec différentes grilles de lecture thématiques.

Comment se manifeste une opinion dans la langue ?

Outre les thématiques, on peut chercher à faire émerger des opinions ou des sentiments vis à vis de ces thématiques.

Les analyses automatiques peuvent détecter des perceptions positives ou négatives vis à vis de ces thématiques, voire des expressions plus finement catégorisées de sentiments variés, exprimés sous des formes très diverses : le doute ("je doute que.." , mais aussi "on ne me fera pas croire que..."), la colère ("ça me met hors de moi", "ça m'énerve" voire "je suis vénère"...), l'enthousiasme, le regret, etc.

Ces détections doivent surmonter des difficultés telles que l'emploi de l'argot, d'émoticônes dans des enquêtes en ligne, une orthographe et une syntaxe très approximatives, un recours fréquent aux antiphrases ("la cerise sur le gâteau" ou "vraiment des champions" pour manifester une opinion manifestement négative par ailleurs).

Il importe également de détecter quelle opinion se rapporte à quelle thématique dans une réponse qui peut comporter plusieurs thèmes. Chaque thématique sera croisée avec des catégories d'opinion.

Jusqu'où va l'automatisation ?

On l'a vu précédemment, les résultats bruts d'une analyse des réponses libres constituent un matériau délicat à interpréter.  Les choix opérés dans la stratégie d'analyse des réponses libres ne sont pas neutres.

Le traitement du langage naturel permet, par des analyses complexes, d'extraire des données quantitatives à partir des réponses libres à une enquête d'opinion.  Mais l'expertise sociologique ou politique est la plus légitime à interpréter in fine ces agrégats statistiques pour en tirer des enseignements quant à l'opinion.

Quelles fonctions pour une solution de dépouillement d'enquête à questions ouvertes ?

Les solutions de dépouillement d'enquêtes d'opinion comportent habituellement plusieurs fonctions majeures.

Une analyse morpho-syntaxique et sémantique

Le travail de dépouillement commence par une analyse poussée du texte.

L'outil doit être capable de normaliser - c'est à dire, notamment, redresser les erreurs orthographiques, grammaticales ou syntaxiques - des contributions grand public.

Il est souvent complété par des connaissances lexicales spécifiques à l'enquête : mots ou expressions propres au domaine traité, règles de désambiguïsation spécifiques au domaine.

Une fonction de catégorisation automatique

Des algorithmes de catégorisation automatique de mots ou expressions détectés comme sémantiquement proches ("clusters"),  permettent de faire émerger les catégories qui constitueront des étiquettes d'annotation des réponses.

Les catégories gagnent à être examinées et ajustées par une expertise humaine, ne serait-ce que pour leur donner un libellé explicite.

Une fonction de gestion des étiquettes thématiques

Les solutions d'analyse de réponses libres incluent souvent une fonction de gestion des étiquettes destinées à annoter le texte : validation/amélioration manuelle des regroupements d'expressions proposés automatiquement,  ajustement des règles de reconnaissance des catégories, nommage des étiquettes, organisation hiérarchique des étiquettes dans une taxonomie...

Une fonction d'annotation des réponses libres

L'analyse des réponses libres comporte une étape d'annotation des réponses au moyen des étiquettes thématiques extraites du même corpus et révisées au besoin.

A  chaque réponse sont associées de manière logique des étiquettes correspondant chacune à une séquence textuelle de la réponse (le span).

Une fonction d'analyse statistique des annotations

Sur la base de l'annotation des réponses par des étiquettes thématiques, une analyse quantitative est appliquée comme on pourrait le faire de toute source de données pour rechercher des phénomènes statistiques, sur une enquête unique à l'instant T ou bien sur une évolution dans le cas d'enquêtes à campagnes répétées.

De même que dans toute enquête, les réponses libres sont souvent partitionnées selon des catégories sociologiques (ex. âge, genre, catégorie socio-professionnelle, niveau d'études, etc.), les données quantitatives fournies par les étiquettes thématiques peuvent être croisées avec des catégories de réponses.

Si l'enquête d'opinion fait l'objet de campagnes régulières, l'analyse statistique comporte souvent une observation des évolutions dans les données : tendances lourdes, signaux faibles, pics inhabituels...

Une fonction de restitution plus ou moins poussée en tableaux de bord paramétrables complète usuellement les analyses statistiques.

 

Points d'attention

Il demeure dans le dépouillement de réponses libres une part d'interprétation telle que deux opérateurs humains ne livreront pas toujours les mêmes classements pour une séquence de réponse, voire un même opérateur humain à quelques temps d'intervalle.

Le plus grand soin doit être apporté à l'évaluation des résultats, habituellement réalisée par la validation humaine double des étiquetages automatiques d'un échantillon de réponses : deux testeurs (ou davantage) qui ne doivent pas communiquer indiquent si l'étiquetage automatique est correct ou erroné de leur point de vue.

  • Les étiquetages jugés exacts ou faux par les deux opérateurs sont considérés respectivement comme de bonnes ou mauvaises réponses du système de manière fiable
  • Les étiquetages sur lesquels les deux opérateurs divergent sont considérés comme la marge d'incertitude inhérente à l'exercice.

Le résultat de l'évaluation peut servir à alimenter un algorithme d'apprentissage pour améliorer la qualité de l'étiquetage automatique par cycles.

Par Christine Reynaud
Chef de projet contenus numériques

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Dépouiller les contributions à une enquête d’opinion
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Yseop’s Augmented Analyst platform brings natural language generation and other advanced technologies together to offer automation fit for regulated industries.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Agir chaque jour dans votre intérêt, et celui de la société.
 
Emvista fait gagner du temps à ses clients en repensant le Traitement Automatique du Langage Naturel, la discipline de l’intelligence artificielle consacrée à la compréhension de texte. Ses équipes de chercheurs et d’ingénieurs conçoivent des produits pour aider les humains à faire face à l’afflux d’informations et à les transformer en valeur.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Leader des technologies d'investigation et services pour la sécurité globale.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Taxinomies : classer des termes et des concepts en NLP
La taxi­no­mie est un modèle de repré­sen­ta­tion du lan­gage très utile en trai­te­ment auto­ma­tique des langues. Elle per­met de clas­ser et hié­rar­chi­ser des concepts. Les...
Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Catégorisation de documents
Pourquoi catégoriser des documents ? L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en...
Qu'est-ce que le clustering ?
Le Clus­te­ring s’ap­plique à un ensemble de docu­ments (un « cor­pus ») et consiste à regrou­per les docu­ments qui se res­semblent. On forme ain­si des sous-ensembles, ou...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...
Qu'est-ce qu'une ontologie ?
Une onto­lo­gie est un mode de repré­sen­ta­tion for­melle des connais­sances défi­ni dans le cadre du Web Séman­tique. Vous trou­ve­rez plus d’in­for­ma­tion dans notre fiche Qu’est-ce...
Un ordinateur peut-il analyser les émotions ?
Le lan­gage humain est com­plexe. Apprendre à un ordi­na­teur ou à une machine com­ment ana­ly­ser les nuances, que ce soit au niveau gram­ma­ti­cal ou cultu­rel,...

Ces études de cas peuvent aussi vous intéresser

Mettre en place une veille scientifique multilingue

Je suis responsable produits/R&D dans le domaine pharmaceutique, et je souhaite mettre en place une veille multilingue.

Tendances selfcare et modernisation du support client

Je suis directeur du support client chez un fournisseur de télévision par satellite. J’ai pour objectif de mettre en place plus de selfcare et automatiser mon support pour que mes clients trouvent plus rapidement les informations qu’ils recherchent. En parallèle, je dois faire baisser les coûts du support client. Alors, comment faire ?

Comment recommander du contenu qui sera le plus à même d’intéresser le lecteur suite à l’article qu’il vient de consulter ?

Je suis directeur webmarketing pour un éditeur d'informations d'actualité en ligne et je souhaite utiliser un système de recommandation d’articles efficace pour diminuer le taux de rebond des visiteurs du site et les fidéliser.