Exploiter les verbatims clients pour améliorer les services de mon entreprise
|
|
Le besoin
Un outil qui permet de regrouper les retours des clients similaires entre eux.
À la tête d'une agence en ligne spécialisée dans les voyages sur mesure, nous recevons un flux constant et abondant de retours clients provenant de multiples canaux. Ces retours constituent une ressource importante pour évaluer la satisfaction de nos clients, identifier les points d'amélioration et cerner les suggestions émises par notre clientèle. En analysant ces retours, nous cherchons à identifier les incidents éventuels survenus lors de leurs séjours ainsi que les pistes d'amélioration qu'ils nous soumettent. Un outil qui permet de regrouper les messages similaires entre eux serait d'une aide considérable pour assister le travail des personnes en charge d'analyser les retours des clients.
Une source d'informations exploitable
Les réseaux sociaux, plateformes d'avis clients, chatbots et e-mails sont des espaces où les clients partagent leurs retours, opinions et suggestions d'amélioration. La multiplication de ces canaux crée une masse de données, une mine d'informations prête à être exploitée. Bien que des annotateurs humains puissent détecter des thèmes, le flux constant de ces messages risque de dépasser la capacité opérationnelle des collaborateurs en charge des analyses.
Tirer pleinement parti d'un tel volume de données représente un enjeu pour l'amélioration des services, mais aussi un défi pour l'entreprise. C'est à ce stade que l'utilisation du traitement automatique des langues (TAL) se révèle intéressante. La mise en place d'un outil capable de regrouper des messages similaires entre eux est une solution adaptée à ce type de problématique.
La solution
Calculer la similarité entre les phrases grâce aux vecteurs sémantiques.
Rendre les mots interprétables par les machines
Il existe de nombreuses approches qui permettent de traiter automatiquement des données textuelles. Certaines exploitent des concepts linguistiques pour explorer les structures syntaxiques ou grammaticales des langues à la recherche d'informations pertinentes. D'autres approches s'appuient sur des modèles statistiques, comme l'apprentissage automatique (machine learning), pour analyser et interpréter les motifs et les relations présents au sein des documents textuels.
Les outils de TAL qui utilisent l'apprentissage automatique, ne peuvent pas interpréter directement du texte brut. Traiter des données textuelles, comme on le ferait avec des données numériques, requiert de représenter le texte de manière à ce qu'il soit interprétable par les machines. Ce procédé, connu sous le nom de vectorisation, implique d'assigner aux mots, aux phrases ou aux documents, une valeur numérique (un vecteur). Cette étape permet de transformer le langage naturel en une forme interprétable par les machines. Ces représentations vectorielles facilitent ensuite la réalisation de tâches de traitement automatique. Différentes manières d'attribuer des vecteurs aux données textuelles sont possibles, mais les techniques actuelles permettent de générer des représentations vectorielles pour chacun des mots de la phrase en tenant compte du contexte global dans lequel le mot apparaît. Cette méthode est appelée « plongements lexicaux » ou « word embeddings » en anglais. C'est une technique de vectorisation qui consiste à utiliser des modèles de langage pré-entraînés sur de grandes quantités de données. Dans ces modèles, la représentation des mots est déterminée par leurs cooccurrence dans les corpus qui ont été utilisés pour leur entraînement. Le modèle de langue BERT (Bidirectional Encoder Representations from Transformers) est très utilisé en TAL car sont architecture lui permet de lire une séquence de mots dans les deux sens, de gauche à droite et de droite à gauche, de manière simultanée. Cela permet au modèle de saisir les tournures de phrases complexes et gérer les ambiguïtés et termes polysémiques, en prenant en compte le contexte dans lequel ces mots apparaissent.
Les deux commentaires qui suivent permettent d'illustrer ces explications :
« Expérience intéressante et dépaysante. Il faudrait cependant réduire les kilomètres pour 2 jours. » « Bon accompagnement pendant ce voyage, mais peut être un peu trop de distance parcourue. »
Ces commentaires abordent un aspect moins positif du séjour : la distance parcourue était trop importante. Cependant, ce point n'est pas mentionné de la même manière par les clients. Dans le premier commentaire, c'est l'expression "réduire les kilomètres" qui permet de souligner le problème. Dans le second commentaire, il est question de "trop de distance". Il est évident qu'un annotateur humain puisse au premier coup d’œil rapprocher ces deux phrases qui pourraient faire l'objet d'une catégorie à traiter par l'agence. Mais l'absence de mots en commun pour décrire le problème va ici poser un défi pour le TAL.
Dans ce cas de figure, l'utilisation d'un modèle de langage pré-entraîné pour vectoriser ces deux commentaires peut s'avérer utile. En effet, dans un modèle de langage, il est fort probable que les vecteurs associés aux mots "distance" et "kilomètres" soient proches, car les textes utilisés pour l'entraînement des modèles vectoriels incluent probablement des phrases du langage courant où ces deux termes apparaissent conjointement. La puissance de cette méthode réside donc dans sa capacité à établir des proximités sémantiques entre des phrases qui n'ont pas de mots en commun.
Le clustering pour regrouper les messages similaires entre eux
Le clustering, est une technique utilisée en apprentissage automatique, qui permet de regrouper des données qui partagent des caractéristiques communes. Appliqué aux messages textuels, le clustering se base sur les vecteurs attribués aux mots et aux phrases, et permet ainsi à l'algorithme de fonctionner. Les messages qui partagent des traits sémantiques similaires, seront regroupés dans les mêmes clusters de données. Cette approche offre une manière puissante et efficace de découvrir des schémas (patterns) dans les données, permettant de regrouper des messages qui ont des thèmes ou significations similaires.
Prendre des décisions plus sûres
Un système de TAL offre donc une alternative qui aide à surmonter certains inconvénients des analyses manuelles, et offre une base plus solide pour la prise de décisions.
Exploiter l'intégralité des données : Contrairement aux analyses manuelles qui peuvent nécessiter un échantillonnage, le TAL permet d'accéder à des rapports d'analyse sur l'ensemble d'une base de données. Cela garantit une vision complète et exhaustive des informations disponibles et élimine le risque de partialité lié à l'analyse d'une partie des données.
Éviter les biais humains : Les analyses manuelles peuvent être sujettes à des biais individuels, chaque personne annotant de manière subjective. En utilisant un système de TAL, l'objectivité est renforcée, car l'outil suit des règles prédéfinies sans être influencé par des interprétations personnelles. Cela réduit le risque de variations dans l'annotation et assure une cohérence dans l'analyse des données.
Points d'attention
En Traitement Automatique des Langues, les techniques de vectorisation des mots et de regroupement de données par clustering sont paramétrables. Modifier les paramètres permet d'ajuster les résultats selon les besoins spécifiques. Il existe différents modèles de langage pré-entraînés, chacun pouvant mieux correspondre à certains types de données. De même, pour le clustering, une variété d'algorithmes est disponible, offrant donc plusieurs leviers de réglage pour affiner les résultats.
Cependant, il faut garder en tête que c'est l'évaluation des clusters par un expert métier qui permet de garantir la pertinence et la précision des résultats obtenus. Les algorithmes et les modèles utilisés peuvent fournir des résultats prometteurs, mais seule l'expertise humaine permet de vraiment contextualiser et interpréter ces regroupements de données. Cette expertise permettra d'assurer leur validité et leur utilité pour les besoins de l'entreprise.