Le besoin

Orienter automatiquement les emails clients vers les agents appropriés dans un centre de support de vente en ligne de meubles : l'approche par apprentissage

En qualité de responsable de la gestion des emails entrants dans un centre de support de vente en ligne de meubles, ma responsabilité consiste à gérer les emails clients entrants de manière efficiente.

Imaginez un centre de support de vente en ligne, où des milliers d'emails affluent quotidiennement, chacun nécessitant une attention particulière pour assurer la satisfaction client. Les demandes des clients peuvent varier énormément, allant des questions sur les produits et les commandes à des préoccupations de service après-vente ou des demandes de remboursement.

Ces différentes demandes sont traitées par des services spécialisés :

le service commande,
le service livraison,
le service installation,
le service retour,
le service support,
le service client.

Actuellement, l’affectation des emails aux agents appropriés est majoritairement effectuée manuellement, entraînant des retards dans le traitement et une utilisation inefficace des ressources. Ce traitement manuel, qui implique le tri, la lecture et le routage vers les agents compétents, peut s'avérer fastidieux, chronophage et sujet à des erreurs. Cela peut entraîner des délais de réponse rallongés, une frustration des clients et une inefficience du centre de support.

Je cherche une solution automatisée capable d'analyser, classer et rediriger chaque email entrant, en fonction de son contenu, vers le service qui pourra le traiter. Notre objectif demeure d'assurer la satisfaction client en fournissant un service plus réactif et de qualité dans les délais les plus courts possibles.

La solution

Classer et orienter les emails clients grâce au machine learning

En traitement automatique des langues (NLP), la solution pour orienter les emails automatiquement vers le bon service consiste à mettre en œuvre une solution de classement de ces emails. Chaque service est considéré comme une classe, et il s'agit d'attribuer la bonne classe à chacun des emails, un peu comme ces boîtes à chaussures dans lesquelles on range ses documents ou ses cartes postales.

Un email reçu peut être classé en faisant référence au service spécialisé auquel il y sera redirigé pour son traitement. Les différents services spécialisés dans un centre de support de vente en ligne de meubles sont présentés dans la figure suivante.

Plusieurs techniques de traitement automatique des langues permettent de classer automatiquement les emails, afin de les orienter vers le service à même de les traiter, on parle alors de classement automatique des documents. L'apprentissage automatique (ou machine learning en anglais) est une technique parmi d'autres pour effectuer ce classement.

Le machine learning pour orienter les emails

Cette technologie utilise la classification automatique supervisée, une approche du machine learning, qui consiste à construire un modèle capable de prédire une catégorie pour chaque nouvel email entrant, grâce à des données étiquetées (l'historique des emails reçus) sur lesquelles il est entraîné. Après la construction et l'implémentation du modèle, les catégories prédites automatiquement sont utilisées pour orienter les emails entrants vers le bon service. Cette approche permet non seulement d'améliorer significativement la rapidité de réponse du service client, mais aussi d'assurer que les requêtes sont traitées par les agents les plus à même de fournir une solution adéquate.

Exemple : un problème de livraison de meuble

La classification automatique supervisée nécessite plusieurs étapes clés détaillées dans ce qui suit, et illustrées par le traitement d'un mail de réclamation :

"Bonjour,
suite à mon appel de ce jour à vos services, je suis extrêmement en colère d'apprendre que la livraison prévue ce jour d'un plan de travail pour cuisine ne sera pas honorée.
La date a été fixée le 22/03/2027, une confirmation m'a été envoyée par sms le 21/03/2027, et j'ai donc organisé ma présence à mon domicile pour réceptionner le colis.
La livraison est finalement prévue le 10/04/2027 sans que je n'ai été avisé d'aucune façon. Je n'ai aucune possibilité d'être présent le 10/04/2027 et je devrais donc mettre à contribution un voisin pour réceptionner le colis, sans aucune garantie qu'il soit livré en temps et heure puisque manifestement vous ne disposez pas de moyens fiables pour assurer ce service élémentaire.
De plus ne disposant plus de cuisine puisque l'ancienne a été déposée, je me retrouve une semaine supplémentaire sans possibilité d'utiliser l'eau courante dans ma cuisine, ni de préparer les repas.
Je suis particulièrement déçu de vos services qui déjà lors de la livraison des éléments de cuisine présentait un retard de plusieurs heures (livraison confirmée la veille par sms de 8h à 12h, livrée à 15h30, observation portée sur le bon de livraison) et qui à présent a modifié de manière unilatérale la date de livraison du plan de travail, sans m'en avertir à temps pour que je prenne de nouvelles dispositions vis-à-vis de mon employeur et qui de surcroît me fait perdre un jour de congé.
Je souhaite que vous m'informiez par écrit et dans les plus brefs délais des actions qu'il va mettre en place pour palier ses manques à mon égard."

Construction d'un modèle d'apprentissage à base de classification

Collecte, prétraitement et étiquetage des données d'entraînement

Pour entraîner un modèle de classification automatique pour le routage des emails, il est crucial de suivre plusieurs étapes fondamentales. Cela inclut la collecte des emails destinés à l'entraînement du modèle, leur prétraitement et enfin, leur étiquetage.

Collecte des emails d'entraînement

La collecte des emails d'entraînement, appelés aussi corpus, implique l'acquisition d'un ensemble diversifié d'emails clients représentatifs, suffisamment large, des différentes requêtes et situations rencontrées dans le centre de support de vente en ligne de meubles. Ces emails sont recueillis principalement à partir des boîtes de réception des emails du service client représentant les archives d'emails reçus par les différents services du centre de support.

Le nombre des emails collectés peut ne pas être suffisant pour l'entraînement d'un modèle de classification performant. Dans ce cas, la technique de l'augmentation de données peut être utilisée permettant de créer de nouveaux emails d'entraînement, artificiels, à partir des emails existants. Les emails augmentés aident le modèle à mieux se généraliser aux données invisibles et à améliorer ses performances globales dans des environnements réels.

Augmentation des emails d'entraînement

Plusieurs techniques d'augmentation de données textuelles peuvent être appliquées aux emails pour générer de nouveaux exemples pertinents pour la classification automatique. Les exemples présentés ci-dessous sont issus de l'email exemple.

Substitution lexicale : remplacer des mots clés dans les emails par leurs synonymes ou des mots ayant un sens similaire. Cela permet de créer de nouvelles variations d'emails tout en conservant le sens général du message.

Exemple :

Original : "Je suis particulièrement déçu de vos services"

Résultat de l'augmentation : "Je suis extrêmement insatisfait de vos services"

Injection aléatoire de bruit : introduire du bruit aléatoire dans les emails sous forme de fautes d'orthographe, d'erreurs de frappe, de variations naturelles du langage écrit ou de modifications grammaticales mineures.

Exemple :

Original : "Je souhaite que vous m'informiez par écrit ..."

Résultat de l'augmentation : "Je souhaite que vous m'informer par écrit ..."

Répétition et suppression de mots : répéter ou supprimer aléatoirement des mots dans les emails tout en préservant l'essentiel du sens. Cela permet de créer des variations dans la structure et la longueur des phrases.

Exemple :

Original : "j'ai donc organisé ma présence à mon domicile pour réceptionner le colis."

Résultat de l'augmentation : "j'ai organisé ma présence pour réceptionner le colis."

Perturbation de la Structure : modifier l'ordre des mots ou des phrases dans la même intention.

Exemple :

Original : "La livraison est finalement prévue le 10/04/2027 sans que je n'ai été avisé d'aucune façon."

Résultat de l'augmentation : "Sans que je n'ai été avisé d'aucune façon, la livraison est finalement prévue le 10/04/2027."

Rétrotraduction : traduire les emails dans une langue étrangère puis les retraduire dans la langue d'origine. Cela permet d'introduire de nouvelles variations syntaxiques et grammaticales tout en préservant le sens du message.

Exemple :

Original : "j'ai donc organisé ma présence à mon domicile pour réceptionner le colis"

Résultat de l'augmentation :

(Traduction anglaise) "So, I scheduled myself to be at home to receive the package"
(Rétrotraduction française) "Ainsi, j'ai prévu d'être chez moi pour recevoir le paquet."

Prétraitement des emails d'entraînement

Une fois les emails collectés, il est crucial de les prétraiter pour les rendre exploitables par le modèle de classification. Le prétraitement des emails vise à nettoyer et normaliser le texte pour faciliter l'analyse et l'apprentissage du modèle. Les étapes clés du prétraitement incluent :

Suppression du bruit : éliminer les éléments non pertinents tels que les signatures d'email, les liens hypertexte inutiles et les pièces jointes.
Normalisation du texte : convertir le texte en minuscules, supprimer la ponctuation et les caractères spéciaux.
Tokenisation : segmenter le texte en mots individuels et éliminer les mots vides (des mots très présents dans les textes et qui n’apportent pas d’informations).

Le résultat du prétraitement sur un extrait de l'email exemple peut être présenté comme suit :

"suite à mon appel de ce jour à vos services, je suis extrêmement en colère d'apprendre que la livraison prévue ce jour d'un plan de travail pour cuisine ne sera pas honorée."

[ 'suite', 'appel', 'jour', 'services', 'extrêmement', 'colère', 'apprendre', 'livraison', 'prévue', 'jour', 'plan', 'travail', 'cuisine', 'honorée']

Étiquetage des emails d'entraînement

Chaque email doit être étiqueté avec une catégorie en fonction du type de demande. Ces étiquettes serviront de référence pendant l'entraînement du modèle pour lui permettre d'apprendre à classer correctement les nouveaux emails.

L'étiquetage est habituellement réalisé par des experts du domaine, tels que des agents expérimentés du service client. Dans notre cas, les catégories des emails sont récupérées en se référant au service qui a reçu l’email étant donné que les emails d'entraînement proviennent des boîtes de réception des agents du centre de support. L'email exemple est issu du service de livraison, il est donc étiqueté comme "Livraison".

Les emails collectés sont divisés en deux ensembles : l'ensemble d'apprentissage, utilisé pour entraîner le modèle, et l'ensemble de validation, utilisé pour surveiller les performances du modèle pendant l'entraînement.

Entraînement d'un modèle de classification automatique des emails

Le modèle apprend à associer les caractéristiques des emails à leurs étiquettes correspondantes. Un modèle de classification automatique des emails est entraîné sur l’ensemble des emails d'apprentissage en utilisant des algorithmes d'apprentissage supervisés tels que :

Les machines à vecteurs de support ou SVM (séparateurs à vastes marges) séparent les données en classes. Pendant l’entraînement, un SVM trouve un hyperplan qui sépare les données d’un jeu en classes spécifiques et maximise la marge entre les exemples de différentes classes dans l'espace des caractéristiques.
Les Naive Bayes se basent sur le théorème de Bayes pour calculer la probabilité qu'un email appartienne à une certaine classe en se basant sur les mots qu'il contient. La principale hypothèse de cet algorithme est son caractère "naïf", qui suppose que les caractéristiques (mots ou phrases) sont indépendantes les unes des autres une fois que la classe est connue.
Les réseaux de neurones artificiels (ANN) sont des modèles inspirés par le fonctionnement du cerveau humain. Ils sont composés de neurones organisés en couches et sont capables d'apprendre des modèles complexes à partir de données.

Le choix de l'algorithme dépendra de divers facteurs tels que la taille et la qualité des données disponibles, la complexité du problème de classification des emails, les ressources informatiques disponibles et les objectifs spécifiques du projet. Il est souvent utile de comparer plusieurs algorithmes et techniques pour déterminer celui qui fonctionne le mieux pour une application particulière.

Évaluation du modèle de classification automatique des emails

Le modèle entraîné est évalué sur l'ensemble des emails de validation pour évaluer sa capacité à prédire correctement les étiquettes des nouveaux emails. Parmi les mesures d'évaluation typiques de la classification automatique, on trouve :

La précision évalue la proportion d'emails correctement catégorisés par le modèle. Une précision élevée indique que le modèle a tendance à classer correctement les emails, réduisant ainsi les erreurs de classification. Une faible précision signifie que le modèle attribue incorrectement des emails à une catégorie.
Le rappel mesure la proportion d'emails pertinents identifiés par le modèle. Il représente la proportion d'emails pertinents présents dans le corpus pour une catégorie spécifique que le modèle a effectivement classés dans cette catégorie. Un rappel faible indique que le modèle ne parvient pas à classer de nombreux emails dans les bonnes catégories.
Le F-score combine à la fois la précision et le rappel en une seule métrique en utilisant la moyenne harmonique (le ratio entre le double du produit de la précision et du rappel, et la somme de la précision et du rappel), offrant ainsi une évaluation globale de la performance du modèle.

Une fois que le modèle est entraîné et évalué avec succès, il peut être déployé en production pour aider à router automatiquement les emails entrants vers les bons départements ou services. Chaque nouvel email subit le même enchaînement des traitements. Dès sa réception, il sera prétraité et recevra automatiquement une catégorie en utilisant le modèle appris afin d'être acheminé vers le service pertinent.

Suivi contenu de la performance d'un modèle de classification automatique

Le suivi d'un modèle de classification automatique est un processus continu qui garantit que le modèle reste performant, adapté et pertinent pour les tâches de classification. Pour suivre un modèle de classification, en particulier dans le contexte de la classification pour le routage des emails, plusieurs étapes doivent être assurées :

Mise en place d'un système de surveillance en temps réel permettant de détecter les problèmes potentiels avec le modèle en production, notamment les dégradations de performance.
Collecte régulière de nouveaux emails entrants ainsi que les étiquettes correspondantes. Ces emails serviront à évaluer la performance du modèle sur de nouveaux emails et à identifier les éventuels changements.
Évaluation continue des performances du modèle sur les nouveaux emails collectés à l'aide de mesures telles que la précision, le rappel, le F-score, etc. Cette évaluation permet d'analyser les erreurs du modèle et chercher des motifs qui pourraient indiquer des domaines d'amélioration.
Ré-entraînement du modèle, périodiquement, en utilisant les nouveaux emails collectés et les étiquettes mises à jour. Cela permettra non seulement d'adapter le modèle aux évolutions des schémas d'emails entrants et d'améliorer sa performance au fil du temps, mais aussi d'effectuer des ajustements dans les étiquettes de classification ou dans les critères de routage des emails selon l'évolution du besoin métier.

L'automatisation du processus d'orientation des emails permet de réduire considérablement le temps et les ressources consacrés au routage manuel des emails. Elle permet, en conséquence, d'améliorer l'efficacité opérationnelle et de garantir une réponse rapide et appropriée aux besoins des clients.

Orienter les emails clients dans un centre de support de vente en ligne : l'approche par apprentissage