Aider à la prospection en qualifiant automatiquement les leads

Le besoin

La solution

Ils peuvent vous aider

Le besoin

Qualifier automatiquement les leads : un gain de temps et de précision

Lorsqu'un internaute interagit avec notre marque, par exemple en demandant des renseignements sur un produit, il fournit des informations sur ses intentions d'achat et sur son profil client. Ces informations permettent aux commerciaux de définir quelle stratégie adapter en vue de convertir le lead en client.

Actuellement, les commerciaux du service identifient les leads dès qu'ils interagissent avec notre marque, par exemple lorsqu'ils :

téléchargent un livre blanc,
discutent avec un chatbot,
commentent sur les réseaux sociaux,
demandent des renseignements par email.

Si certaines informations servent uniquement de déclencheur dans l'identification de leads, les riches contenus textuels produits lors d'une première interaction, par mail par exemple, contiennent de nombreuses informations sur lesquelles les commerciaux reposent pour affiner leur stratégie commerciale. Notamment, ces données vont permettre aux commerciaux d'identifier :

les leads qualifiés, afin de cibler lesquels prioriser dans le tunnel de conversion,
les intentions d'achat et besoin des leads, afin d'adapter une stratégie commerciale convaincante.

Un lead est identifié comme :

qualifié, lorsqu'il correspond à un certain nombre de critères de ciblage, et qu'il est considéré assez mature pour un premier contact commercial,
disqualifié s'il ne possède pas ces critères ou n'est pas jugé suffisamment mature.

Dans le premier cas, le lead est à la première étape du tunnel de conversion (parcours de vente), et les éléments qui le qualifient permettent de définir une stratégie commerciale précise pour l'amener jusqu'à la vente.

Dans le second cas, il est soit écarté du tunnel, soit conservé pour être ciblé lors de campagnes pour lequel le coût du contact est très faible.

Les critères de ciblage sont très précis mais un mail réceptionné peut au contraire être très développé et contenir de nombreuses informations sans aucun rapport avec le produit et uniquement quelques une en accord avec les critères de ciblage. Les commerciaux passent actuellement beaucoup de temps à lire tous les emails en détail pour détecter des critères parfois enfouis dans un contenu textuel riche et peu précis. Ce travail induit une perte de temps de travail considérable pour les commerciaux, qui ne sont pas à l’abri parfois de se tromper ou de manquer de précision en qualifiant les leads.

L'intelligence artificielle pourrait-elle aider les commerciaux de mon équipe à qualifier automatiquement les leads afin de gagner en temps et en précision ?

La solution

L'Intelligence Artificielle pour en apprendre d'avantage sur mes leads

Un contenu textuel riche...

Les emails envoyés par un lead pour signaler un intérêt ou une intention d'achat sont souvent riches de contenu textuel dont seulement une partie est significative pour identifier le profil et le besoin du lead. Par exemple :

"Bonjour, lors de mon dernier marathon, ma montre GPS X a rendu l'âme et on m'en a donc prêté une de votre marque que j'ai beaucoup appéciée. C'était le modèle Y. Je n'ai cependant pas besoin de la navigation GPS, et n'ai d'ailleurs pas le budget pour. Auriez vous un modèle similaire sans cet caractéristique ?"

Dans l'exemple ci-dessus, le lead signale qu'il souhaite remplacer sa montre GPS de la marque X par une montre de la marque. Il a pu identifier, après l'avoir essayée, la montre Y qui correspond à son besoin, mais il n'a pas besoin de navigation GPS. Il indique aussi ne pas avoir le budget pour acheter cette montre.

Extraire automatiquement ces informations de manière à pouvoir les comparer avec les critères de ciblage pour un produit nécessite d'abord de nettoyer et de les normaliser les textes.

Normaliser les données

Lorsque les données proviennent d'un canal numérique, les fluctuations de la langue ainsi que certaines erreurs de syntaxe ou d'orthographe rendent difficile leur traitement automatiquement. Différentes opérations permettent de les nettoyer et de les normaliser pour pouvoir les traiter uniformément ensuite, comme par exemple :

Correction des erreurs orthographiques (appéciée --> appréciée),
correction des erreurs de syntaxe (cet caractéristique --> cette caractéristique),
lemmatization ou stemming,
normalisation des abréviations et expressions (rendre l'âme --> casser),
résolution d'anaphore (le budget pour --> le budget pour l'option navigation GPS).

Ces erreurs sont communes dans les emails, mais les données provenant d'autres canaux intègrent souvent des problématiques différentes. Par exemple, on aura tendance à voir plus d'erreurs d'orthographe ou d'argot Internet (utilisation d'emojis ou de simplifications orthographiques) dans un commentaire sur un réseau social plutôt que dans un email. La normalisation des données venant d'un réseau social devra donc intégrer des étapes spécifiques avant de pouvoir être exploitées, comme par exemple le traitement des emojis.

Par ailleurs, le service de ventes physique agrège des informations textuelles provenant d'enquêtes réalisées en salon ou sur un point de vente physique. Elles sont souvent manuscrites et doivent être d'abord converties d'images à un format textuel numérique avec un outil d'ICR (Intelligent Character Recognition). Après avoir été convertis, les documents textuels sont aussi nettoyés et normalisés et peuvent être traitées ensuite de la même manière que les emails.

Représenter les données

Pour pouvoir qualifier automatiquement les leads, les informations contenues dans les données textuelles qu'ils produisent doivent être représentées de manière à être comparables. Cela permet ensuite d'appliquer des algorithmes pour pouvoir les qualifier automatiquement. Différentes possibilités existent pour agréger les données et les rendre exploitables par des outils informatiques qui vont pouvoir les comparer en leur assignant un score de proximité :

représentation formelle : extraire les informations clés du texte pour pouvoir les catégoriser en fonction d'une ontologie ou une taxinomie,
représentation vectorielle : représenter tout le contenu textuel en vecteurs représentatifs de leur sens.

Le premier cas permet de comparer les informations extraites à propos d'un lead avec les informations que l'on souhaiterait qu'un lead ait pour un produit donné. Dans le second cas, c'est un score de proximité entre les vecteurs représentant les leads qui permet de les catégoriser.

Extraire les informations clés du texte

Pour extraire les informations clés des textes produits par les leads en vue d'une représentation formelle, il faut pouvoir identifier les mots ou groupes de mot représentatifs du besoin. Ces informations se trouvent majoritairement dans les groupes nominaux, comme par exemple "navigation GPS" et "modèle similaire sans cette caractéristique" dans le premier exemple. Plusieurs méthodes permettent de détecter automatiquement ces mots ou groupe de mots.

La première se base sur la fréquence d'apparition des termes co-occurents. Après avoir nettoyé le texte, calculer la fréquence des termes co-occurents permet d'identifier ceux qui sont exprimés souvent, et donc qui ont une grande importance dans le texte. Cette méthode est cependant peu fiable sur de petits volumes de textes, puisqu'elle repose sur une comparaison de fréquences. Dans ce dernier cas, par exemple si le lead n'a produit comme texte qu'un seul commentaire, les méthodes à base de règle syntaxiques doivent être préférées.

L'information importante se trouve effectivement majoritairement dans les groupes nominaux, dont la structure syntaxique peut être identifiée et analysée à base de règles. Par exemple dans l'exemple ci-dessus, l'adjectif "similaire" permet de savoir que la montre recherchée est une montre aux mêmes caractéristiques que celle proposée dans le poste qui est commenté, sans la préposition "sans" signale que la caractéristique "GPS" n'est pas nécessaire. La méthode à base de règle nécessite de définir un certain nombre de règles syntaxiques permettant d'extraire les groupes nominaux et de décomposer leur contenu. Elle permet par exemple de récupérer tous les ensembles NOM+ADJECTIF présents dans le texte, à partir de l'annotation syntaxique du document. Bien qu'étant une méthode stricte qui repose sur un travail préalable de définition de règles, elle a l'avantage de fonctionner sur n'importe quel volume de texte.

... dont tirer parti pour qualifier les leads.

La classification supervisée pour identifier les leads qualifiés

La classification supervisée vise à construire un modèle capable de classifier automatiquement des données. Cette méthode requiert de fournir au modèle des données d'entraînement, c'est à dire des exemples pour lesquels on a identifié la classe au préalable à la main. Pour construire un modèle capable de prédire si un lead est qualifié ou disqualifié, il est donc nécessaire de disposer d'exemples de données textuelles produites par des leads qualifiés, mais également d'exemple à propos des leads disqualifiés. Les informations textuelles sur ces leads doivent être transformées en vecteurs pour servir d'entrée au modèle de classification. Le modèle apprend ensuite à partir des données quelles sont les informations qui permettent de discriminer entre un lead qualifié et disqualifié, pour permettre ensuite de classer tout nouveau lead.

Les buyer personas pour décrire les leads

Les buyer personas (BP) permettent de décrire les leads archétypes pour un produit donné, une sorte de client parfait pour le produit. Ils décrivent un client type en répondant à certaines questions comme :

Qui est-il ? (nom, prénom, âge, situation familiale, etc.) ?
Quelles sont principales préoccupations ?
Quels sont ses besoins ?
Quel est son budget ?
De quelle manière achète-il ?
Quels sont ses freins à l’achat ?
Quels sont les supports de communication qu'il privilégie ?

Si les informations permettant de répondre à la première et la dernière question se trouvent assez facilement dans les formulaires complétés par le lead, les autres sont contenues dans les emails écrits en langue naturelle, comme montré précédemment.

Identifier des buyers personas parmi les leads

Lorsque les données des BP ont été récupérées pour chaque lead, une méthode de comparaison de documents permet d'évaluer à quel point un lead est proche d'un BP. Les deux méthodes de représentation des données évoquées ci-dessus rendent possible la mise en place d'un tel module de deux manières différentes, chacune ayant des avantages et des inconvénients différents :

la catégorisation par règle peut se faire en reposant sur les données extraites du texte. Elle permet une mise en correspondance très précise entre un lead et un persona, en reposant sur des règles manuellement définies par les commerciaux. L'avantage ici est donc l'adéquation stricte des résultats obtenus aux demandes des commerciaux, mais le désavantage est qu'il faut un grand nombre de règles pour obtenir une description fiable, ce qui nécessite un grand volume de travail pour les commerciaux,
la catégorisation vectorielle ne repose sur aucune règle mais uniquement sur le contenu textuel des données. L'algorithme est chargé de trouver au sein des données les informations qui permettent de regrouper les profils similaires et de trouver de quel BP ces profils sont les plus proches.

Regrouper les leads pour découvrir de nouveaux personas

Si des leads ne sont associés à aucun BP (c'est à dire ils ont un score de proximité trop faible avec tous les BP), il est possible de chercher par des méthodes de clustering si des clusters de personas ayant des caractéristiques similaires ou proches existent. Cela voudrait dire que des buyer personas existent dans nos leads mais que nous ne les avions pas au préalable identifié. Il revient ensuite au service commercial ou marketing de les étudier pour les qualifier.

Points d'attention

Cette étude de cas présente deux méthodes pour mettre en place une solution à la qualification automatique de lead : la méthode formelle et la méthode vectorielle.
Dans les deux cas, la première étape vise à nettoyer et unifier le texte produit par le lead. Sur l'exemple ci-dessus, cette étape permet d'obtenir le texte suivant (les éléments soulignés correspondent aux modifications réalisées) :

"Bonjour, lors de mon dernier marathon, ma montre GPS X a cassé et on m'en a donc prêté une de votre marque que j'ai beaucoup appréciée. C'était le modèle Y. Je n'ai cependant pas besoin de la navigation GPS, et n'ai d'ailleurs pas le budget pour l'option navigation GPS. Auriez vous le modèle Y sans l'option navigation GPS ?"

Ensuite, la méthode vectorielle va dans un premier temps transformer le texte en vecteur (une ensemble de chiffres représentant chaque mots du texte) qui pourra être comparé dans un second temps à d'autres vecteurs en termes de proximité sémantique. Avec la méthode formelle cependant, une première étape vise à extraire les informations pertinentes du texte pour ensuite les comparer avec des caractéristiques décrites en ontologies.

Le choix de l'une ou l'autre de ces méthodes doit être étudié en se basant sur différents paramètres. Par exemple, une entreprise n'ayant que peu de données annotées à propos de ses leads qualifiés/disqualifiés ne pourra certainement pas mettre en place une solution vectorielle fiable. En effet, l'utilisation de méthodes statistiques sur les vecteurs nécessite d'avoir suffisamment d'exemples pour que le modèle soit capable de généraliser l'apprentissage sans trop se spécifier. Dans le cas des méthodes à base de règle, l'entreprise doit s'assurer qu'elle dispose de suffisamment de temps et de ressources pour étudier et définir précisément les règles en fonction du besoin.

Le projet ODISAE, auquel l'APIL a participé, est un exemple intéressant de projet ou ces questions ont été abordées. Le but du projet était d'analyser les attentes d'un client et ses interactions avec les agents ou les systèmes automatiques. Notamment, des méthodes automatiques y ont été mises en place pour :

détecter les experts,
évaluer la qualité des réponses faites aux clients par les agents, les utilisateurs ou les systèmes automatiques,
déclencher des actions au fil de l’interaction pour aider à la vente ou au contraire prévenir l’attrition, etc.

Par Laurine Huber, doctorante en IA/NLP

Les technologies à mettre en oeuvre

Comment comparer des documents ?

Comparaison de documents, de quoi parle-t-on ? De nombreuses applications nécessitent de pouvoir comparer des documents entre eux, par exemple pour corriger un document, détecter du...

Catégorisation de documents

Pourquoi catégoriser des documents ? L’action de regrouper les objets en classes est au moins aussi ancienne que le langage lui-même, et, d’une certaine façon, en...

Qu'est-ce que le clustering ?

Le Clustering s’applique à un ensemble de documents (un « corpus ») et consiste à regrouper les documents qui se ressemblent. On forme ainsi des sous-ensembles, ou...

Qu'est-ce que la normalisation de textes ?

Quand est-il nécessaire de normaliser des textes ? La normalisation de textes consiste à préparer les textes pour effectuer un traitement automatique du contenu de plus...

Extraction d'information, de quoi s'agit-il ?

L’extraction d’information, à quoi ça sert ? L’extraction d’information consiste à identifier, dans des textes en langue naturelle, des informations types : noms de personnes ou de...

Reconnaissance Optique de Caractères : quelle différence entre l'OCR et l'ICR ?

La reconnaissance optique de caractères (ou OCR) consiste à analyser un document disponible sous forme d’image, par exemple un document numérisé au moyen d’un scanner...

Ces études de cas peuvent aussi vous intéresser

Analyse de contenu, Grand public

Trouver le bon Job dans toutes les offres d’emploi en ligne

Identifier les offres d'emploi qui sont le plus pertinentes pour moi dans la grande masse d'annonces

Je suis à la recherche active d'un emploi dans le domaine de la finance. J’ai besoin d’un outil qui m’aide à identifier les offres qui correspondent réellement à mon profil afin de me faire gagner du temps pour ma recherche.

Découvrir

Analyse de contenu

Le TAL au service d’une meilleure exploitation des documents historiques

Automatiser la retranscription de manuscrits médiévaux

Je suis professeur-chercheur et je travaille à la semi-automatisation d'exercices de paléontologie à l'attention des étudiants en histoire notamment. Pour cela, j'ai à ma disposition un corpus composé de manuscrits enluminés du Moyen Âge, mais les documents sont scannés et enregistrés sous la forme de collections d'images ou fichiers PDF sans texte sélectionnable. Or le corpus est composé de milliers de manuscrits, et je n'envisage pas de laisser une équipe d'humains tout retranscrire manuellement, tels des moines copistes pour ainsi dire. J'imagine que les outils du TAL, plus particulièrement l'OCR, pourront m'aider à rendre la tâche moins fastidieuse. Mais quelle méthode privilégier dans le cas particulier de manuscrits qui contiennent des éléments non textuels comme des ornements ainsi qu'une mise en page complexe avec, par exemple, des annotations dans les marges ?

Découvrir

Génération de contenu, speech-to-text

Résumer des réunions automatiquement

Je suis chef de projet dans un grand groupe fournisseur d’énergies. J’anime régulièrement des réunions et j’ai besoin que ces réunions soient résumées afin de diffuser des comptes-rendus à mes équipes.

Découvrir