Aider à la prospection en qualifiant automatiquement les leads

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Qualifier automatiquement les leads : un gain de temps et de précision

Lorsqu'un internaute interagit avec notre marque, par exemple en demandant des renseignements sur un produit, il fournit des informations sur ses intentions d'achat et sur son profil client. Ces informations permettent aux commerciaux de définir quelle stratégie adapter en vue de convertir le lead en client.

Actuellement, les commerciaux du service identifient les leads dès qu'ils interagissent avec notre marque, par exemple lorsqu'ils :

  • téléchargent un livre blanc,
  • discutent avec un chatbot,
  • commentent sur les réseaux sociaux,
  • demandent des renseignements par email.

Si certaines informations servent uniquement de déclencheur dans l'identification de leads, les riches contenus textuels produits lors d'une première interaction, par mail par exemple, contiennent de nombreuses informations sur lesquelles les commerciaux reposent pour affiner leur stratégie commerciale. Notamment, ces données vont permettre aux commerciaux d'identifier :

  • les leads qualifiés, afin de cibler lesquels prioriser dans le tunnel de conversion,
  • les intentions d'achat et besoin des leads, afin d'adapter une stratégie commerciale convaincante.

Un lead est identifié comme :

  • qualifié, lorsqu'il correspond à un certain nombre de critères de ciblage, et qu'il est considéré assez mature pour un premier contact commercial,
  • disqualifié s'il ne possède pas ces critères ou n'est pas jugé suffisamment mature.

Dans le premier cas, le lead est à la première étape du tunnel de conversion (parcours de vente), et les éléments qui le qualifient permettent de définir une stratégie commerciale précise pour l'amener jusqu'à la vente.

Dans le second cas, il est soit écarté du tunnel, soit conservé pour être ciblé lors de campagnes pour lequel le coût du contact est très faible.

Les critères de ciblage sont très précis mais un mail réceptionné peut au contraire être très développé et contenir de nombreuses informations sans aucun rapport avec le produit et uniquement quelques une en accord avec les critères de ciblage. Les commerciaux passent actuellement beaucoup de temps à lire tous les emails en détail pour détecter des critères parfois enfouis dans un contenu textuel riche et peu précis. Ce travail induit une perte de temps de travail considérable pour les commerciaux, qui ne sont pas à l’abri parfois de se tromper ou de manquer de précision en qualifiant les leads.

L'intelligence artificielle pourrait-elle aider les commerciaux de mon équipe à qualifier automatiquement les leads afin de gagner en temps et en précision ?

La solution

L'Intelligence Artificielle pour en apprendre d'avantage sur mes leads

Un contenu textuel riche...

Les emails envoyés par un lead pour signaler un intérêt ou une intention d'achat sont souvent riches de contenu textuel dont seulement une partie est significative pour identifier le profil et le besoin du lead. Par exemple :

"Bonjour, lors de mon dernier marathon, ma montre GPS X a rendu l'âme et on m'en a donc prêté une de votre marque que j'ai beaucoup appéciée. C'était le modèle Y. Je n'ai cependant pas besoin de la navigation GPS, et n'ai d'ailleurs pas le budget pour. Auriez vous un modèle similaire sans cet caractéristique ?"

Dans l'exemple ci-dessus, le lead signale qu'il souhaite remplacer sa montre GPS de la marque X par une montre de la marque. Il a pu identifier, après l'avoir essayée, la montre Y qui correspond à son besoin, mais il n'a pas besoin de navigation GPS. Il indique aussi ne pas avoir le budget pour acheter cette montre.

Extraire automatiquement ces informations de manière à pouvoir les comparer avec les critères de ciblage pour un produit nécessite d'abord de nettoyer et de les normaliser les textes.

Normaliser les données

Lorsque les données proviennent d'un canal numérique, les fluctuations de la langue ainsi que certaines erreurs de syntaxe ou d'orthographe rendent difficile leur traitement automatiquement. Différentes opérations permettent de les nettoyer et de les normaliser pour pouvoir les traiter uniformément ensuite, comme par exemple :

  • Correction des erreurs orthographiques (appéciée --> appréciée),
  • correction des erreurs de syntaxe (cet caractéristique --> cette caractéristique),
  • lemmatization ou stemming,
  • normalisation des abréviations et expressions (rendre l'âme --> casser),
  • résolution d'anaphore (le budget pour --> le budget pour l'option navigation GPS).

Ces erreurs sont communes dans les emails, mais les données provenant d'autres canaux intègrent souvent des problématiques différentes. Par exemple, on aura tendance à voir plus d'erreurs d'orthographe ou d'argot Internet (utilisation d'emojis ou de simplifications orthographiques) dans un commentaire sur un réseau social plutôt que dans un email. La normalisation des données venant d'un réseau social devra donc intégrer des étapes spécifiques avant de pouvoir être exploitées, comme par exemple le traitement des emojis.

Par ailleurs,  le service de ventes physique agrège des informations textuelles provenant d'enquêtes réalisées en salon ou sur un point de vente physique. Elles sont souvent manuscrites et doivent être d'abord converties d'images à un format textuel numérique avec un outil d'ICR (Intelligent Character Recognition). Après avoir été convertis, les documents textuels sont aussi nettoyés et normalisés et peuvent être traitées ensuite de la même manière que les emails.

Représenter les données

Pour pouvoir qualifier automatiquement les leads, les informations contenues dans les données textuelles qu'ils produisent doivent être représentées de manière à être comparables. Cela permet ensuite d'appliquer des algorithmes pour pouvoir les qualifier automatiquement. Différentes possibilités existent pour agréger les données et les rendre exploitables par des outils informatiques qui vont pouvoir les comparer en leur assignant un score de proximité :

  • représentation formelle : extraire les informations clés du texte pour pouvoir les catégoriser en fonction d'une ontologie ou une taxinomie,
  • représentation vectorielle : représenter tout le contenu textuel en vecteurs représentatifs de leur sens.

Le premier cas permet de comparer les informations extraites à propos d'un lead avec les informations que l'on souhaiterait qu'un lead ait pour un produit donné. Dans le second cas, c'est un score de proximité entre les vecteurs représentant les leads qui permet de les catégoriser.

Extraire les informations clés du texte

Pour extraire les informations clés des textes produits par les leads en vue d'une représentation formelle, il faut pouvoir identifier les mots ou groupes de mot représentatifs du besoin. Ces informations se trouvent majoritairement dans les groupes nominaux, comme par exemple "navigation GPS" et "modèle similaire sans cette caractéristique" dans le premier exemple. Plusieurs méthodes permettent de détecter automatiquement ces mots ou groupe de mots.

La première se base sur la fréquence d'apparition des termes co-occurents. Après avoir nettoyé le texte, calculer la fréquence des termes co-occurents permet d'identifier ceux qui sont exprimés souvent, et donc qui ont une grande importance dans le texte. Cette méthode est cependant peu fiable sur de petits volumes de textes, puisqu'elle repose sur une comparaison de fréquences. Dans ce dernier cas, par exemple si le lead n'a produit comme texte qu'un seul commentaire, les méthodes à base de règle syntaxiques doivent être préférées.

L'information importante se trouve effectivement majoritairement dans les groupes nominaux, dont la structure syntaxique peut être identifiée et analysée à base de règles. Par exemple dans l'exemple ci-dessus, l'adjectif "similaire" permet de savoir que la montre recherchée est une montre aux mêmes caractéristiques que celle proposée dans le poste qui est commenté, sans la préposition "sans" signale que la caractéristique "GPS" n'est pas nécessaire. La méthode à base de règle nécessite de définir un certain nombre de règles syntaxiques permettant d'extraire les groupes nominaux et de décomposer leur contenu. Elle permet par exemple de récupérer tous les ensembles NOM+ADJECTIF présents dans le texte, à partir de l'annotation syntaxique du document. Bien qu'étant une méthode stricte qui repose sur un travail préalable de définition de règles, elle a l'avantage de fonctionner sur n'importe quel volume de texte.

... dont tirer parti pour qualifier les leads.

La classification supervisée pour identifier les leads qualifiés

La classification supervisée vise à construire un modèle capable de classifier automatiquement des données. Cette méthode requiert de fournir au modèle des données d'entraînement, c'est à dire des exemples pour lesquels on a identifié la classe au préalable à la main. Pour construire un modèle capable de prédire si un lead est qualifié ou disqualifié, il est donc nécessaire de disposer d'exemples de données textuelles produites par des leads qualifiés, mais également d'exemple à propos des leads disqualifiés. Les informations textuelles sur ces leads doivent être transformées en vecteurs pour servir d'entrée au modèle de classification. Le modèle apprend ensuite à partir des données quelles sont les informations qui permettent de discriminer entre un lead qualifié et disqualifié, pour permettre ensuite de classer tout nouveau lead.

Les buyer personas pour décrire les leads

Les buyer personas (BP) permettent de décrire les leads archétypes pour un produit donné, une sorte de client parfait pour le produit. Ils décrivent un client type en répondant à certaines questions comme :

  • Qui est-il ? (nom, prénom, âge, situation familiale, etc.) ?
  • Quelles sont principales préoccupations ?
  • Quels sont ses besoins ?
  • Quel est son budget ?
  • De quelle manière achète-il ?
  • Quels sont ses freins à l’achat ?
  • Quels sont les supports de communication qu'il privilégie ?

Si les informations permettant de répondre à la première et la dernière question se trouvent assez facilement dans les formulaires complétés par le lead, les autres sont contenues dans les emails écrits en langue naturelle, comme montré précédemment.

Identifier des buyers personas parmi les leads

Lorsque les données des BP ont été récupérées pour chaque lead, une méthode de comparaison de documents permet d'évaluer à quel point un lead est proche d'un BP. Les deux méthodes de représentation des données évoquées ci-dessus rendent possible la mise en place d'un tel module de deux manières différentes, chacune ayant des avantages et des inconvénients différents :

  • la catégorisation par règle peut se faire en reposant sur les données extraites du texte. Elle permet une mise en correspondance très précise entre un lead et un persona, en reposant sur des règles manuellement définies par les commerciaux. L'avantage ici est donc l'adéquation stricte des résultats obtenus aux demandes des commerciaux, mais le désavantage est qu'il faut un grand nombre de règles pour obtenir une description fiable, ce qui nécessite un grand volume de travail pour les commerciaux,
  • la catégorisation vectorielle ne repose sur aucune règle mais uniquement sur le contenu textuel des données. L'algorithme est chargé de trouver au sein des données les informations qui permettent de regrouper les profils similaires et de trouver de quel BP ces profils sont les plus proches.

Regrouper les leads pour découvrir de nouveaux personas

Si des leads ne sont associés à aucun BP (c'est à dire ils ont un score de proximité trop faible avec tous les BP), il est possible de chercher par des méthodes de clustering si des clusters de personas ayant des caractéristiques similaires ou proches existent. Cela voudrait dire que des buyer personas existent dans nos leads mais que nous ne les avions pas au préalable identifié. Il revient ensuite au service commercial ou marketing de les étudier pour les qualifier.

Points d'attention

Cette étude de cas présente deux méthodes pour mettre en place une solution à la qualification automatique de lead : la méthode formelle et la méthode vectorielle.
Dans les deux cas, la première étape vise à nettoyer et unifier le texte produit par le lead. Sur l'exemple ci-dessus, cette étape permet d'obtenir le texte suivant (les éléments soulignés correspondent aux modifications réalisées) :

"Bonjour, lors de mon dernier marathon, ma montre GPS X a cassé et on m'en a donc prêté une de votre marque que j'ai beaucoup appréciée. C'était le modèle Y. Je n'ai cependant pas besoin de la navigation GPS, et n'ai d'ailleurs pas le budget pour l'option navigation GPS. Auriez vous le modèle Y sans l'option navigation GPS ?"

Ensuite, la méthode vectorielle va dans un premier temps transformer le texte en vecteur (une ensemble de chiffres représentant chaque mots du texte) qui pourra être comparé dans un second temps à d'autres vecteurs en termes de proximité sémantique. Avec la méthode formelle cependant, une première étape vise à extraire les informations pertinentes du texte pour ensuite les comparer avec des caractéristiques décrites en ontologies.

Le choix de l'une ou l'autre de ces méthodes doit être étudié en se basant sur différents paramètres. Par exemple, une entreprise n'ayant que peu de données annotées à propos de ses leads qualifiés/disqualifiés ne pourra certainement pas mettre en place une solution vectorielle fiable. En effet, l'utilisation de méthodes statistiques sur les vecteurs nécessite d'avoir suffisamment d'exemples pour que le modèle soit capable de généraliser l'apprentissage sans trop se spécifier. Dans le cas des méthodes à base de règle, l'entreprise doit s'assurer qu'elle dispose de suffisamment de temps et de ressources pour étudier et définir précisément les règles en fonction du besoin.

Le projet ODISAE, auquel l'APIL a participé, est un exemple intéressant de projet ou ces questions ont été abordées. Le but du projet était d'analyser les attentes d'un client et ses interactions avec les agents ou les systèmes automatiques. Notamment, des méthodes automatiques y ont été mises en place pour :

  • détecter les experts,
  • évaluer la qualité des réponses faites aux clients par les agents, les utilisateurs ou les systèmes automatiques,
  • déclencher des actions au fil de l’interaction pour aider à la vente ou au contraire prévenir l’attrition, etc.
Par Laurine Huber, doctorante en IA/NLP

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Aider à la prospection en qualifiant automatiquement les leads
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Emvista fait gagner du temps à ses clients en repensant le Traitement Automatique du Langage Naturel, la discipline de l’intelligence artificielle consacrée à la compréhension de texte. Ses équipes de chercheurs et d’ingénieurs conçoivent des produits pour aider les humains à faire face à l’afflux d’informations et à les transformer en valeur.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Agir chaque jour dans votre intérêt, et celui de la société.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Comment comparer des documents ?
Comparaison de documents, de quoi parle-t-on ? De nom­breuses appli­ca­tions néces­sitent de pou­voir com­pa­rer des docu­ments entre eux, par exemple pour cor­ri­ger un docu­ment, détec­ter du...
Catégorisation de documents
Pourquoi catégoriser des documents ? L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en...
Qu'est-ce que le clustering ?
Le Clus­te­ring s’ap­plique à un ensemble de docu­ments (un « cor­pus ») et consiste à regrou­per les docu­ments qui se res­semblent. On forme ain­si des sous-ensembles, ou...
Qu'est-ce que la normalisation de textes ?
Quand est-il nécessaire de normaliser des textes ? La nor­ma­li­sa­tion de textes consiste à pré­pa­rer les textes pour effec­tuer un trai­te­ment auto­ma­tique du conte­nu de plus...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...
Reconnaissance Optique de Caractères : quelle différence entre l'OCR et l'ICR ?
La recon­nais­sance optique de carac­tères (ou OCR) consiste à ana­ly­ser un docu­ment dis­po­nible sous forme d’i­mage, par exemple un docu­ment numé­ri­sé au moyen d’un scan­ner...

Ces études de cas peuvent aussi vous intéresser

Mettre en place une veille scientifique multilingue

Je suis responsable produits/R&D dans le domaine pharmaceutique, et je souhaite mettre en place une veille multilingue.

Tendances selfcare et modernisation du support client

Je suis directeur du support client chez un fournisseur de télévision par satellite. J’ai pour objectif de mettre en place plus de selfcare et automatiser mon support pour que mes clients trouvent plus rapidement les informations qu’ils recherchent. En parallèle, je dois faire baisser les coûts du support client. Alors, comment faire ?

Exploiter efficacement les bases de brevets

En tant que responsable R&D, il est important pour moi d’exploiter les bases de données de brevets dans mon domaine d’activités pour m'assurer que la société ne va pas investir du temps et de l'argent dans un projet qui pourrait être considéré comme une violation de brevet. Cependant, la volumétrie des données disponibles est considérable. A titre d’exemple, l’Office Européen des Brevets donne accès à plus de 140 millions documents de brevets. Le Traitement Automatique des Langues peut-il m’aider à mieux présélectionner des brevets via un fournisseur de brevets et ensuite à en faire un tri efficace ?