Transformer une messagerie vocale en outil textuel intelligent
|
|
Le besoin
Gérer les appels manqués plus efficacement dans le cadre professionnel
Je suis avocat au sein d’un cabinet. Lorsque je suis en réunion, je ne peux pas répondre au téléphone, je manque donc parfois des appels professionnels importants. Une fois ma réunion terminée, écouter tous mes appels manqués et les trier pour pouvoir les traiter en fonction de leur contenu et de leur urgence est très chronophage. Avec un outil adéquat, le secrétariat pourrait m’aider à gérer tous ces messages.
Quelle solution peut être mise en place pour gérer plus intelligemment ma messagerie vocale et ainsi gagner en productivité ?
La solution
Un service de messagerie vocale visuel et intelligent
Pour gagner en productivité et en temps, l’objectif est de mettre en place une messagerie vocale à la fois visuelle et intelligente, c’est-à-dire une application de gestion téléphonique pour faciliter la lecture et la gestion des appels manqués, les partager et les réallouer aux personnes les plus adaptées pour les prendre rapidement en charge.
Transcrire des messages vocaux à l’écrit
Tout d’abord, pour gagner en efficacité et éviter d’écouter entièrement tous les messages vocaux, l’idée est d’en proposer une transcription écrite. Cela va permettre de lire très rapidement le message pour prendre connaissance du contenu et évaluer son degré d’importance et d’urgence. Pour convertir la voix en texte, il faut mettre en place un modèle de reconnaissance automatique de la parole (Automatic speech recognition ou ASR, en anglais) qui va prendre en entrée l’enregistrement d’une voix humaine enregistrée et le transformer en texte en sortie. Ces technologies peuvent être entrainées sur de larges corpus comportant plusieurs milliers d'heures d'enregistrement audio, avec des modèles comme wav2vec afin de pouvoir :
- distinguer les moments de parole des silences ou bruits parasites,
- reconnaitre les mots prononcés grâce à la phonétique,
- prédire les phonèmes et les séquences de mots les plus probables,
- rassembler ces prédictions pour créer une transcription écrite.
Voici un exemple de transcription de messages vocaux :
Le problème avec les appels téléphoniques, c’est que la qualité audio est de 16kbit, c’est-à-dire qu’elle est bien moins élevée qu’une vidéo Youtube, par exemple. Pour remédier à cela et pouvoir obtenir des résultats plus fiables lors de la transcription, un deuxième entraînement va être nécessaire afin d’affiner (fine-tuning) l’apprentissage du modèle sur un corpus audio adapté à cette problématique.
Analyser le contenu sémantique pour identifier le contenu et l’urgence des messages
Une fois que les messages vocaux sont retranscrits, il va être possible d’en analyser le contenu sémantique afin d’identifier la raison de l’appel et son degré d’importance et d’urgence, puis de catégoriser les messages.
Détecter des entités nommées
La détection des entités nommées va dans un premier temps permettre d’identifier le nom de la personne qui a appelé, son numéro de téléphone ou encore une date de rendez-vous proposée. En poussant l’analyse plus loin, il peut être intéressant d’identifier la raison de l’appel, à savoir une demande de rappel urgente, la transmission d’une information à traiter, une demande de document ou de prise de rendez-vous… L’intonation de la voix ou les termes employés peuvent aussi être étudiés pour permettre de détecter un potentiel mécontentement du client.
Catégoriser les messages vocaux
Grâce à l’analyse sémantique, les messages vocaux retranscrits vont ainsi pouvoir être catégorisés en y associant des tags comme « urgent », « important », « à rappeler », « demande de rdv », « pas content », ce qui va faciliter la gestion des appels reçus et donner une meilleure visibilité aux messages les plus urgents à traiter.
Une application de gestion des appels intelligente
Tous les outils détaillés précédemment vont pouvoir être intégrés dans une application mobile et web qui va permettre de faciliter la gestion globale des appels reçus au cabinet.
Message d’accueil puis enregistrement de la personne
Tout d’abord, la personne qui appelle va entendre un message d’accueil puis pouvoir enregistrer son message vocal. Celui-ci va alors apparaître sur l’application installée par l’avocat sous forme d’enregistrement vocal avec sa transcription. En parallèle, les tags associés à chaque message vont permettre d’effectuer un premier tri en fonction de leur importance.
Transmission de l’appel aux personnes concernées
Une fois que l’avocat a pris connaissance des messages laissés sur son répondeur, l’application va lui permettre de les partager avec le secrétariat du cabinet afin qu’ils soient rapidement réalloués aux personnes aptes à prendre en charge la demande du client.
L’application offre ainsi la possibilité de voir l’ensemble des appels reçus au sein du cabinet, pas seulement ceux d’un seul avocat, ce qui permet un gain de productivité et une plus grande rapidité de traitement des demandes.
Points d'attention
L'entreprise qui propose ce type de solution doit faire en sorte que la circulation des données enregistrées soit conforme à la réglementation, et en particulier au RGPD.
Par ailleurs, comme tout modèle de traitement automatique des langues (TAL), la transcription des messages ne peut pas être exacte dans 100% des cas, il peut parfois y avoir des phénomènes d’hallucination auditive. Pour pallier ce risque, le service de messagerie intelligent partage des informations utiles pour faciliter le travail des avocats mais n’a pas la capacité de prendre des décisions ou d’automatiser des tâches. L’humain reste toujours maître de ces actions afin d’éviter toute dérive potentielle due à une mauvaise interprétation par le modèle.