Transformer une messagerie vocale en outil textuel intelligent

Le besoin

Gérer les appels manqués plus efficacement dans le cadre professionnel

Je suis avocat au sein d’un cabinet. Lorsque je suis en réunion, je ne peux pas répondre au téléphone, je manque donc parfois des appels professionnels importants. Une fois ma réunion terminée, écouter tous mes appels manqués et les trier pour pouvoir les traiter en fonction de leur contenu et de leur urgence est très chronophage. Avec un outil adéquat, le secrétariat pourrait m’aider à gérer tous ces messages.

Quelle solution peut être mise en place pour gérer plus intelligemment ma messagerie vocale et ainsi gagner en productivité ?

La solution

Un service de messagerie vocale visuel et intelligent

Pour gagner en productivité et en temps, l’objectif est de mettre en place une messagerie vocale à la fois visuelle et intelligente, c’est-à-dire une application de gestion téléphonique pour faciliter la lecture et la gestion des appels manqués, les partager et les réallouer aux personnes les plus adaptées pour les prendre rapidement en charge.

Transcrire des messages vocaux à l’écrit

Tout d’abord, pour gagner en efficacité et éviter d’écouter entièrement tous les messages vocaux, l’idée est d’en proposer une transcription écrite. Cela va permettre de lire très rapidement le message pour prendre connaissance du contenu et évaluer son degré d’importance et d’urgence. Pour convertir la voix en texte, il faut mettre en place un modèle de reconnaissance automatique de la parole (Automatic speech recognition ou ASR, en anglais) qui va prendre en entrée l’enregistrement d’une voix humaine enregistrée et le transformer en texte en sortie. Ces technologies peuvent être entrainées sur de larges corpus comportant plusieurs milliers d'heures d'enregistrement audio, avec des modèles comme wav2vec afin de pouvoir :

distinguer les moments de parole des silences ou bruits parasites,
reconnaitre les mots prononcés grâce à la phonétique,
prédire les phonèmes et les séquences de mots les plus probables,
rassembler ces prédictions pour créer une transcription écrite.

Voici un exemple de transcription de messages vocaux :

Exemple de transcription de messages vocaux

Le problème avec les appels téléphoniques, c’est que la qualité audio est de 16kbit, c’est-à-dire qu’elle est bien moins élevée qu’une vidéo Youtube, par exemple. Pour remédier à cela et pouvoir obtenir des résultats plus fiables lors de la transcription, un deuxième entraînement va être nécessaire afin d’affiner (fine-tuning) l’apprentissage du modèle sur un corpus audio adapté à cette problématique.

Analyser le contenu sémantique pour identifier le contenu et l’urgence des messages

Une fois que les messages vocaux sont retranscrits, il va être possible d’en analyser le contenu sémantique afin d’identifier la raison de l’appel et son degré d’importance et d’urgence, puis de catégoriser les messages.

Détecter des entités nommées

La détection des entités nommées va dans un premier temps permettre d’identifier le nom de la personne qui a appelé, son numéro de téléphone ou encore une date de rendez-vous proposée. En poussant l’analyse plus loin, il peut être intéressant d’identifier la raison de l’appel, à savoir une demande de rappel urgente, la transmission d’une information à traiter, une demande de document ou de prise de rendez-vous… L’intonation de la voix ou les termes employés peuvent aussi être étudiés pour permettre de détecter un potentiel mécontentement du client.

Catégoriser les messages vocaux

Grâce à l’analyse sémantique, les messages vocaux retranscrits vont ainsi pouvoir être catégorisés en y associant des tags comme « urgent », « important », « à rappeler », « demande de rdv », « pas content », ce qui va faciliter la gestion des appels reçus et donner une meilleure visibilité aux messages les plus urgents à traiter.

Une application de gestion des appels intelligente

Tous les outils détaillés précédemment vont pouvoir être intégrés dans une application mobile et web qui va permettre de faciliter la gestion globale des appels reçus au cabinet.

Message d’accueil puis enregistrement de la personne

Tout d’abord, la personne qui appelle va entendre un message d’accueil puis pouvoir enregistrer son message vocal. Celui-ci va alors apparaître sur l’application installée par l’avocat sous forme d’enregistrement vocal avec sa transcription. En parallèle, les tags associés à chaque message vont permettre d’effectuer un premier tri en fonction de leur importance.

Exemple d'interface utilisateur pour le service de messagerie visuel intelligent

Transmission de l’appel aux personnes concernées

Une fois que l’avocat a pris connaissance des messages laissés sur son répondeur, l’application va lui permettre de les partager avec le secrétariat du cabinet afin qu’ils soient rapidement réalloués aux personnes aptes à prendre en charge la demande du client.

L’application offre ainsi la possibilité de voir l’ensemble des appels reçus au sein du cabinet, pas seulement ceux d’un seul avocat, ce qui permet un gain de productivité et une plus grande rapidité de traitement des demandes.