La reconnaissance vocale au service de nos techniciens de maintenance

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Aide à la saisie de comptes rendus d'intervention de maintenance

Responsable du service après-vente (SAV) dans une entreprise de fabrication et d’installation de volets roulants, j'envoie quotidiennement des techniciens de maintenance intervenir chez nos clients. Suite à chaque intervention, ils doivent rédiger un compte rendu (CR) dont certaines sections sont en texte libre, les autres étant pré-remplies par notre système de gestion de maintenance assistée par ordinateur (GMAO).

Nos techniciens en intervention utilisent des tablettes ou des téléphones, la saisie de cette zone de texte libre s'avère parfois fastidieuse. Les progrès de la reconnaissance vocale constatés sur nos téléphones par exemple nous poussent à envisager une telle solution pour leur faciliter la tâche et gagner en productivité.

Le système de reconnaissance de la parole doit s'intégrer à notre application de GMAO, toutes les étapes et opérations nécessaires lors des différents types d'interventions ont été analysées et modélisées pour pré-remplir les CR, il ne s'agit donc pas de remplacer cette zone de texte libre par un formulaire ou autre. Le technicien doit pouvoir rédiger librement cette section et indiquer toutes les informations spécifiques à l'intervention donnée, mais plus facilement et rapidement qu'aujourd'hui.

La solution

Reconnaissance automatique de la parole pour la rédaction de comptes rendus

L'apparition sur nos téléphones d'assistants vocaux montre bien à quel point la reconnaissance automatique de la parole (ASR pour Automatic Speech Recognition en anglais) a progressé depuis ses balbutiements au milieu des années 1950. Elle est devenue aujourd'hui une technologie utilisée par un public de plus en plus vaste et varié, qui a pris l'habitude de passer ses commandes ou de rechercher une information en parlant à son portable, sans toujours se douter de la technologie qui se cache derrière.

De la parole au texte

La reconnaissance automatique de la parole consiste à analyser et à transformer un message vocal en une séquence symbolique représentative de son contenu et qui peut être une version textuelle numérique, une action, etc. Ses applications sont multiples : la commande des systèmes par la voix, la dictée vocale, l'identification d'une personne par sa voix, le dialogue homme-machine, l'aide à l'apprentissage des langues étrangères, etc.

Il existe principalement deux grandes familles de systèmes de reconnaissance automatique de la parole pour le français : une approche traditionnelle ou hybride et une approche dite bout-en-bout (end-to-end). Cette dernière repose sur un alignement d'un signal sonore avec sa transcription écrite, elle nécessite donc des corpus d'entraînement dont on ne dispose pas pour ce cas de transcription de CR d'interventions. Le choix d'un système de reconnaissance automatique de la parole fondé sur une approche hybride paraît donc plus approprié pour répondre au besoin exprimé.

Cette approche traditionnelle s'appuie par exemple sur des outils statistiques éprouvés comme les Modèles de Markov Cachés (MMC ou HMM pour Hidden Markov Models) ou sur l'utilisation de réseaux de neurones. Ces modèles issus de l'IA ont été employés dans le domaine dès la fin des années 1990, mais les immenses avancées intervenues en IA récemment ont également eu un impact en reconnaissance de la parole.

Certains éditeurs offrent ainsi des solutions qui intègrent des techniques comme celles de l'apprentissage profond (deep learning). Ces systèmes permettent d'ores et déjà une mise en œuvre plus rapide, grâce à une phase préliminaire d'apprentissage qui peut être plus brève, et surtout, ils promettent une amélioration en continu et automatique du taux de reconnaissance. Le domaine est en pleine évolution, il y a fort à parier que de nouvelles solutions toujours plus performantes vont continuer à voir le jour.

Un critère pour mesurer la performance des systèmes

Les systèmes de dictée vocale vont pouvoir répondre au besoin de transcription automatique des CR d'interventions. Leur apparition remonte aux années 1980 et, alors que leur fiabilité était de moins de 50%, elle avoisine aujourd'hui les 95% contre 97% pour les humains d'après les fournisseurs de solutions.

Pour comparer les systèmes de RAP, le Word Error Rate (WER) est le plus souvent employé. Cet indicateur mesure le taux de mots incorrectement transcrits ainsi :

WER = (S + I + D) / N

  • S est le nombre de mots substitués par le système,
  • I est le nombre de mots insérés par le système,
  • D est le nombre de mots supprimés par le système,
  • N est le nombre total de mots.

Par exemple (emprunté à Roux et al., 2022) :

Tu ne manges     pas  ton kiwi
 =  =   S     I   =    S    D
Tu ne mens   je  pas  toi

... Mais pas le seul !

Ce critère WER n'est bien entendu pas le seul à devoir être pris prendre en compte lors du choix d'un système de reconnaissance vocale. Les conditions réelles dans lesquelles les techniciens vont dicter leurs CR sont également un critère de sélection essentiel : les solutions ne gèrent en effet pas toutes aussi efficacement le bruit ambiant.

D'autres paramètres peuvent également entrer en considération comme la possibilité de transcrire en différentes langues ou la prise en charge mono/multilocuteurs. Certains logiciels sont ainsi dédiés à la reconnaissance d'un seul utilisateur et nécessitent d’enregistrer sa voix au préalable afin d'entraîner le système. D'autres solutions sont multilocuteurs et dans ce cas, elles utilisent le plus souvent des données stockées sur le Cloud, ce qui implique d'avoir une bonne connexion lors des interventions sur le terrain.

Dans le cas de la transcription des CR de maintenance, il n'y a qu'un locuteur : le technicien qui dicte à son téléphone ou sa tablette son CR. Le système devra toutefois être en mesure de reconnaître différents utilisateurs, les techniciens n'ont évidemment pas les mêmes voix et ne parlent pas avec les mêmes accents, intonations, etc.

Prise en compte du domaine d'application

Les performances des logiciels de reconnaissance sont également liées au domaine d'application, plus ou moins spécialisé et comportant par conséquent un vocabulaire plus ou moins spécifique. La taille et une bonne couverture du corpus d'apprentissage peuvent considérablement influer et améliorer le taux de reconnaissance du flux sonore par le système.

Ce corpus, constitué de l'ensemble des CR existants, va permettre au système d'apprendre à produire des phrases « à la manière de » ceux qui étaient obligés de les saisir manuellement jusque là. Ces données serviront par ailleurs à enrichir le vocabulaire de base avec toute la terminologie spécifique au domaine.

À côté des noms propres comme ceux des fournisseurs ou de leurs références, on va pouvoir aussi intégrer le lexique spécialisé ou les abréviations couramment employées dans le secteur, le but étant de transcrire correctement une séquence sonore comme « inter panne VR repro télé » par « intervention sur une panne de volet roulant : reprogrammation de la télécommande ».

En l'occurrence, dans le cas d'une rédaction automatisée des CR d'interventions de maintenance, le domaine est certes spécialisé mais tout de même suffisamment circonscrit pour envisager une intégration rapide et performante d'un module de reconnaissance dans un système de GMAO.

La reconnaissance de la parole : un choix judicieux pour transcrire automatiquement des CR

Le gain de temps qu'offre la dictée vocale est une évidence : on peut prononcer 200 mots par minute alors qu'on ne peut en saisir qu'environ 70, sans compter le problème des fautes d'orthographe ou des coquilles. Le technicien de maintenance ne pourra s'affranchir d'une relecture de la transcription mais cette tâche est bien moins fastidieuse que la saisie d'un texte.

Ce que l'on sait moins, c'est que la saisie d'un texte par le biais d'un clavier a une incidence sur sa qualité et sa précision. Ainsi l'adoption par la police de Rogers (ÉU, Minnesota) d'un module de transcription de CR a permis aux agents de ne plus se focaliser sur la saisie et de dicter des rapports plus précis et concis, tout en continuant à respecter la nécessité de rendre compte du maximum d'informations possibles.

Cette technologie est aujourd'hui jugée suffisamment fiable pour être utilisée dans des secteurs variés (et pour certains dits sensibles) comme ceux de l'automobile, de la santé, de la sécurité, etc. De nombreux logiciels professionnels existent sur ce marché déjà ancien mais qui est promis à s'étendre toujours plus. La très grande majorité de ces solutions sont aisément intégrables dans les systèmes existants (système d'archivage, documentaire ou naturellement de gestion de maintenance) et la plupart de ces solutions proposent diverses fonctionnalités supplémentaires (traduction en différentes langues, sous-titrage, etc.).

Points d'attention

Quelques entreprises émettent des craintes concernant la sécurité et le respect de la confidentialité de leurs données. Certains éditeurs proposent en effet des solutions qui consultent des serveurs distants et font transiter les données personnelles. Bien que les protocoles de protection de données soient nombreux, le risque d'une utilisation de ces données à des fins commerciales, voire d'un piratage existe potentiellement. D'autres éditeurs promettent quant à eux que les données de l’utilisateur ne sont pas communiquées aux GAFAM et offrent des solutions embarquées garantissant un haut niveau de confidentialité.

Lors de la mise en place d'un nouvel outil de ce type, il est important de s'assurer d'une bonne adoption par les utilisateurs finaux. Cette adoption ne pourra s'opérer que si la qualité de la transcription, la facilité de la prise en main et de l'utilisation au quotidien du logiciel sont au rendez-vous. Si le technicien se retrouve à passer plus de temps à dicter puis corriger la transcription qu'à la saisir lui-même, il délaissera naturellement cette fonctionnalité.

Par Vanessa
Experte NLP

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas La reconnaissance vocale au service de nos techniciens de maintenance
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Reconnaissance automatique de la parole
La recon­nais­sance auto­ma­tique de la parole (Auto­ma­tic Speech Recog­ni­tion ou ASR en anglais) consiste à trans­for­mer la parole humaine en un texte, en recon­nais­sant les...

Ces études de cas peuvent aussi vous intéresser

Classer la polarité des avis clients de manière fine

Je suis responsable du service après-vente d'un site de vente en ligne et nous avons actuellement un système de prédiction automatique permettant de classer les avis de clients comme positifs, négatifs et neutres. Cependant, nous aimerions un système de détection qui, au lieu de donner une étiquette globale à un texte entier, fournisse des informations à un niveau plus fin. Existe-t-il des solutions de ce genre ?

Qualifier automatiquement les leads : un gain de temps et de précision

Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.

Modérer les commentaires des abonnés en évitant le blocage de contenus

Chef de produit d'un quotidien d'actualités en ligne, je fais attention à la qualité de la section des commentaires rédigés par nos abonnés. Une façon de modérer serait de bloquer des commentaires contenant de fausses informations ou présentant un raisonnement douteux. Cependant, je dois aussi veiller à ce qu'il y ait une bonne interactivité entre les abonnés. Le blocage de commentaires, bien que simple à mettre en place, impactera non seulement la liberté d'expression mais aussi l'échange d'opinions entre les abonnés. J'aimerais savoir s'il existe des solutions moins contraignantes.