La reconnaissance vocale au service de nos techniciens de maintenance
|
|
Le besoin
Aide à la saisie de comptes rendus d'intervention de maintenance
Responsable du service après-vente (SAV) dans une entreprise de fabrication et d’installation de volets roulants, j'envoie quotidiennement des techniciens de maintenance intervenir chez nos clients. Suite à chaque intervention, ils doivent rédiger un compte rendu (CR) dont certaines sections sont en texte libre, les autres étant pré-remplies par notre système de gestion de maintenance assistée par ordinateur (GMAO).
Nos techniciens en intervention utilisent des tablettes ou des téléphones, la saisie de cette zone de texte libre s'avère parfois fastidieuse. Les progrès de la reconnaissance vocale constatés sur nos téléphones par exemple nous poussent à envisager une telle solution pour leur faciliter la tâche et gagner en productivité.
Le système de reconnaissance de la parole doit s'intégrer à notre application de GMAO, toutes les étapes et opérations nécessaires lors des différents types d'interventions ont été analysées et modélisées pour pré-remplir les CR, il ne s'agit donc pas de remplacer cette zone de texte libre par un formulaire ou autre. Le technicien doit pouvoir rédiger librement cette section et indiquer toutes les informations spécifiques à l'intervention donnée, mais plus facilement et rapidement qu'aujourd'hui.
La solution
Reconnaissance automatique de la parole pour la rédaction de comptes rendus
L'apparition sur nos téléphones d'assistants vocaux montre bien à quel point la reconnaissance automatique de la parole (ASR pour Automatic Speech Recognition en anglais) a progressé depuis ses balbutiements au milieu des années 1950. Elle est devenue aujourd'hui une technologie utilisée par un public de plus en plus vaste et varié, qui a pris l'habitude de passer ses commandes ou de rechercher une information en parlant à son portable, sans toujours se douter de la technologie qui se cache derrière.
De la parole au texte
La reconnaissance automatique de la parole consiste à analyser et à transformer un message vocal en une séquence symbolique représentative de son contenu et qui peut être une version textuelle numérique, une action, etc. Ses applications sont multiples : la commande des systèmes par la voix, la dictée vocale, l'identification d'une personne par sa voix, le dialogue homme-machine, l'aide à l'apprentissage des langues étrangères, etc.
Il existe principalement deux grandes familles de systèmes de reconnaissance automatique de la parole pour le français : une approche traditionnelle ou hybride et une approche dite bout-en-bout (end-to-end). Cette dernière repose sur un alignement d'un signal sonore avec sa transcription écrite, elle nécessite donc des corpus d'entraînement dont on ne dispose pas pour ce cas de transcription de CR d'interventions. Le choix d'un système de reconnaissance automatique de la parole fondé sur une approche hybride paraît donc plus approprié pour répondre au besoin exprimé.
Cette approche traditionnelle s'appuie par exemple sur des outils statistiques éprouvés comme les Modèles de Markov Cachés (MMC ou HMM pour Hidden Markov Models) ou sur l'utilisation de réseaux de neurones. Ces modèles issus de l'IA ont été employés dans le domaine dès la fin des années 1990, mais les immenses avancées intervenues en IA récemment ont également eu un impact en reconnaissance de la parole.
Certains éditeurs offrent ainsi des solutions qui intègrent des techniques comme celles de l'apprentissage profond (deep learning). Ces systèmes permettent d'ores et déjà une mise en œuvre plus rapide, grâce à une phase préliminaire d'apprentissage qui peut être plus brève, et surtout, ils promettent une amélioration en continu et automatique du taux de reconnaissance. Le domaine est en pleine évolution, il y a fort à parier que de nouvelles solutions toujours plus performantes vont continuer à voir le jour.
Un critère pour mesurer la performance des systèmes
Les systèmes de dictée vocale vont pouvoir répondre au besoin de transcription automatique des CR d'interventions. Leur apparition remonte aux années 1980 et, alors que leur fiabilité était de moins de 50%, elle avoisine aujourd'hui les 95% contre 97% pour les humains d'après les fournisseurs de solutions.
Pour comparer les systèmes de RAP, le Word Error Rate (WER) est le plus souvent employé. Cet indicateur mesure le taux de mots incorrectement transcrits ainsi :
WER = (S + I + D) / N
où
- S est le nombre de mots substitués par le système,
- I est le nombre de mots insérés par le système,
- D est le nombre de mots supprimés par le système,
- N est le nombre total de mots.
Par exemple (emprunté à Roux et al., 2022) :
Tu ne manges pas ton kiwi = = S I = S D Tu ne mens je pas toi
... Mais pas le seul !
Ce critère WER n'est bien entendu pas le seul à devoir être pris prendre en compte lors du choix d'un système de reconnaissance vocale. Les conditions réelles dans lesquelles les techniciens vont dicter leurs CR sont également un critère de sélection essentiel : les solutions ne gèrent en effet pas toutes aussi efficacement le bruit ambiant.
D'autres paramètres peuvent également entrer en considération comme la possibilité de transcrire en différentes langues ou la prise en charge mono/multilocuteurs. Certains logiciels sont ainsi dédiés à la reconnaissance d'un seul utilisateur et nécessitent d’enregistrer sa voix au préalable afin d'entraîner le système. D'autres solutions sont multilocuteurs et dans ce cas, elles utilisent le plus souvent des données stockées sur le Cloud, ce qui implique d'avoir une bonne connexion lors des interventions sur le terrain.
Dans le cas de la transcription des CR de maintenance, il n'y a qu'un locuteur : le technicien qui dicte à son téléphone ou sa tablette son CR. Le système devra toutefois être en mesure de reconnaître différents utilisateurs, les techniciens n'ont évidemment pas les mêmes voix et ne parlent pas avec les mêmes accents, intonations, etc.
Prise en compte du domaine d'application
Les performances des logiciels de reconnaissance sont également liées au domaine d'application, plus ou moins spécialisé et comportant par conséquent un vocabulaire plus ou moins spécifique. La taille et une bonne couverture du corpus d'apprentissage peuvent considérablement influer et améliorer le taux de reconnaissance du flux sonore par le système.
Ce corpus, constitué de l'ensemble des CR existants, va permettre au système d'apprendre à produire des phrases « à la manière de » ceux qui étaient obligés de les saisir manuellement jusque là. Ces données serviront par ailleurs à enrichir le vocabulaire de base avec toute la terminologie spécifique au domaine.
À côté des noms propres comme ceux des fournisseurs ou de leurs références, on va pouvoir aussi intégrer le lexique spécialisé ou les abréviations couramment employées dans le secteur, le but étant de transcrire correctement une séquence sonore comme « inter panne VR repro télé » par « intervention sur une panne de volet roulant : reprogrammation de la télécommande ».
En l'occurrence, dans le cas d'une rédaction automatisée des CR d'interventions de maintenance, le domaine est certes spécialisé mais tout de même suffisamment circonscrit pour envisager une intégration rapide et performante d'un module de reconnaissance dans un système de GMAO.
La reconnaissance de la parole : un choix judicieux pour transcrire automatiquement des CR
Le gain de temps qu'offre la dictée vocale est une évidence : on peut prononcer 200 mots par minute alors qu'on ne peut en saisir qu'environ 70, sans compter le problème des fautes d'orthographe ou des coquilles. Le technicien de maintenance ne pourra s'affranchir d'une relecture de la transcription mais cette tâche est bien moins fastidieuse que la saisie d'un texte.
Ce que l'on sait moins, c'est que la saisie d'un texte par le biais d'un clavier a une incidence sur sa qualité et sa précision. Ainsi l'adoption par la police de Rogers (ÉU, Minnesota) d'un module de transcription de CR a permis aux agents de ne plus se focaliser sur la saisie et de dicter des rapports plus précis et concis, tout en continuant à respecter la nécessité de rendre compte du maximum d'informations possibles.
Cette technologie est aujourd'hui jugée suffisamment fiable pour être utilisée dans des secteurs variés (et pour certains dits sensibles) comme ceux de l'automobile, de la santé, de la sécurité, etc. De nombreux logiciels professionnels existent sur ce marché déjà ancien mais qui est promis à s'étendre toujours plus. La très grande majorité de ces solutions sont aisément intégrables dans les systèmes existants (système d'archivage, documentaire ou naturellement de gestion de maintenance) et la plupart de ces solutions proposent diverses fonctionnalités supplémentaires (traduction en différentes langues, sous-titrage, etc.).
Points d'attention
Quelques entreprises émettent des craintes concernant la sécurité et le respect de la confidentialité de leurs données. Certains éditeurs proposent en effet des solutions qui consultent des serveurs distants et font transiter les données personnelles. Bien que les protocoles de protection de données soient nombreux, le risque d'une utilisation de ces données à des fins commerciales, voire d'un piratage existe potentiellement. D'autres éditeurs promettent quant à eux que les données de l’utilisateur ne sont pas communiquées aux GAFAM et offrent des solutions embarquées garantissant un haut niveau de confidentialité.
Lors de la mise en place d'un nouvel outil de ce type, il est important de s'assurer d'une bonne adoption par les utilisateurs finaux. Cette adoption ne pourra s'opérer que si la qualité de la transcription, la facilité de la prise en main et de l'utilisation au quotidien du logiciel sont au rendez-vous. Si le technicien se retrouve à passer plus de temps à dicter puis corriger la transcription qu'à la saisir lui-même, il délaissera naturellement cette fonctionnalité.