La reconnaissance vocale au service de nos techniciens de maintenance

Le besoin

La solution

Ils peuvent vous aider

Le besoin

Aide à la saisie de comptes rendus d'intervention de maintenance

Responsable du service après-vente (SAV) dans une entreprise de fabrication et d’installation de volets roulants, j'envoie quotidiennement des techniciens de maintenance intervenir chez nos clients. Suite à chaque intervention, ils doivent rédiger un compte rendu (CR) dont certaines sections sont en texte libre, les autres étant pré-remplies par notre système de gestion de maintenance assistée par ordinateur (GMAO).

Nos techniciens en intervention utilisent des tablettes ou des téléphones, la saisie de cette zone de texte libre s'avère parfois fastidieuse. Les progrès de la reconnaissance vocale constatés sur nos téléphones par exemple nous poussent à envisager une telle solution pour leur faciliter la tâche et gagner en productivité.

Le système de reconnaissance de la parole doit s'intégrer à notre application de GMAO, toutes les étapes et opérations nécessaires lors des différents types d'interventions ont été analysées et modélisées pour pré-remplir les CR, il ne s'agit donc pas de remplacer cette zone de texte libre par un formulaire ou autre. Le technicien doit pouvoir rédiger librement cette section et indiquer toutes les informations spécifiques à l'intervention donnée, mais plus facilement et rapidement qu'aujourd'hui.

La solution

Reconnaissance automatique de la parole pour la rédaction de comptes rendus

L'apparition sur nos téléphones d'assistants vocaux montre bien à quel point la reconnaissance automatique de la parole (ASR pour Automatic Speech Recognition en anglais) a progressé depuis ses balbutiements au milieu des années 1950. Elle est devenue aujourd'hui une technologie utilisée par un public de plus en plus vaste et varié, qui a pris l'habitude de passer ses commandes ou de rechercher une information en parlant à son portable, sans toujours se douter de la technologie qui se cache derrière.

De la parole au texte

La reconnaissance automatique de la parole consiste à analyser et à transformer un message vocal en une séquence symbolique représentative de son contenu et qui peut être une version textuelle numérique, une action, etc. Ses applications sont multiples : la commande des systèmes par la voix, la dictée vocale, l'identification d'une personne par sa voix, le dialogue homme-machine, l'aide à l'apprentissage des langues étrangères, etc.

Il existe principalement deux grandes familles de systèmes de reconnaissance automatique de la parole pour le français : une approche traditionnelle ou hybride et une approche dite bout-en-bout (end-to-end). Cette dernière repose sur un alignement d'un signal sonore avec sa transcription écrite, elle nécessite donc des corpus d'entraînement dont on ne dispose pas pour ce cas de transcription de CR d'interventions. Le choix d'un système de reconnaissance automatique de la parole fondé sur une approche hybride paraît donc plus approprié pour répondre au besoin exprimé.

Cette approche traditionnelle s'appuie par exemple sur des outils statistiques éprouvés comme les Modèles de Markov Cachés (MMC ou HMM pour Hidden Markov Models) ou sur l'utilisation de réseaux de neurones. Ces modèles issus de l'IA ont été employés dans le domaine dès la fin des années 1990, mais les immenses avancées intervenues en IA récemment ont également eu un impact en reconnaissance de la parole.

Certains éditeurs offrent ainsi des solutions qui intègrent des techniques comme celles de l'apprentissage profond (deep learning). Ces systèmes permettent d'ores et déjà une mise en œuvre plus rapide, grâce à une phase préliminaire d'apprentissage qui peut être plus brève, et surtout, ils promettent une amélioration en continu et automatique du taux de reconnaissance. Le domaine est en pleine évolution, il y a fort à parier que de nouvelles solutions toujours plus performantes vont continuer à voir le jour.

Un critère pour mesurer la performance des systèmes

Les systèmes de dictée vocale vont pouvoir répondre au besoin de transcription automatique des CR d'interventions. Leur apparition remonte aux années 1980 et, alors que leur fiabilité était de moins de 50%, elle avoisine aujourd'hui les 95% contre 97% pour les humains d'après les fournisseurs de solutions.

Pour comparer les systèmes de RAP, le Word Error Rate (WER) est le plus souvent employé. Cet indicateur mesure le taux de mots incorrectement transcrits ainsi :

WER = (S + I + D) / N

où

S est le nombre de mots substitués par le système,
I est le nombre de mots insérés par le système,
D est le nombre de mots supprimés par le système,
N est le nombre total de mots.

Par exemple (emprunté à Roux et al., 2022) :

Tu ne manges     pas  ton kiwi
 =  =   S     I   =    S    D
Tu ne mens   je  pas  toi

... Mais pas le seul !

Ce critère WER n'est bien entendu pas le seul à devoir être pris prendre en compte lors du choix d'un système de reconnaissance vocale. Les conditions réelles dans lesquelles les techniciens vont dicter leurs CR sont également un critère de sélection essentiel : les solutions ne gèrent en effet pas toutes aussi efficacement le bruit ambiant.

D'autres paramètres peuvent également entrer en considération comme la possibilité de transcrire en différentes langues ou la prise en charge mono/multilocuteurs. Certains logiciels sont ainsi dédiés à la reconnaissance d'un seul utilisateur et nécessitent d’enregistrer sa voix au préalable afin d'entraîner le système. D'autres solutions sont multilocuteurs et dans ce cas, elles utilisent le plus souvent des données stockées sur le Cloud, ce qui implique d'avoir une bonne connexion lors des interventions sur le terrain.

Dans le cas de la transcription des CR de maintenance, il n'y a qu'un locuteur : le technicien qui dicte à son téléphone ou sa tablette son CR. Le système devra toutefois être en mesure de reconnaître différents utilisateurs, les techniciens n'ont évidemment pas les mêmes voix et ne parlent pas avec les mêmes accents, intonations, etc.

Prise en compte du domaine d'application

Les performances des logiciels de reconnaissance sont également liées au domaine d'application, plus ou moins spécialisé et comportant par conséquent un vocabulaire plus ou moins spécifique. La taille et une bonne couverture du corpus d'apprentissage peuvent considérablement influer et améliorer le taux de reconnaissance du flux sonore par le système.

Ce corpus, constitué de l'ensemble des CR existants, va permettre au système d'apprendre à produire des phrases « à la manière de » ceux qui étaient obligés de les saisir manuellement jusque là. Ces données serviront par ailleurs à enrichir le vocabulaire de base avec toute la terminologie spécifique au domaine.

À côté des noms propres comme ceux des fournisseurs ou de leurs références, on va pouvoir aussi intégrer le lexique spécialisé ou les abréviations couramment employées dans le secteur, le but étant de transcrire correctement une séquence sonore comme « inter panne VR repro télé » par « intervention sur une panne de volet roulant : reprogrammation de la télécommande ».

En l'occurrence, dans le cas d'une rédaction automatisée des CR d'interventions de maintenance, le domaine est certes spécialisé mais tout de même suffisamment circonscrit pour envisager une intégration rapide et performante d'un module de reconnaissance dans un système de GMAO.

La reconnaissance de la parole : un choix judicieux pour transcrire automatiquement des CR

Le gain de temps qu'offre la dictée vocale est une évidence : on peut prononcer 200 mots par minute alors qu'on ne peut en saisir qu'environ 70, sans compter le problème des fautes d'orthographe ou des coquilles. Le technicien de maintenance ne pourra s'affranchir d'une relecture de la transcription mais cette tâche est bien moins fastidieuse que la saisie d'un texte.

Ce que l'on sait moins, c'est que la saisie d'un texte par le biais d'un clavier a une incidence sur sa qualité et sa précision. Ainsi l'adoption par la police de Rogers (ÉU, Minnesota) d'un module de transcription de CR a permis aux agents de ne plus se focaliser sur la saisie et de dicter des rapports plus précis et concis, tout en continuant à respecter la nécessité de rendre compte du maximum d'informations possibles.

Cette technologie est aujourd'hui jugée suffisamment fiable pour être utilisée dans des secteurs variés (et pour certains dits sensibles) comme ceux de l'automobile, de la santé, de la sécurité, etc. De nombreux logiciels professionnels existent sur ce marché déjà ancien mais qui est promis à s'étendre toujours plus. La très grande majorité de ces solutions sont aisément intégrables dans les systèmes existants (système d'archivage, documentaire ou naturellement de gestion de maintenance) et la plupart de ces solutions proposent diverses fonctionnalités supplémentaires (traduction en différentes langues, sous-titrage, etc.).

Points d'attention

Quelques entreprises émettent des craintes concernant la sécurité et le respect de la confidentialité de leurs données. Certains éditeurs proposent en effet des solutions qui consultent des serveurs distants et font transiter les données personnelles. Bien que les protocoles de protection de données soient nombreux, le risque d'une utilisation de ces données à des fins commerciales, voire d'un piratage existe potentiellement. D'autres éditeurs promettent quant à eux que les données de l’utilisateur ne sont pas communiquées aux GAFAM et offrent des solutions embarquées garantissant un haut niveau de confidentialité.

Lors de la mise en place d'un nouvel outil de ce type, il est important de s'assurer d'une bonne adoption par les utilisateurs finaux. Cette adoption ne pourra s'opérer que si la qualité de la transcription, la facilité de la prise en main et de l'utilisation au quotidien du logiciel sont au rendez-vous. Si le technicien se retrouve à passer plus de temps à dicter puis corriger la transcription qu'à la saisir lui-même, il délaissera naturellement cette fonctionnalité.

Par Vanessa

Experte NLP

Ils peuvent vous aider

Mobidys adapte des livres de littérature jeunesse d edtieur dans une version numérique accessible au public dys. Nos livres de format epub3 intègrent des outils d aide à la lecture pour personnaliser l expérience de lecture à leurs besoins (narration synchronisée, mise en forme du texte, mise en évidence d unites linguistiques pertinentes ou des unités de sens, ajouts d informations sémantiques...)

Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.

Le Hub France IA est une association à but non lucratif accélérant le développement et l’adoption d’une IA responsable, éthique et souveraine par l’ensemble du tissu économique. Le Hub France IA, c’est 200+ membres et 50+ partenaires : start-ups, PME, ETI, grands groupes et institutions dont l’objectif est d’accompagner la stratégie nationale pour l’intelligence artificielle.

Emvista fait gagner du temps à ses clients en repensant le Traitement Automatique du Langage Naturel, la discipline de l’intelligence artificielle consacrée à la compréhension de texte. Ses équipes de chercheurs et d’ingénieurs conçoivent des produits pour aider les humains à faire face à l’afflux d’informations et à les transformer en valeur.

L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Reconnaissance automatique de la parole

La reconnaissance automatique de la parole (Automatic Speech Recognition ou ASR en anglais) consiste à transformer la parole humaine en un texte, en reconnaissant les...

Ces études de cas peuvent aussi vous intéresser

Analyse de contenu

Le TAL pour la révision des normes d’écriture de documents techniques

Réviser des normes d’écriture de documents techniques

Je suis responsable qualité et chargé des normes et procédures dans le secteur de l’aéronautique. Je dois répondre à des défis tels que la production ou la révision de manuels de procédures ou de documents nécessitant une structure de langue contrôlée, qui doivent être précis et clairs. Ces documents doivent être conformes à des normes internationales rigoureuses, ils sont essentiels pour garantir la sécurité et l'efficacité des opérations. Une erreur, même minime, peut entraîner de graves conséquences humaines ou économiques.

Découvrir

Analyse de contenu, fouille de texte, Organisation d'information

Étude de marché automatisée : une force de travail Multi-Agents pour l’analyse des tendances

Surcharge informationnelle et latence d'analyse

Pour un cabinet de conseil, la veille concurrentielle devient vite un goulet d'étranglement lorsqu'il faut croiser des sources multiples, mouvantes et hétérogènes. Une orchestration multi-agents permet d'automatiser la collecte, la qualification et la restitution des signaux faibles, tout en conservant une validation humaine sur les conclusions sensibles.

Découvrir

Analyse de contenu, Génération de contenu

Génération de données synthétiques : produire des commentaires de réseaux sociaux pour mieux préparer une campagne marketing grâce à l’ingénierie de prompt

Anticiper les retours des utilisateurs sur des publications sur les réseaux sociaux.

Je suis un chef de projet marketing travaillant sur une campagne de lancement d'un produit cosmétique. J'ai préparé des publications qui seront diffusées sur les différents comptes de réseaux sociaux de notre marque, mais je ne sais pas comment ces dernières seront reçues.

Découvrir