Traiter les demandes entrantes dans le secteur de l’assurance

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Assurer une réactivité compétitive en contexte d’augmentation des réclamations

La crise sanitaire de la COVID-19 a soumis les compagnies d’assurance à rude épreuve. En effet, elle a donné lieu à une augmentation fulgurante du nombre de réclamations de clients faisant face à des difficultés diverses. En pareilles circonstances, l’assureur est confronté à une surcharge de son service clients et à un risque considérable de dégradation de la qualité de service, ce qui est inacceptable dans un contexte concurrentiel. Des crises de nature à mettre en tension la capacité de réponse des assureurs sont malheureusement appelées à se reproduire comme on a déjà pu le voir lors d’évènements climatiques extrêmes récents. Dans cette perspective, la mise en place de processus métier robustes et résilients devient pour la compagnie d’assurance un impératif de survie économique.

En tant que responsable de l’unité de gestion des sinistres, je souhaite mettre en place une solution pour orienter les réclamations automatiquement vers le service ou l'agent approprié.

 

 

La solution

Que peut m'apporter le TAL pour orienter les réclamations des assurés vers les bons interlocuteurs

La rapidité de la prise en charge des assurés est initialement conditionnée par l’orientation effective des réclamations entrantes vers les agents appropriés. Par exemple, dans le cas de l’assurance automobile, lors d’un incident, une déclaration décrivant les faits est transmise par l’assuré. Selon qu’un remplacement de véhicule soit nécessaire ou non, qu’il y ait des blessés ou pas, avec ou sans mise en garde à vue, différents agents seront amenés à être mobilisés du côté de l’assureur.

Ces informations sont contenues dans la déclaration de l’assuré et peuvent être détectées et prises en compte préalablement à toutes interventions humaines. Il existe en effet différentes approches pour orienter une demande entrante vers l'agent approprié. Elles consistent toutes à considérer que chaque agent ou groupe d'agents doit recevoir des réclamations appartenant à une certaine catégorie. Ces techniques dites de catégorisation reposent soit sur des règles, soit sur de l’apprentissage.

Représentation numérique des données textuelles : construire un espace vectoriel

Mettre un texte libre, en l’occurrence celui d’une réclamation, sous une forme structurée, est la première étape pour pouvoir orienter une demande entrante de manière automatique ou semi-automatique. Il existe plusieurs façons de procéder qui reposent sur l’exploitation de l’ensemble des textes de réclamations précédentes. Appelons cette base de données initiale “corpus des réclamations", ou simplement “corpus”.

Des approches fondées sur les fréquences de mots

Dans une première famille d’approches, les fréquences d’apparition des mots dans les réclamations sont exploitées explicitement pour construire des représentations structurées de ces réclamations.

Par exemple, le TF-IDF, pour Term Frequency - Inverse Document Frequency, est un descripteur classique qui s’obtient en divisant la fréquence d’apparition d’un mot dans une réclamation par sa fréquence d’apparition dans l’ensemble du corpus. Ainsi, chaque réclamation peut être représentée par un vecteur de TF-IDFs, qui renseigne sur les mots caractéristiques de ladite réclamation et à l’inverse sur les mots peu distinctifs. On obtient ainsi des représentations directement comparables à des réclamations dans un espace vectoriel.

Réduction de dimension

La dimension de l’espace vectoriel construit à partir des TF-IDFs est de l’ordre du nombre de mots du vocabulaire des réclamations. Ainsi, plus ce vocabulaire est varié, plus l’algorithme d’orientation automatique des réclamations est intensif en calculs et en mémoire, à moins que l’on n’impose a priori la dimensionnalité de la représentation vectorielle.

C’est ce que permettent les approches de modélisation des thèmes du corpus. De façon intuitive, celles-ci considèrent qu’un thème est caractérisé par la présence de certains mots, qui apparaissent ensemble sous un certain rapport de fréquences à découvrir automatiquement.

Aussi dans cette approche, une réclamation sera vue comme un mélange particulier des thèmes du corpus des réclamations, et décrite par un vecteur indiquant la représentativité de chacun des thèmes dans ladite réclamation. On passe donc à un espace vectoriel de représentation dont la taille est réduite au nombre de thèmes identifiés dans le corpus. Une méthode classique pour faire de la modélisation de thèmes sur un corpus est l’Allocation de Dirichlet Latente, qui dispose de variantes adaptées à la modélisation de documents courts tels que des réclamations.

Des approches basées sur des modèles de langage

Prise en compte de la synonymie

Dans les textes des réclamations, des termes tels que “domicile”, “logement”, “maison”, “appartement” ou “studio” seront généralement interchangeables relativement à l’orientation des réclamations. Or, dans le formalisme des approches présentées précédemment, la fréquence d’occurrence du signifié, qui est l’habitation, se trouve étalée sur ces différents signifiants dans le corpus des réclamations, ce qui limite intrinsèquement la capacité des représentations vectorielles dérivées à rapprocher les réclamations qui ont ce thème en commun.

Il est possible d’identifier la synonymie à travers ce que l’on appelle un modèle de langage. Il s’agit d’un modèle mathématique qui quantifie la probabilité d’occurrence d’une séquence de mots, de caractères, de morphèmes ou de phonèmes dans une langue donnée. La construction d’un modèle de langue au niveau des phrases plonge les mots dans un espace vectoriel dans lequel les distances euclidiennes sont représentatives des “distances” sémantiques entre les mots. Autrement dit, on peut en obtenir une représentation vectorielle des mots qui intègre la synonymie.

Variations contextuelles du sens

Par ailleurs, le sens d’un mot peut changer radicalement selon son contexte d’utilisation. Penser par exemple à “vol de voiture” et “vol d’avion”. Si cette ambiguïté de la langue n’est en général pas un obstacle à la compréhension d’une réclamation par un agent, c’est un véritable challenge dans le cadre du traitement automatique des réclamations.

Fort heureusement, il existe ainsi des modèles de langues qui permettent d’obtenir une représentation vectorielle pour chaque mot en fonction de son contexte d’apparition. Celles-ci sont obtenues grâce à des réseaux de neurones sophistiqués appelés “Transformers” qui tirent leur puissance sémantique d’un entraînement initial  à la résolution de deux tâches complexes :

  • retrouver des mots manquants supprimés aléatoirement de textes généralistes,
  • prédire la phrase suivante compte-tenu de celles qui précèdent dans des textes généralistes.

Pour la langue française en particulier, les modèles FlauBERT et CamemBERT font partie de cette catégorie.

Mots nouveaux, mal orthographiés ou mots rares

Une nouvelle réclamation peut contenir des mots absents du corpus des réclamations précédentes, surtout si celui-ci est de petite taille, et plus généralement de la base d’apprentissage ayant servi à entraîner le modèle de langue utilisé. Pour autant, on doit être en mesure d’obtenir une représentation vectorielle sémantiquement précise pour de tels mots, sous peine de réduire la fiabilité de l’orientation automatique des réclamations lorsque celles-ci contiennent des mots “nouveaux”. Les modèles du type FlauBERT et CamemBERT ont précisément la capacité de fournir une représentation vectorielle pertinente de mots non observés précédemment, puisqu’elles se servent du contexte d’apparition d’un mot, c’est-à-dire des mots qui l’entourent, pour en calculer la représentation. En particulier, il sera tout à fait possible de représenter correctement un mot mal orthographié dans une réclamation. De façon complémentaire, il existe également des modèles de langue au niveau des mots, c’est-à-dire qui modélisent les séquences de lettres ou de morphèmes d’une langue. Les représentations vectorielles de mots qui en dérivent ont une robustesse intrinsèque aux fautes d’orthographe. De plus, lorsqu’ils modélisent les morphèmes, ils peuvent capturer la sémantique de mots nouveaux ou d’usage rare, ce qui fiabilise davantage le système d’orientation automatique.

Spécificité du vocabulaire métier

Contrairement aux approches qui exploitent directement les fréquences d’apparition des mots dans le corpus des réclamations, les méthodes sémantiques présentées ci-avant nécessitent une phase d’apprentissage initiale sur de larges corpus de textes généralistes et variés. On peut se demander à juste titre quelle serait la pertinence de telles représentations, dérivées de corpus généralistes, pour une application dans un domaine métier plus restreint, tel que l’assurance automobile. Il existe précisément des procédés algorithmiques efficaces qui permettent d'adapter un modèle de représentation généraliste à un domaine thématique particulier. Cela relève du champ de recherche connu plus généralement en apprentissage statistique sous le nom de l’apprentissage par transfert.

Catégorisation des réclamations

Apprentissage non supervisé

A ce stade, grâce à l’une des approches présentées, on dispose d’une nouvelle représentation des réclamations, sous forme de vecteurs, ou de séquences de vecteurs. On peut alors mettre en oeuvre des algorithmes génériques tels que le partitionnement en k-moyennes pour identifier a priori des groupes de réclamations proches dans leur espace de représentation et catégoriser a posteriori chaque nouvelle réclamation en l’associant au groupe de réclamations le plus proche. Cette approche est dite non supervisée car elle ne nécessite pas de catégorisation manuelle des réclamations disponibles en base de données. Les catégories sont identifiées par l’algorithme de partitionnement. Néanmoins, une correspondance devra être établie a posteriori entre les groupes de réclamations similaires identifiés et les agents ou groupes d’agents concernés pour chaque groupe, ce qui permettra de leur affecter automatiquement les réclamations futures.

Apprentissage supervisé

Si les réclamations antérieures sont au moins partiellement catégorisées, alors en utilisant leur représentation vectorielle, on peut construire un modèle permettant d’associer à chaque réclamation de la base de données, sa catégorie prédéfinie. C’est ce modèle qui permettra d’identifier la catégorie des nouvelles réclamations. C’est un problème d’apprentissage statistique supervisé, pour lequel il existe plusieurs approches classiques dont le choix dépendra essentiellement des ressources calculatoires disponibles et de la représentation choisie. A ce propos, l’expertise métier doit guider le choix de représentation. Si l’on considère pour un niveau de catégorisation donné, que la présence de certains mots dans les réclamations est suffisamment discriminante, alors les méthodes fondées sur les fréquences des mots constitueront un fondement viable. Tel serait le cas pour catégoriser les réclamations selon qu’elles se rapportent à une habitation ou à une automobile par exemple.

Par contre, pour automatiser une qualification plus fine des réclamations, selon par exemple, la gravité d’un accident, le mécontentement ou la détresse de l’assuré, ou encore le risque de fraude, l’information discriminante sera souvent véhiculée par des indices linguistiques subtils. De ce fait, des représentations plus riches sémantiquement seront a priori mieux indiquées.

Points d'attention

Lors de l’apprentissage d’un modèle de catégorisation des réclamations, une attention particulière doit être accordée à la représentativité des différentes catégories dans la base d’exemples utilisés pour cet apprentissage. Lorsqu’une catégorie est sous-représentée ou sur-représentée, des techniques appropriées de ré-équilibrage des données doivent être mises en œuvre de sorte à apprendre un modèle ayant une aptitude comparable à identifier toutes les catégories d’intérêt.

Concluons sur un thème critique qui est la fraude à l’assurance. Elle constitue un double pôle de dépense pour l’assureur, en remboursements indus suite à de fausses déclarations et en temps de traitement par les agents d’assurance. Évaluer automatiquement le risque de fraude permet de réduire globalement le temps de traitement des réclamations en adaptant sélectivement l’effort de vérification humaine en fonction de la sensibilité de la réclamation, tout en améliorant l’efficacité de la détection des fraudes. L’automatisation de la détection de fraudes à l’assurance est un domaine de recherche particulièrement actif, étant donné les enjeux économiques, et qui se trouve aujourd’hui renforcé par les outils de représentation sémantique que nous avons évoqués.

 

Par Effa Emma
NLP data Scientist

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Traiter les demandes entrantes dans le secteur de l’assurance
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Catégorisation de documents
Pourquoi catégoriser des documents ? L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en...
Qu'est-ce que le clustering ?
Le Clus­te­ring s’ap­plique à un ensemble de docu­ments (un « cor­pus ») et consiste à regrou­per les docu­ments qui se res­semblent. On forme ain­si des sous-ensembles, ou...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...

Ces études de cas peuvent aussi vous intéresser

Diminuer considérablement le nombre d'emails à traiter par l'humain

Je suis dirigeant d’une société immobilière dont l’activité principale est la gestion syndicale de nombreux lots de copropriétés. Chaque jour, la boîte mail de ma société doit faire face à l’afflux de centaines d'emails : de la simple prise d’information à la demande d’intervention urgente. Comment puis-je automatiser le traitement d’un grand volume d'emails pour gagner en temps et en efficacité ?

La relation client multicanale : comment équilibrer le service entre coût et opportunités ?

Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.

Pousser au client l'information qu'il ne cherche pas encore

Responsable de la commercialisation de plusieurs titres de presse, je dois acquérir ou fidéliser mes abonnés en ligne en leur proposant l’actualité cruciale, voire critique dans leur activité, parmi des masses d’informations quotidiennes. Les mêmes outils de veille constituent un support précieux pour les journalistes de mes publications, à partir de sources externes.