Traiter les demandes entrantes dans le secteur de l’assurance
|
|
Le besoin
Assurer une réactivité compétitive en contexte d’augmentation des réclamations
La crise sanitaire de la COVID-19 a soumis les compagnies d’assurance à rude épreuve. En effet, elle a donné lieu à une augmentation fulgurante du nombre de réclamations de clients faisant face à des difficultés diverses. En pareilles circonstances, l’assureur est confronté à une surcharge de son service clients et à un risque considérable de dégradation de la qualité de service, ce qui est inacceptable dans un contexte concurrentiel. Des crises de nature à mettre en tension la capacité de réponse des assureurs sont malheureusement appelées à se reproduire comme on a déjà pu le voir lors d’évènements climatiques extrêmes récents. Dans cette perspective, la mise en place de processus métier robustes et résilients devient pour la compagnie d’assurance un impératif de survie économique.
En tant que responsable de l’unité de gestion des sinistres, je souhaite mettre en place une solution pour orienter les réclamations automatiquement vers le service ou l'agent approprié.
La solution
Que peut m'apporter le TAL pour orienter les réclamations des assurés vers les bons interlocuteurs
La rapidité de la prise en charge des assurés est initialement conditionnée par l’orientation effective des réclamations entrantes vers les agents appropriés. Par exemple, dans le cas de l’assurance automobile, lors d’un incident, une déclaration décrivant les faits est transmise par l’assuré. Selon qu’un remplacement de véhicule soit nécessaire ou non, qu’il y ait des blessés ou pas, avec ou sans mise en garde à vue, différents agents seront amenés à être mobilisés du côté de l’assureur.
Ces informations sont contenues dans la déclaration de l’assuré et peuvent être détectées et prises en compte préalablement à toutes interventions humaines. Il existe en effet différentes approches pour orienter une demande entrante vers l'agent approprié. Elles consistent toutes à considérer que chaque agent ou groupe d'agents doit recevoir des réclamations appartenant à une certaine catégorie. Ces techniques dites de catégorisation reposent soit sur des règles, soit sur de l’apprentissage.
Représentation numérique des données textuelles : construire un espace vectoriel
Mettre un texte libre, en l’occurrence celui d’une réclamation, sous une forme structurée, est la première étape pour pouvoir orienter une demande entrante de manière automatique ou semi-automatique. Il existe plusieurs façons de procéder qui reposent sur l’exploitation de l’ensemble des textes de réclamations précédentes. Appelons cette base de données initiale “corpus des réclamations", ou simplement “corpus”.
Des approches fondées sur les fréquences de mots
Dans une première famille d’approches, les fréquences d’apparition des mots dans les réclamations sont exploitées explicitement pour construire des représentations structurées de ces réclamations.
Par exemple, le TF-IDF, pour Term Frequency - Inverse Document Frequency, est un descripteur classique qui s’obtient en divisant la fréquence d’apparition d’un mot dans une réclamation par sa fréquence d’apparition dans l’ensemble du corpus. Ainsi, chaque réclamation peut être représentée par un vecteur de TF-IDFs, qui renseigne sur les mots caractéristiques de ladite réclamation et à l’inverse sur les mots peu distinctifs. On obtient ainsi des représentations directement comparables à des réclamations dans un espace vectoriel.
Réduction de dimension
La dimension de l’espace vectoriel construit à partir des TF-IDFs est de l’ordre du nombre de mots du vocabulaire des réclamations. Ainsi, plus ce vocabulaire est varié, plus l’algorithme d’orientation automatique des réclamations est intensif en calculs et en mémoire, à moins que l’on n’impose a priori la dimensionnalité de la représentation vectorielle.
C’est ce que permettent les approches de modélisation des thèmes du corpus. De façon intuitive, celles-ci considèrent qu’un thème est caractérisé par la présence de certains mots, qui apparaissent ensemble sous un certain rapport de fréquences à découvrir automatiquement.
Aussi dans cette approche, une réclamation sera vue comme un mélange particulier des thèmes du corpus des réclamations, et décrite par un vecteur indiquant la représentativité de chacun des thèmes dans ladite réclamation. On passe donc à un espace vectoriel de représentation dont la taille est réduite au nombre de thèmes identifiés dans le corpus. Une méthode classique pour faire de la modélisation de thèmes sur un corpus est l’Allocation de Dirichlet Latente, qui dispose de variantes adaptées à la modélisation de documents courts tels que des réclamations.
Des approches basées sur des modèles de langage
Prise en compte de la synonymie
Dans les textes des réclamations, des termes tels que “domicile”, “logement”, “maison”, “appartement” ou “studio” seront généralement interchangeables relativement à l’orientation des réclamations. Or, dans le formalisme des approches présentées précédemment, la fréquence d’occurrence du signifié, qui est l’habitation, se trouve étalée sur ces différents signifiants dans le corpus des réclamations, ce qui limite intrinsèquement la capacité des représentations vectorielles dérivées à rapprocher les réclamations qui ont ce thème en commun.
Il est possible d’identifier la synonymie à travers ce que l’on appelle un modèle de langage. Il s’agit d’un modèle mathématique qui quantifie la probabilité d’occurrence d’une séquence de mots, de caractères, de morphèmes ou de phonèmes dans une langue donnée. La construction d’un modèle de langue au niveau des phrases plonge les mots dans un espace vectoriel dans lequel les distances euclidiennes sont représentatives des “distances” sémantiques entre les mots. Autrement dit, on peut en obtenir une représentation vectorielle des mots qui intègre la synonymie.
Variations contextuelles du sens
Par ailleurs, le sens d’un mot peut changer radicalement selon son contexte d’utilisation. Penser par exemple à “vol de voiture” et “vol d’avion”. Si cette ambiguïté de la langue n’est en général pas un obstacle à la compréhension d’une réclamation par un agent, c’est un véritable challenge dans le cadre du traitement automatique des réclamations.
Fort heureusement, il existe ainsi des modèles de langues qui permettent d’obtenir une représentation vectorielle pour chaque mot en fonction de son contexte d’apparition. Celles-ci sont obtenues grâce à des réseaux de neurones sophistiqués appelés “Transformers” qui tirent leur puissance sémantique d’un entraînement initial à la résolution de deux tâches complexes :
- retrouver des mots manquants supprimés aléatoirement de textes généralistes,
- prédire la phrase suivante compte-tenu de celles qui précèdent dans des textes généralistes.
Pour la langue française en particulier, les modèles FlauBERT et CamemBERT font partie de cette catégorie.
Mots nouveaux, mal orthographiés ou mots rares
Une nouvelle réclamation peut contenir des mots absents du corpus des réclamations précédentes, surtout si celui-ci est de petite taille, et plus généralement de la base d’apprentissage ayant servi à entraîner le modèle de langue utilisé. Pour autant, on doit être en mesure d’obtenir une représentation vectorielle sémantiquement précise pour de tels mots, sous peine de réduire la fiabilité de l’orientation automatique des réclamations lorsque celles-ci contiennent des mots “nouveaux”. Les modèles du type FlauBERT et CamemBERT ont précisément la capacité de fournir une représentation vectorielle pertinente de mots non observés précédemment, puisqu’elles se servent du contexte d’apparition d’un mot, c’est-à-dire des mots qui l’entourent, pour en calculer la représentation. En particulier, il sera tout à fait possible de représenter correctement un mot mal orthographié dans une réclamation. De façon complémentaire, il existe également des modèles de langue au niveau des mots, c’est-à-dire qui modélisent les séquences de lettres ou de morphèmes d’une langue. Les représentations vectorielles de mots qui en dérivent ont une robustesse intrinsèque aux fautes d’orthographe. De plus, lorsqu’ils modélisent les morphèmes, ils peuvent capturer la sémantique de mots nouveaux ou d’usage rare, ce qui fiabilise davantage le système d’orientation automatique.
Spécificité du vocabulaire métier
Contrairement aux approches qui exploitent directement les fréquences d’apparition des mots dans le corpus des réclamations, les méthodes sémantiques présentées ci-avant nécessitent une phase d’apprentissage initiale sur de larges corpus de textes généralistes et variés. On peut se demander à juste titre quelle serait la pertinence de telles représentations, dérivées de corpus généralistes, pour une application dans un domaine métier plus restreint, tel que l’assurance automobile. Il existe précisément des procédés algorithmiques efficaces qui permettent d'adapter un modèle de représentation généraliste à un domaine thématique particulier. Cela relève du champ de recherche connu plus généralement en apprentissage statistique sous le nom de l’apprentissage par transfert.
Catégorisation des réclamations
Apprentissage non supervisé
A ce stade, grâce à l’une des approches présentées, on dispose d’une nouvelle représentation des réclamations, sous forme de vecteurs, ou de séquences de vecteurs. On peut alors mettre en oeuvre des algorithmes génériques tels que le partitionnement en k-moyennes pour identifier a priori des groupes de réclamations proches dans leur espace de représentation et catégoriser a posteriori chaque nouvelle réclamation en l’associant au groupe de réclamations le plus proche. Cette approche est dite non supervisée car elle ne nécessite pas de catégorisation manuelle des réclamations disponibles en base de données. Les catégories sont identifiées par l’algorithme de partitionnement. Néanmoins, une correspondance devra être établie a posteriori entre les groupes de réclamations similaires identifiés et les agents ou groupes d’agents concernés pour chaque groupe, ce qui permettra de leur affecter automatiquement les réclamations futures.
Apprentissage supervisé
Si les réclamations antérieures sont au moins partiellement catégorisées, alors en utilisant leur représentation vectorielle, on peut construire un modèle permettant d’associer à chaque réclamation de la base de données, sa catégorie prédéfinie. C’est ce modèle qui permettra d’identifier la catégorie des nouvelles réclamations. C’est un problème d’apprentissage statistique supervisé, pour lequel il existe plusieurs approches classiques dont le choix dépendra essentiellement des ressources calculatoires disponibles et de la représentation choisie. A ce propos, l’expertise métier doit guider le choix de représentation. Si l’on considère pour un niveau de catégorisation donné, que la présence de certains mots dans les réclamations est suffisamment discriminante, alors les méthodes fondées sur les fréquences des mots constitueront un fondement viable. Tel serait le cas pour catégoriser les réclamations selon qu’elles se rapportent à une habitation ou à une automobile par exemple.
Par contre, pour automatiser une qualification plus fine des réclamations, selon par exemple, la gravité d’un accident, le mécontentement ou la détresse de l’assuré, ou encore le risque de fraude, l’information discriminante sera souvent véhiculée par des indices linguistiques subtils. De ce fait, des représentations plus riches sémantiquement seront a priori mieux indiquées.
Points d'attention
Lors de l’apprentissage d’un modèle de catégorisation des réclamations, une attention particulière doit être accordée à la représentativité des différentes catégories dans la base d’exemples utilisés pour cet apprentissage. Lorsqu’une catégorie est sous-représentée ou sur-représentée, des techniques appropriées de ré-équilibrage des données doivent être mises en œuvre de sorte à apprendre un modèle ayant une aptitude comparable à identifier toutes les catégories d’intérêt.
Concluons sur un thème critique qui est la fraude à l’assurance. Elle constitue un double pôle de dépense pour l’assureur, en remboursements indus suite à de fausses déclarations et en temps de traitement par les agents d’assurance. Évaluer automatiquement le risque de fraude permet de réduire globalement le temps de traitement des réclamations en adaptant sélectivement l’effort de vérification humaine en fonction de la sensibilité de la réclamation, tout en améliorant l’efficacité de la détection des fraudes. L’automatisation de la détection de fraudes à l’assurance est un domaine de recherche particulièrement actif, étant donné les enjeux économiques, et qui se trouve aujourd’hui renforcé par les outils de représentation sémantique que nous avons évoqués.