Pharmacovigilance multilingue
|
|
Le besoin
Repérer et quantifier les effets des traitements ainsi que leur contexte d'apparition
Je rencontre en pharmacovigilance la difficulté commune à toutes les études quanti-qualitatives :
- soit on travaille sur des questionnaires prédéfinis pour faciliter le dépouillement et s'assurer d'un traitement objectif des données, ce qui limite les sources mais condamne la découverte d'informations inattendues,
- soit on inclut des sources en texte libre avec toutes les difficultés d'analyse qu'elles induisent, incluant la légitimité scientifique des résultats.
Les sources en texte libre peuvent inclure des observations consignées dans le cadre d'essais cliniques, des comptes-rendus d'établissements de santé ou de médecins de ville, des signalements spontanés de patients transmis par des professionnels de santé ou des industriels.
De plus, je souhaite pouvoir analyser des sources collectées dans plusieurs pays et dans des langues diverses : autant je vois les possibilités d'analyse de questionnaires multilingues fermés, autant je m'interroge sur les possibilités de consolider des résultats obtenus sur des réponses libres ou des contributions spontanées dans des langues différentes.
J'ai entendu parler des avancées technologiques en analyse de données textuelles, mais je ne sais pas dans quelle mesure ces outils peuvent réellement répondre aux besoins et aux exigences de la pharmacovigilance.
La solution
Automatiser l'identification, le classement et la quantification des effets des traitements ainsi que leur contexte d'apparition
L'annotation automatique pour extraire et classer les effets des traitements et leurs contextes d'apparition
Le premier objectif d'une veille pharmacologique automatisée est de repérer et classer, dans du texte libre, des séquences (phrases ou portions de phrase) correspondant :
- aux effets constatés d'un traitement (positifs comme indésirables),
- mais aussi aux contextes d'apparition de ces effets, qu'il importe de croiser avec la première information.
A partir d'une analyse linguistique des sources et de bases de connaissance spécialisées intégrées au système, il s'agit d'identifier ces séquences textuelles sous leurs expressions les plus diverses dans les formulations des auteurs, qui peuvent être aussi bien des professionnels de santé que des patients, avec un vocabulaire et une phraséologie très différents.
L'extraction des séquences d'intérêt et leur classification selon une typologie prédéfinie sont réalisés dans une même opération : elle consiste à reconnaître des patterns associés à chaque catégorie que l'on souhaite distinguer parmi les effets des traitements et les contextes d'apparition.
L'automatisation des traitements offre une neutralité et donc une équité d'analyse pour l'ensemble des sources traitées. Si des biais peuvent subsister, ils sont les mêmes que dans la construction d'un questionnaire.
La solution peut recourir selon des proportions variables :
- A des technologies reposant sur des règles logiques déclarées par des experts humains
- A un apprentissage automatique plus ou moins guidé par des experts humains (machine learning, deep learning)
La coopération des deux approches, fructueuse, s'impose assez largement. L'apprentissage automatisé permet de gagner un temps précieux pour initialiser le système. En outre, il apporte un regard neutre permettant de faire émerger sans a priori des phénomènes totalement inattendus et riches d'enseignements.
L'analyse quantitative des données textuelles extraites
Une fois extraites et classées, les données textuelles peuvent faire l'objet d'analyses quantitatives au même titre que les données structurées extraites d'un questionnaire fermé.
Un des grands intérêts de la solution est de permettre la comparaison et la consolidation d'analyses effectuées sur des réponses à des questionnaires fermés et des questionnaires ouverts, voire des contributions totalement libres.
De même que pour les réponses à des questionnaires fermés, les analyses peuvent inclure une dimension chronologique et donner lieu à une surveillance de tendances fortes, de signaux faibles, de ruptures, de crises.
La prise en charge de l'analyse de sources multilingues
L'annotation des sources peut être réalisée dans autant de langues que nécessaire, mais qu'en est-il de la consolidation des résultats obtenus dans différentes langues ?
Le besoin d'analyse multilingue, s'il existe, est structurant pour la solution à construire. Les analyseurs sont totalement distincts pour chaque langue. En revanche, pour pouvoir effectuer aussi bien des analyses dans chaque langue que des consolidations multilingues, il est nécessaire de construire et maintenir une classification unique (classification-pivot), appliquée à chacune des langues de travail.
La gestion des connaissances intégrées à la solution
Comme nous l'avons vu plus haut, l'extraction et le classement automatique de séquences correspondant aux effets des traitements ou à leur contexte d'apparition exige de la solution qu'elle "embarque" des connaissances linguistiques spécialisées, aussi bien pour analyser le texte que pour établir une classification selon la typologie que l'on souhaite observer, quantifier, surveiller.
La solution doit permettre de construire, maintenir, faire évoluer la base de connaissance nécessaire, en respectant les éventuelles exigences multilingues du projet :
- Les règles linguistiques de reconnaissance des séquences d'intérêt
- La classification des phénomènes à observer
Points d'attention
La construction de la base de connaissances utilisée par le système automatisé de pharmacovigilance exige des expertises à la fois pharmacologiques et linguistiques. Une étroite coopération de ces compétences doit être envisagée dans la conduite du projet de mise en œuvre.