Exploiter les textes biomédicaux de manière semi-automatisée

Le besoin

Comment exploiter les données cliniques dans une veille biomédicale ciblée ?

La littérature dans le domaine biomédical est abondante. Conséquence : il peut être difficile pour un responsable produit de suivre les actualités en lien avec une thématique donnée. Les revues de littérature, nécessairement partielles, reflètent surtout l'interprétation des auteurs à partir des sources primaires dont ils disposent. Elles sont par ailleurs vulnérables à divers biais cognitifs dont entre autres le biais de confirmation qui incite les auteurs à privilégier les informations confirmant ses idées préconçues et l'effet de simple exposition qui augmente la probabilité d'avoir un sentiment positif envers une idée par la simple exposition répétée à cette dernière.

En tant que responsable produit, il est important que je dispose d'une solution lui permettant d'effectuer une veille scientifique efficace à partir des sources brutes. Les tâches les plus importantes sont de :

Détecter les informations les plus intéressantes (ex. effets indésirables d'une molécule médicamenteuse) dans un article, compte-rendu etc. afin de faciliter la lecture.
Analyser la ligne argumentative d'un texte afin de faciliter la compréhension.

La solution

De la détection automatique des éléments clés des essais cliniques à l'analyse de la ligne argumentaire

Analyse automatique des essais cliniques, une tâche à fort enjeu

Face à la grande quantité d'articles ou de rapports dans le milieu biomédical, il peut être difficile pour un responsable produit dans l'industrie pharmaceutique d'effectuer une veille scientifique efficace ciblée sur un sujet précis. Cependant, une connaissance actualisée des essais cliniques ou des comptes rendus scientifiques est indispensable à une prise de décision informée (cf. la médecine fondée sur les preuves , Evidence-based Medicine en anglais). Ce besoin est d'autant plus pertinent et urgent que la littérature médicale devient chaque jour plus abondante et par conséquent plus difficile à suivre. S'il est vrai que les revues de littérature, souvent sous forme de synthèses, peuvent remédier partiellement à ce problème, il n'y a aucune garantie que ces revues aient été réalisées de manière non biaisée (voir cette section Wikipédia pour avoir une vue d'ensemble sur les différents types de biais susceptibles d'influencer la qualité d'une revue de littérature).

Ces dernières années, l'intelligence artificielle permet d'assister de mieux en mieux les acteurs humains dans l'analyse des données liées à la e-santé, faisant appel à des techniques très variées.

Classification automatique des essais cliniques

Aujourd'hui, des moteurs de recherche tels que PubMed permettent de télécharger facilement des articles scientifiques publiés dans le domaine biomédical. Cependant, il se peut aussi que les textes à analyser ne soient pas indexés par ce type de moteurs pour des raisons très diverses telles que la confidentialité commerciale, la protection des droits d'auteurs, etc. Dans le cas où les documents dont dispose un responsable produit ne seraient pas déjà indexés, il peut être utile et nécessaire de recourir, dans un premier temps, à des algorithmes de classification afin de regrouper des documents intéressants en fonction des noms des maladies, selon les noms des molécules pharmaceutiques ou encore selon les résultats finals des essais cliniques (ex. positif ou négatif). La classification automatique de textes est une solution relativement mature, c'est-à-dire que la précision de classification est généralement satisfaisante à condition d'avoir un corpus d'entraînement suffisamment grand.

Analyse automatique des textes biomédicaux

Dans le cas où un corpus de documents est déjà disponible ou facile à construire, des analyses plus fines peuvent être effectuées. Dans le domaine biomédical, des solutions d'extraction d'information permettent entre autres d'automatiser :

la détection des éléments clés (par exemple, les effets indésirables),
la construction de la ligne argumentative (Argument mining).

Détection automatique des éléments clés

La détection automatique des éléments clés consiste à souligner les éléments susceptibles d'intéresser le plus les professionnels de santé. En règle générale, deux types d'informations sont encodées dans les textes biomédicaux : conclusions (claim en anglais) et résultats (souvent des mesures, evidence en anglais). Sur le plan des résultats, il est possible d'approfondir l'analyse en effectuant une classification plus fine isolant certains types de résultats plus spécifiques dont, entre autres :

résultats comparatifs : « Le taux de réussite du traitement A est 50% pour le groupe de contrôle et 80% pour le groupe de traitement. »,
résultats significatifs : « La saturation en oxygène est significativement plus élevée (p < 0,05) après le traitement A. »,
effets secondaires.

Quant aux conclusions, les catégories typiquement utilisées dans la littérature sont « amélioration » et « sans effet ». Mais il est tout à fait possible d'ajouter d'autres catégories.

Il ne faut pas oublier que la détection automatique des éléments textuels est une technique très flexible et adaptable à divers scénarios. Certains systèmes permettent par exemple d'extraire des éléments PICO qui soulignent, dans un texte donné, les informations relatives à la population, traitement, traitement de comparaison et enfin, aux résultats de l'étude.

Construction de la ligne argumentative

La construction automatique de la ligne argumentative d'un document biomédical est une solution émergente et très prometteuse dans la médecine fondée sur les preuves assistée par l'ordinateur. L'idée principale est de relier les éléments argumentatifs d'un texte pour fournir une analyse automatique plus structurée exposant le raisonnement d'une étude clinique. Les résultats d'une étude peuvent ainsi être mis en lien avec les conclusions par selon deux relations principales : attaque et support. De plus, la relation d'attaque/support peut aussi s'appliquer entre les différents résultats (mesures) d'une même étude. Ce type d'analyse permet à terme de générer des graphes d'argumentation qui constituent à leur tour des éléments essentiels à la construction des bases de connaissances. Cependant, il convient de rappeler que des connaissances expertes sont souvent nécessaires afin de savoir si l'augmentation ou la diminution d'une certaine mesure confirme ou infirme une conclusion.

En mettant en lien plusieurs articles traitant le même sujet, la construction automatique de la ligne argumentative permet aux responsables produits de développer rapidement une vision globale sur une thématique particulière.

--- texte rédigé par Xiaoou Wang, ingénieur-chercheur en Traitement Automatique des Langages