Exploiter les textes biomédicaux de manière semi-automatisée

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comment exploiter les données cliniques dans une veille biomédicale ciblée ?

La littérature dans le domaine biomédical est abondante. Conséquence : il peut être difficile pour un responsable produit de suivre les actualités en lien avec une thématique donnée. Les revues de littérature, nécessairement partielles, reflètent surtout l'interprétation des auteurs à partir des sources primaires dont ils disposent. Elles sont par ailleurs vulnérables à divers biais cognitifs dont entre autres le biais de confirmation qui incite les auteurs à privilégier les informations confirmant ses idées préconçues et l'effet de simple exposition qui augmente la probabilité d'avoir un sentiment positif envers une idée par la simple exposition répétée à cette dernière.

En tant que responsable produit, il est important que je dispose d'une solution lui permettant d'effectuer une veille scientifique efficace à partir des sources brutes. Les tâches les plus importantes sont de :

  1. Détecter les informations les plus intéressantes (ex. effets indésirables d'une molécule médicamenteuse) dans un article, compte-rendu etc. afin de faciliter la lecture.
  2. Analyser la ligne argumentative d'un texte afin de faciliter la compréhension.

La solution

De la détection automatique des éléments clés des essais cliniques à l'analyse de la ligne argumentaire

Analyse automatique des essais cliniques, une tâche à fort enjeu

Face à la grande quantité d'articles ou de rapports dans le milieu biomédical, il peut être difficile pour un responsable produit dans l'industrie pharmaceutique d'effectuer une veille scientifique efficace ciblée sur un sujet précis. Cependant, une connaissance actualisée des essais cliniques ou des comptes rendus scientifiques est indispensable à une prise de décision informée (cf. la médecine fondée sur les preuves , Evidence-based Medicine en anglais). Ce besoin est d'autant plus pertinent et urgent que la littérature médicale devient chaque jour plus abondante et par conséquent plus difficile à suivre. S'il est vrai que les revues de littérature, souvent sous forme de synthèses, peuvent remédier partiellement à ce problème, il n'y a aucune garantie que ces revues aient été réalisées de manière non biaisée (voir cette section Wikipédia pour avoir une vue d'ensemble sur les différents types de biais susceptibles d'influencer la qualité d'une revue de littérature).

Ces dernières années, l'intelligence artificielle permet d'assister de mieux en mieux les acteurs humains dans l'analyse des données liées à la e-santé, faisant appel à des techniques très variées.

Classification automatique des essais cliniques

Aujourd'hui, des moteurs de recherche tels que PubMed permettent de télécharger facilement des articles scientifiques publiés dans le domaine biomédical. Cependant, il se peut aussi que les textes à analyser ne soient pas indexés par ce type de moteurs pour des raisons très diverses telles que la confidentialité commerciale, la protection des droits d'auteurs, etc. Dans le cas où les documents dont dispose un responsable produit ne seraient pas déjà indexés, il peut être utile et nécessaire de recourir, dans un premier temps, à des algorithmes de classification afin de regrouper des documents intéressants en fonction des noms des maladies, selon les noms des molécules pharmaceutiques ou encore selon les résultats finals des essais cliniques (ex. positif ou négatif). La classification automatique de textes est une solution relativement mature, c'est-à-dire que la précision de classification est généralement satisfaisante à condition d'avoir un corpus d'entraînement suffisamment grand.

Analyse automatique des textes biomédicaux

Dans le cas où un corpus de documents est déjà disponible ou facile à construire, des analyses plus fines peuvent être effectuées. Dans le domaine biomédical, des solutions d'extraction d'information permettent entre autres d'automatiser :

  • la détection des éléments clés (par exemple, les effets indésirables),
  • la construction de la ligne argumentative (Argument mining).

Détection automatique des éléments clés

La détection automatique des éléments clés consiste à souligner les éléments susceptibles d'intéresser le plus les professionnels de santé. En règle générale, deux types d'informations sont encodées dans les textes biomédicaux : conclusions (claim en anglais) et résultats (souvent des mesures, evidence en anglais). Sur le plan des résultats, il est possible d'approfondir l'analyse en effectuant une classification plus fine isolant certains types de résultats plus spécifiques dont, entre autres :

  • résultats comparatifs : « Le taux de réussite du traitement A est 50% pour le groupe de contrôle et 80% pour le groupe de traitement. »,
  • résultats significatifs : « La saturation en oxygène est significativement plus élevée (p < 0,05) après le traitement A. »,
  • effets secondaires.

Quant aux conclusions, les catégories typiquement utilisées dans la littérature sont « amélioration » et « sans effet ». Mais il est tout à fait possible d'ajouter d'autres catégories.

Il ne faut pas oublier que la détection automatique des éléments textuels est une technique très flexible et adaptable à divers scénarios. Certains systèmes permettent par exemple d'extraire des éléments PICO qui soulignent, dans un texte donné, les informations relatives à la population, traitement, traitement de comparaison et enfin, aux résultats de l'étude.

Construction de la ligne argumentative

La construction automatique de la ligne argumentative d'un document biomédical est une solution émergente et très prometteuse dans la médecine fondée sur les preuves assistée par l'ordinateur. L'idée principale est de relier les éléments argumentatifs d'un texte pour fournir une analyse automatique plus structurée exposant le raisonnement d'une étude clinique. Les résultats d'une étude peuvent ainsi être mis en lien avec les conclusions par selon deux relations principales : attaque et support.  De plus, la relation d'attaque/support peut aussi s'appliquer entre les différents résultats (mesures) d'une même étude. Ce type d'analyse permet à terme de générer des graphes d'argumentation qui constituent à leur tour des éléments essentiels à la construction des bases de connaissances. Cependant, il convient de rappeler que des connaissances expertes sont souvent nécessaires afin de savoir si l'augmentation ou la diminution d'une certaine mesure confirme ou infirme une conclusion.

En mettant en lien plusieurs articles traitant le même sujet, la construction automatique de la ligne argumentative permet aux responsables produits de développer rapidement une vision globale sur une thématique particulière.

--- texte rédigé par Xiaoou Wang, ingénieur-chercheur en Traitement Automatique des Langages

Points d'attention

L'enjeu principal de l'analyse automatique des textes biomédicaux est de bien définir les éléments à analyser, ces derniers peuvent suivre le schéma PICO (population, intervention, comparaison et résultat (outcome)), se définir selon le résultat final (amélioration, sans effet etc.), ou encore, se catégoriser en fonction du type de résultats (comparatif, significatif/non significatif, effets secondaires etc.). Une bonne communication entre les professionnels de santé et les acteurs en intelligence artificielle est par conséquent primordiale afin de bien cibler les besoins.

ACTA, outil développé par une équipe de chercheurs à Inria, permet de donner une idée sur le fonctionnement d'un système d'analyse argumentative. Lorsqu'une base de connaissances suffisamment complète sera construite, des interfaces homme-machine pourraient être mises en place afin que l'homme puisse poser des questions ou même débattre avec l'ordinateur sur des sujets complexes tels que l'efficacité d'une certaine molécule pharmaceutique sur une maladie donnée. L'interaction homme-machine permettrait aux professionnels de santé d'acquérir les informations dont ils ont besoin de manière plus ciblée et par conséquent, plus efficace.

Par Xiaoou Wang
Ingénieur-Chercheur en Traitement automatique des Langues (https://xiaoouwang.github.io/)

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Exploiter les textes biomédicaux de manière semi-automatisée
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Catégorisation de documents
Pourquoi catégoriser des documents ? L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en...
Qu'est-ce que la fouille de texte ?
Fouille de texte ou text mining? Le trai­te­ment auto­ma­tique des langues est une étape préa­lable au trai­te­ment infor­ma­tique dans de nom­breuses appli­ca­tions. On consi­dère que...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...

Ces études de cas peuvent aussi vous intéresser

Classer la polarité des avis clients de manière fine

Je suis responsable du service après-vente d'un site de vente en ligne et nous avons actuellement un système de prédiction automatique permettant de classer les avis de clients comme positifs, négatifs et neutres. Cependant, nous aimerions un système de détection qui, au lieu de donner une étiquette globale à un texte entier, fournisse des informations à un niveau plus fin. Existe-t-il des solutions de ce genre ?

Détecter des phénomènes et signaux peu perceptibles pour les opérateurs humains

Officier des forces de sécurité, j'anime une cellule de surveillance des réseaux criminels de toutes sortes, notamment à partir des interceptions de relations entre les membres de ces réseaux : texte, mais surtout enregistrements audio, dans les langues les plus diverses, parfois rares. Je sais que l'intelligence artificielle permet de mettre en évidence des faits d'intérêt majeur par l'analyse dans le temps de ces données textuelles et aimerais en savoir davantage.

Quantifier des opinions dans des réponses libres : un défi

Je suis décideur dans un institut d'études marketing et de sondage d'opinion. Je souhaite lancer des enquêtes incluant des questions ouvertes pour leur richesse. Mais comment dépouiller toutes ces contributions en texte libre ?