Exploiter les textes biomédicaux de manière semi-automatisée

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comment exploiter les données cliniques dans une veille biomédicale ciblée ?

La littérature dans le domaine biomédical est abondante. Conséquence : il peut être difficile pour un responsable produit de suivre les actualités en lien avec une thématique donnée. Les revues de littérature, nécessairement partielles, reflètent surtout l'interprétation des auteurs à partir des sources primaires dont ils disposent. Elles sont par ailleurs vulnérables à divers biais cognitifs dont entre autres le biais de confirmation qui incite les auteurs à privilégier les informations confirmant ses idées préconçues et l'effet de simple exposition qui augmente la probabilité d'avoir un sentiment positif envers une idée par la simple exposition répétée à cette dernière.

En tant que responsable produit, il est important que je dispose d'une solution lui permettant d'effectuer une veille scientifique efficace à partir des sources brutes. Les tâches les plus importantes sont de :

  1. Détecter les informations les plus intéressantes (ex. effets indésirables d'une molécule médicamenteuse) dans un article, compte-rendu etc. afin de faciliter la lecture.
  2. Analyser la ligne argumentative d'un texte afin de faciliter la compréhension.

La solution

De la détection automatique des éléments clés des essais cliniques à l'analyse de la ligne argumentaire

Analyse automatique des essais cliniques, une tâche à fort enjeu

Face à la grande quantité d'articles ou de rapports dans le milieu biomédical, il peut être difficile pour un responsable produit dans l'industrie pharmaceutique d'effectuer une veille scientifique efficace ciblée sur un sujet précis. Cependant, une connaissance actualisée des essais cliniques ou des comptes rendus scientifiques est indispensable à une prise de décision informée (cf. la médecine fondée sur les preuves , Evidence-based Medicine en anglais). Ce besoin est d'autant plus pertinent et urgent que la littérature médicale devient chaque jour plus abondante et par conséquent plus difficile à suivre. S'il est vrai que les revues de littérature, souvent sous forme de synthèses, peuvent remédier partiellement à ce problème, il n'y a aucune garantie que ces revues aient été réalisées de manière non biaisée (voir cette section Wikipédia pour avoir une vue d'ensemble sur les différents types de biais susceptibles d'influencer la qualité d'une revue de littérature).

Ces dernières années, l'intelligence artificielle permet d'assister de mieux en mieux les acteurs humains dans l'analyse des données liées à la e-santé, faisant appel à des techniques très variées.

Classification automatique des essais cliniques

Aujourd'hui, des moteurs de recherche tels que PubMed permettent de télécharger facilement des articles scientifiques publiés dans le domaine biomédical. Cependant, il se peut aussi que les textes à analyser ne soient pas indexés par ce type de moteurs pour des raisons très diverses telles que la confidentialité commerciale, la protection des droits d'auteurs, etc. Dans le cas où les documents dont dispose un responsable produit ne seraient pas déjà indexés, il peut être utile et nécessaire de recourir, dans un premier temps, à des algorithmes de classification afin de regrouper des documents intéressants en fonction des noms des maladies, selon les noms des molécules pharmaceutiques ou encore selon les résultats finals des essais cliniques (ex. positif ou négatif). La classification automatique de textes est une solution relativement mature, c'est-à-dire que la précision de classification est généralement satisfaisante à condition d'avoir un corpus d'entraînement suffisamment grand.

Analyse automatique des textes biomédicaux

Dans le cas où un corpus de documents est déjà disponible ou facile à construire, des analyses plus fines peuvent être effectuées. Dans le domaine biomédical, des solutions d'extraction d'information permettent entre autres d'automatiser :

  • la détection des éléments clés (par exemple, les effets indésirables),
  • la construction de la ligne argumentative (Argument mining).

Détection automatique des éléments clés

La détection automatique des éléments clés consiste à souligner les éléments susceptibles d'intéresser le plus les professionnels de santé. En règle générale, deux types d'informations sont encodées dans les textes biomédicaux : conclusions (claim en anglais) et résultats (souvent des mesures, evidence en anglais). Sur le plan des résultats, il est possible d'approfondir l'analyse en effectuant une classification plus fine isolant certains types de résultats plus spécifiques dont, entre autres :

  • résultats comparatifs : « Le taux de réussite du traitement A est 50% pour le groupe de contrôle et 80% pour le groupe de traitement. »,
  • résultats significatifs : « La saturation en oxygène est significativement plus élevée (p < 0,05) après le traitement A. »,
  • effets secondaires.

Quant aux conclusions, les catégories typiquement utilisées dans la littérature sont « amélioration » et « sans effet ». Mais il est tout à fait possible d'ajouter d'autres catégories.

Il ne faut pas oublier que la détection automatique des éléments textuels est une technique très flexible et adaptable à divers scénarios. Certains systèmes permettent par exemple d'extraire des éléments PICO qui soulignent, dans un texte donné, les informations relatives à la population, traitement, traitement de comparaison et enfin, aux résultats de l'étude.

Construction de la ligne argumentative

La construction automatique de la ligne argumentative d'un document biomédical est une solution émergente et très prometteuse dans la médecine fondée sur les preuves assistée par l'ordinateur. L'idée principale est de relier les éléments argumentatifs d'un texte pour fournir une analyse automatique plus structurée exposant le raisonnement d'une étude clinique. Les résultats d'une étude peuvent ainsi être mis en lien avec les conclusions par selon deux relations principales : attaque et support.  De plus, la relation d'attaque/support peut aussi s'appliquer entre les différents résultats (mesures) d'une même étude. Ce type d'analyse permet à terme de générer des graphes d'argumentation qui constituent à leur tour des éléments essentiels à la construction des bases de connaissances. Cependant, il convient de rappeler que des connaissances expertes sont souvent nécessaires afin de savoir si l'augmentation ou la diminution d'une certaine mesure confirme ou infirme une conclusion.

En mettant en lien plusieurs articles traitant le même sujet, la construction automatique de la ligne argumentative permet aux responsables produits de développer rapidement une vision globale sur une thématique particulière.

--- texte rédigé par Xiaoou Wang, ingénieur-chercheur en Traitement Automatique des Langages

Points d'attention

L'enjeu principal de l'analyse automatique des textes biomédicaux est de bien définir les éléments à analyser, ces derniers peuvent suivre le schéma PICO (population, intervention, comparaison et résultat (outcome)), se définir selon le résultat final (amélioration, sans effet etc.), ou encore, se catégoriser en fonction du type de résultats (comparatif, significatif/non significatif, effets secondaires etc.). Une bonne communication entre les professionnels de santé et les acteurs en intelligence artificielle est par conséquent primordiale afin de bien cibler les besoins.

ACTA, outil développé par une équipe de chercheurs à Inria, permet de donner une idée sur le fonctionnement d'un système d'analyse argumentative. Lorsqu'une base de connaissances suffisamment complète sera construite, des interfaces homme-machine pourraient être mises en place afin que l'homme puisse poser des questions ou même débattre avec l'ordinateur sur des sujets complexes tels que l'efficacité d'une certaine molécule pharmaceutique sur une maladie donnée. L'interaction homme-machine permettrait aux professionnels de santé d'acquérir les informations dont ils ont besoin de manière plus ciblée et par conséquent, plus efficace.

Par Xiaoou Wang
Ingénieur-Chercheur en Traitement automatique des Langues, fondateur de https://aiprototypes.com/.

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Exploiter les textes biomédicaux de manière semi-automatisée
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Catégorisation de documents
Pourquoi catégoriser des documents ? L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en...
Qu'est-ce que la fouille de texte ?
Fouille de texte ou text mining? Le trai­te­ment auto­ma­tique des langues est une étape préa­lable au trai­te­ment infor­ma­tique dans de nom­breuses appli­ca­tions. On consi­dère que...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...

Ces études de cas peuvent aussi vous intéresser

Mettre en place des outils de contrôle de conformité

Je suis directeur de la conformité dans le domaine de l’assurance, nous vendons par téléphone des produits variés dans un contexte particulièrement réglementé. J’ai donc besoin d’outils pour m’assurer que les obligations d’information sont comprises et appliquées par les équipes en tenant compte des spécificités de chaque produit, sans pour autant nuire à la performance commerciale. Comment puis-je faire ?

Diminuer considérablement le nombre d'emails à traiter par l'humain

Je suis dirigeant d’une société immobilière dont l’activité principale est la gestion syndicale de nombreux lots de copropriétés. Chaque jour, la boîte mail de ma société doit faire face à l’afflux de centaines d'emails : de la simple prise d’information à la demande d’intervention urgente. Comment puis-je automatiser le traitement d’un grand volume d'emails pour gagner en temps et en efficacité ?

Aller au-delà de la veille technologique pour obtenir des informations stratégiques

Je suis dirigeant d’une entreprise informatique et mes équipes effectuent une veille technologique régulière afin de me tenir au courant de l’évolution de notre secteur d’activités, de la concurrence et des avancées technologiques potentielles. Cependant, je souhaiterais que mes équipes aillent au-delà de la veille et puissent me prévenir de ce qui va se passer autour de moi, dans mon activité, afin de m’aider à définir ma stratégie d'entreprise à court et moyen terme. Comment puis-je faire ?