Le besoin
La solution
Ils peuvent vous aider

Le besoin

Cibler et consulter des données biopharmaceutiques dans des fichiers volumineux pour le contrôle qualité

Je suis responsable produit au sein d'une entreprise biopharmaceutique spécialisée dans le développement d'une solution de désensibilisation à certains allergènes. Depuis la phase de recherche jusqu'à la commercialisation du produit, plusieurs milliers de documents ont été générés. Certains de ces documents sont régulièrement consultés par nos équipes de contrôle qualité, mais la taille conséquente des fichiers complexifie la recherche ciblée d'informations à reporter. Ce délai ralenti notre processus de contrôle qualité.

En tant que responsable produit, je fais face à plusieurs défis et besoins critiques. Tout d'abord, la gestion et l'analyse de la grande quantité de documents produits à chaque étape du développement posent un problème majeur. Ces documents incluent par exemple des résultats d'essais cliniques, des rapports de laboratoire, des documents de conformité réglementaire, et des retours d'expérience des essais sur les patients. La tâche de rechercher des informations précises dans ces fichiers volumineux est chronophage et sujette à des erreurs humaines, ce qui peut affecter la précision et la rapidité des rapports de contrôle qualité.

Egalement, je dois m'assurer que toutes les données analysées soient accessibles en temps réel pour faciliter les prises de décision. Par exemple, lors des audits internes ou externes, il est essentiel de pouvoir  présenter des informations spécifiques pour démontrer la conformité aux normes réglementaires.

De plus, il y a une nécessité de standardiser les formats et les terminologies utilisés dans nos documents pour conserver une cohérence sur notre travail. Le contrôle de la qualité des données textuelles est également un point crucial, car toute anomalie ou inexactitude dans les informations rapportées peut avoir des conséquences graves sur la sécurité et l'efficacité du produit final.

Enfin, la collaboration entre les différentes équipes, telles que la recherche, le développement, et le marketing, nécessite un accès partagé et fluide aux informations pertinentes. La mise en place d'un système centralisé et intelligent de gestion des documents pourrait donc grandement améliorer notre efficacité opérationnelle.

Est-il possible de mettre en place un outil capable d'extraire les données numériques et textuelles qui permette la relecture assistée de textes pharmaceutiques ?

La solution

Outil d'IA biomédical pour la gestion et la relecture des documents pharmaceutiques

Les modèles de langage

A l'heure actuelle le TAL développe des outils à l'aide de modèles de langage. Ces modèles informatiques naissent de l'apprentissage automatique sur des données textuelles, leur de but est de pouvoir manipuler et produire du texte. Il est possible d'utiliser des modèles à base de transformers, comme BioBERT ou PubMedBERT, qui sont des modèles de traitement du langage spécifiquement entraînés sur des textes médicaux et biomédicaux. Ces modèles sont capables d'extraire le sens du langage technique et les nuances du domaine pharmaceutique.

Les modèles de langage bio-médicaux sont formés sur une large collection de textes du domaine médical et biomédical, ce qui les rend capables d'appréhender et de traiter correctement le jargon spécifique et les termes techniques qui sont souvent mal compris par les modèles de langage généralistes. Ils permettent différentes applications :

  • Extraction d'information : Les modèles peuvent être utilisés pour identifier et extraire des informations spécifiques comme des symptômes, diagnostics, dosages médicamenteux, et interactions entre substances. Cela est crucial pour les systèmes de soutien à la décision clinique et la surveillance des données des essais cliniques.
  • Résumé automatique : Ils peuvent générer des résumés de longs documents de recherche ou de rapports cliniques, ce qui permet aux professionnels de gagner du temps et de se concentrer sur l'analyse plutôt que sur le traitement de grandes quantités d'informations.
  • Réponse aux questions : En formant ces IA sur des ensembles de données question-réponse spécifiques au domaine biomédical, ils peuvent fournir des réponses précises à des questions complexes, souvent en extrayant et en résumant les informations pertinentes à partir de multiples sources documentaires.

Intégration d'un outil pour la gestion des documents pharmaceutiques

Dans cette partie est présentée une solution basée sur les modèles de langage bio-médicaux pour assister le quotidien d'un responsable produit dans le secteur  pharmaceutique.

Pour résoudre le problème de la gestion et de l'extraction d'informations à partir de milliers de documents produits lors du développement de solutions de désensibilisation aux allergènes, il est possible d'utiliser un outil de traitement automatique des langues regroupant les dernières technologies. Voici comment cela fonctionnerait :

1. Collecte et numérisation des documents

L'utilisateur doit pouvoir importer ses documents pour les analyser. L'utilisateur peut importer des documents sous divers formats (PDF, Word, etc.) dans l'outil. Pour les documents papier, nous utilisons la reconnaissance optique de caractères (OCR) pour convertir les textes en formats numériques. Ces textes numériques seront stockés et centralisés l'application et consultable à tout moment.

2. Prétraitement des textes

Une fois les documents numérisés, on procède à une normalisation du texte. Le texte est nettoyé pour supprimer les erreurs et standardisé pour faciliter son traitement. Cela inclut la tokenisation, qui divise le texte en mots ou phrases, et l'identification des termes clés spécifiques au domaine pharmaceutique. Il est aussi important que les documents contiennent tous des métadonnées claires qui permettent de retracer la date ou l'auteur d'un texte.

3. Utilisation de transformers entraînés sur des données médicales

Il est possible d'utiliser des modèles de transformers comme BioBERT ou PubMedBERT. Ces modèles sont capables de traiter le langage technique et les nuances du domaine pharmaceutique.

 Fonctionnement des Transformers :

  • Entraînement : Ces modèles ont été préalablement entraînés sur des millions de documents médicaux pour apprendre les structures de phrases, le vocabulaire spécifique, et les relations entre les concepts médicaux.
  • Analyse sémantique : Grâce à cet entraînement les transformers intégrent une représentation sémantique des mots et phrases du texte traité, ces modèles peuvent ainsi analyser les documents de votre base de textes numérisés, reconnaître les entités importantes (comme les noms de médicaments, les dosages, les effets secondaires, etc.), et extraire les informations pertinentes.

Avec le modèle en place, nous pouvons automatiser l'extraction d'information. Par exemple, si vous cherchez les résultats d'un essai clinique spécifique ou des données sur les effets secondaires d'un traitement, le modèle peut rapidement identifier et extraire ces informations précises à partir des documents.

4. Interface utilisateur

Pour rendre cet outil accessible et facile à utiliser pour vos équipes, est souvent accompagné d'une interface utilisateur intuitive. Voici des exemples de fonctionnalités :

Fonctionnalités exploitant les modèles de langage :

  • Recherche par Mot-clé : Les utilisateurs peuvent entrer des mots-clés ou des questions spécifiques pour rechercher dans la base de données pour retrouver un ou plusieurs documents relatifs à la requête.
  • Traduction Instantanée : Un utilisateur souhaite vérifier dans les grandes lignes un document ou le présenter en audit dans une langue étrangère, il peut traduire automatiquement le texte dans une langue précise avec son jargon médical.
  • Repèrage de Paires dosage/substance: Les utilisateurs peuvent afficher puis récupérer dans les textes les mentions de molécules ou subtances suivies de leur dosage en identifiant quelle unité de mesure est utilisée (le millilitre, le gramme, etc.).
  • Repèrage de Paires substance/symptomes : Dans la même logique que le point précédent, l'utilisateur peut faire ressortir et extraire dans les textes les mentions d'effets secondaire associés à un médicament. De plus, il serait possible d'associer des effets secondaires à différents niveaux de dangerosité pour alerter ou non les utilisateurs.
  • Résumé et Rapport : Des résumés automatiques sont générés, ou bien sont compilés automatiquement des rapports détaillés basés sur les informations extraites. Cela aide à préparer des présentations pour les audits ou des rapports de conformité.

Fonctionnalités d'affichage et d'intéraction avec l'interface :

  • Filtres et Catégorisation : Les résultats peuvent être filtrés par type de document, date, ou autres critères pertinents.
  • Affichage et Téléchargement : Les informations extraites sont présentées de manière claire, avec des options pour afficher ou télécharger les documents pertinents. Des diagrammes peuvent être affichés et illustrer les données.

 Exemple d'utilisation de l'interface

Un membre de l'équipe de contrôle qualité veut trouver les dosages et molécules d'un nouveau traitement. En utilisant l'interface, il entre des mots-clés spécifiques. L'outil analyse rapidement les documents, extrait les données pertinentes, et les présente de manière structurée, permettant une prise de décision rapide et efficace. Cela donne donc accès même aux non-experts du domaine, comme par exemple l'équipe marketing pouvant obtenir et partager vite l'information.

Points d'attention

Lors de la mise en œuvre d'une telle solution, il est important d'intégrer des mesures de sécurité robustes pour garantir la confidentialité et la sécurité des données sensibles. Toutes les opérations doivent respecter les réglementations en vigueur (comme le RGPD).

Concernant l'approche utilisant des modèles de langages entrainés sur des texte bio-médicaux, cela ne garantie pas que ces modèles soient capables d'analyser vos données textuelles. Le choix d'un modèle de langage plutôt qu'un autre peut se faire en fonction des données d'entrainement auquel il a été exposé et donc améliorer les résultats. Cependant ces outils sont conçus pour assister l'humain et non prendre des décisions de manière autonome.

Par francois le moal
NLP Data Scientist