Exploiter efficacement les bases de données de brevet pour la recherche d’antériorité

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Exploiter efficacement les bases de brevets

Contexte général

En tant que responsable R&D, il est important pour moi d’exploiter les bases de données de brevets dans mon domaine d’activités pour de multiples raisons.

Tout d’abord, elles me permettent de vérifier si des idées ou des concepts similaires ont déjà été brevetés. Cela permet de m'assurer que la société ne va pas investir du temps et de l'argent dans un projet qui pourrait être considéré comme une violation de brevet.

Consulter les bases de données de brevets me permet également d’évaluer la concurrence. En effet, en examinant les brevets déposés par d'autres sociétés, il est possible de mieux comprendre les efforts de recherche et développement de la concurrence et ainsi mieux positionner notre société sur le marché.

En outre, en parcourant les brevets existants dans mon domaine d’activités, je peux trouver de nouvelles idées ou des façons de développer des concepts existants.

Données

La structure d'un brevet peut varier légèrement selon le pays dans lequel le brevet a été délivré, mais, en général, un brevet comprend les éléments suivants :

  • le titre du brevet qui décrit de manière concise l'invention protégée par le brevet ;
  • le résumé du brevet qui présente de manière synthétique l'invention protégée par le brevet et ses principaux avantages ;
  • la description du brevet qui détaille l'invention protégée par le brevet et explique comment elle fonctionne ;
  • les revendications qui définissent les limites de la protection accordée par le brevet ;
  • des dessins qui illustrent l'invention et aident à comprendre comment elle fonctionne ;
  • les codes de classification du brevet ;
  • les dates de dépôt et de délivrance du brevet ;
  • des mots-clés décrivant l’invention.

Moteur de recherche intégrés

A l’aide des moteurs de recherche intégrés aux bases de données de brevets, il est possible de sélectionner des brevets à partir de mots-clés et d’autres données contextuelles telles que la date de dépôt, le domaine d’application, ou encore le pays de dépôt. Certaines bases de données offrent des outils de recherche avancée. Par exemple, sur Espacenet, il est possible de réaliser des requêtes plus complexes à l’aide d’opérateurs booléens (tels que AND, OR et NOT) pour combiner différents mots-clés et critères de recherche.

Il est également possible d’affiner la recherche en examinant les brevets cités et citant, afin d’évaluer l’impact d’une invention et de trouver des inventions proches.

Limites

Cependant, il n’est pas toujours aisé de trouver les bons paramètres de recherche. Le choix des mots-clés doit prendre en compte l’usage possible de synonymes ou de variantes dans les champs textuels des brevets.

Les codes de classifications qui se rapportent soit à l’usage des inventions brevetées, soit à la technologie mise en œuvre sont utiles pour la recherche d’antériorités pertinentes, mais je ne les connais pas toujours.

Par ailleurs, la volumétrie des données disponibles est considérable. A titre d’exemple, l’Office Européen des Brevets donne accès à plus de 140 millions documents de brevets via la plateforme Espacenet.

Ainsi, une recherche d’antériorité mal ciblée m’expose au risque de passer à côté d’un brevet pertinent ou d’avoir de nombreux brevets non pertinents à examiner. De manière générale, un choix judicieux de paramètres de recherche peut tout de même aboutir à un nombre important de brevets à étudier. Le Traitement Automatique des Langues peut-il m’aider à mieux présélectionner des brevets via un fournisseur de brevets et ensuite en faire un tri efficace ?

La solution

Que peut m'apporter le TAL

TAL et mots-clés

Une étape critique dans la recherche d’antériorité via un fournisseur de brevets est le choix des bons mots-clés. A partir d’une liste initiale de mots-clés se rapportant au projet d’invention, le TAL offre plusieurs méthodes permettant d’identifier d’autres mots-clés pertinents.

Approches basées sur les modèles de langue

Les modèles de langue sont des modèles mathématiques qui quantifient la probabilité d’occurrence d’une séquence de mots, de caractères, de morphèmes ou de phonèmes dans une langue et plus généralement dans un ensemble donné de documents. Les modèles de langue permettent d’obtenir des représentations vectorielles des mots appelées plongements lexicaux, dont les distances euclidiennes sont petites lorsque les sens de ces mots sont proches.

Ainsi, des mots-clés synonymes tels que “vélo” ou “bicyclette”, ou ayant le même radical comme “bicyclette” et “tricycle”, auront des plongements lexicaux proches en distance euclidienne.

Il est donc possible de trouver des mots-clés alternatifs à partir d’un mot-clé initial, en calculant son plongement lexical et en recherchant dans le vocabulaire de la langue, les n mots dont les plongements lexicaux sont les plus proches de celui du mot-clé initial, n étant un nombre fixé par l’utilisateur.

Il est également possible par ce moyen d’obtenir des mots-clés alternatifs à partir de mots-clés “composés” tels que “course à pieds”, ou “sac à dos”. Le principe est le même. En effet, les plongements lexicaux se prêtent aux opérations algébriques. Il suffit donc dans un premier temps de calculer un vecteur qui est une moyenne pondérée des plongements lexicaux des mots composant le mot-clé auquel on cherche des alternatives. Et dans un deuxième temps, comme pour les mots-clés à terme unique, de sélectionner les mots du vocabulaire ayant les plongements lexicaux les plus proches du vecteur moyen.

Approches basées sur les données lexicales structurées

Il existe des outils construits explicitement pour organiser et représenter les connaissances dans un domaine spécifique, lesquels ont d’ailleurs préexisté aux modèles de langue. On peut citer les taxonomies, les thésaurus, ou encore les ontologies.

Ils ont en commun qu’ils dotent des données lexicales d’un domaine d’une structure qui en facilite l’exploitation. Dans le cas des taxonomies, il s’agit d’une structure hiérarchique entre concepts du domaine. Les thésaurus incluent en plus des relations non hiérarchiques telles que la synonymie entre des termes. Les ontologies quant à elles introduisent une description en langage formel des relations sémantiques qui lient les termes d’un domaine, ce qui les rend plus adaptées à une exploitation algorithmique dans les moteurs de recherche.

Ces outils, dont les différences tendent à s’effacer, permettent de rechercher de nouveaux mots-clés dans un rapport sémantique prédéfini avec les mots-clés initiaux. L’on peut ainsi rechercher des termes équivalents, plus généraux, plus spécifiques ou encore dans une relation d’association propre au domaine, comme par exemple une relation de contenu à contenant. D’autre part, la polysémie des mots, qui constitue un challenge pour les modèles de langue, est ici mitigée par construction :

  • ces outils sont spécifiques à des domaines ce qui réduit les ambiguïtés,
  • ils peuvent fournir des groupes distincts de synonymes se rapportant à des sens différents du même mot.

Cela permet de renforcer la pertinence de l’extension des mots-clés.

Recherche à partir d’une description de l’invention

A ce stade, à partir d’une liste de mots-clés étoffée au moyen de l’une des approches évoquées précédemment, on a effectué une première extraction de brevets sur une plateforme dédiée. Afin de les ranger par ordre de pertinence, il est possible d’exploiter une description succincte de la future invention grâce aux méthodes de mesure de similarité entre deux textes, en l’occurrence la description de l’invention à breveter et le contenu textuel d’un des brevets présélectionnés.

Word Mover Distance

[ACO wwwwwwww] Par exemple, les textes peuvent être comparés à partir des plongements lexicaux de leurs mots. Chaque texte est vu comme un nuage de points dans l'espace vectoriel des plongements lexicaux. On peut alors utiliser une distance entre nuages de points telle que la Word Mover Distance (WMD) comme mesure de similarité. Intuitivement, la WMD recherche la façon la moins coûteuse en distance sémantique de “pousser” les mots de l’un des textes de sorte à ce qu’ils se confondent avec ceux de l’autre texte dans l’espace vectoriel des plongements lexicaux. Elle utilise pour ce faire un formalisme issu de la théorie du transport optimal. Le coût minimal obtenu constitue une distance sémantique entre les deux textes.

Vectorisation de documents

[ACO WWWWWWWW ] On peut également comparer des textes en les mettant directement sous une forme vectorielle pour ensuite calculer la distance entre ces vecteurs. Cette représentation vectorielle peut être obtenue simplement par le calcul d’une moyenne pondérée des plongements lexicaux des mots qui composent le texte.

Une approche plus performante au plan sémantique repose sur le calcul de plongements lexicaux de phrases entières. Pour ce faire, une méthode courante consiste à prendre comme plongements lexicaux, les représentations internes de modèles entraînés sur des tâches inférentielles qui reçoivent en données d’entrée des phrases et qui en requièrent une représentation sémantique précise. Ces tâches peuvent consister à prédire la phrase précédente ou suivante dans un texte, la réponse à une question ou encore le lien sémantique entre deux phrases. La représentation vectorielle du texte s’obtient alors en moyennant ces plongements lexicaux de phrases.

On peut également vectoriser un texte en exploitant directement les fréquences d’occurrence des mots et leur diffusion dans l’ensemble des documents textuels d’intérêt. C’est le principe des TF-IDFs qui semblent adaptés aux textes de brevets, étant donné qu’ils sont en principe rédigés dans un vocabulaire technique relativement restreint et précis.

Une fois les brevets et la description de l’invention vectorisés, on peut classer les brevets par ordre croissant de distance sémantique à la description de la future invention. Cet ordonnancement fournit un ordre de priorité pour l’examen des brevets présélectionnés. On peut, en outre, déterminer empiriquement une distance sémantique maximale au-delà de laquelle un brevet ne sera pas examiné, parce que trop éloigné de la description de l’invention.

Points d'attention

Mesurer l’originalité

Au-delà de la recherche d’antériorité, le NLP peut faciliter l’exploitation des bases de données de brevet pour suivre les évolutions technologiques importantes et identifier les opportunités d’innovation.

Par exemple, il est possible de mesurer le degré d’originalité d’une innovation en quantifiant son écart par rapport à des inventions similaires. Dans un premier temps, en utilisant l’une des techniques de vectorisation de texte évoquées dans la partie précédente, on peut à partir de la description d’une invention, constituer un ensemble de brevets portant sur des inventions similaires.

On peut également constituer un tel ensemble en procédant à un clustering des brevets.

Chacun de ces brevets, y compris celui dont on veut évaluer l’originalité, est un point dans un espace vectoriel. On peut ensuite utiliser n'importe quelle méthode de détection d’anomalies pour mesurer à quel point chacun de ces brevets, y compris le brevet d’intérêt, s’écarte de la majorité, et ainsi inférer son caractère potentiel de rupture. Il est à noter que la détection de nouveauté est un champ de recherche à part entière en apprentissage automatique qui s’applique naturellement à l’analyse de brevets.

Prétraitements

Les documents de brevets doivent passer par une phase de prétraitement indispensable avant de pouvoir être ingérés par les algorithmes de traitement automatique des langues. Il faut en effet prendre en compte les différences de conventions entre agences nationales ou internationales de brevets et leurs variations au fil du temps, ce qui constitue du bruit. Cela passe notamment par la reconnaissance d’entités nommées, en l’occurrence, les inventeurs, les entreprises, les sujets, les lieux, etc. Tout cela rentre dans le processus de normalisation des documents textuels.

Par Effa Emma
NLP data Scientist

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Exploiter efficacement les bases de données de brevet pour la recherche d’antériorité
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Agir chaque jour dans votre intérêt, et celui de la société.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Yseop’s Augmented Analyst platform brings natural language generation and other advanced technologies together to offer automation fit for regulated industries.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Leader des technologies d'investigation et services pour la sécurité globale.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Comment comparer des documents ?
Comparaison de documents, de quoi parle-t-on ? De nom­breuses appli­ca­tions néces­sitent de pou­voir com­pa­rer des docu­ments entre eux, par exemple pour cor­ri­ger un docu­ment, détec­ter du...
Catégorisation de documents
Pourquoi catégoriser des documents ? L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en...
Qu'est-ce que le clustering ?
Le Clus­te­ring s’ap­plique à un ensemble de docu­ments (un « cor­pus ») et consiste à regrou­per les docu­ments qui se res­semblent. On forme ain­si des sous-ensembles, ou...
Qu'est-ce que la fouille de texte ?
Fouille de texte ou text mining? Le trai­te­ment auto­ma­tique des langues est une étape préa­lable au trai­te­ment infor­ma­tique dans de nom­breuses appli­ca­tions. On consi­dère que...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...

Ces études de cas peuvent aussi vous intéresser

Mettre en place une veille scientifique multilingue

Je suis responsable produits/R&D dans le domaine pharmaceutique, et je souhaite mettre en place une veille multilingue.

Tendances selfcare et modernisation du support client

Je suis directeur du support client chez un fournisseur de télévision par satellite. J’ai pour objectif de mettre en place plus de selfcare et automatiser mon support pour que mes clients trouvent plus rapidement les informations qu’ils recherchent. En parallèle, je dois faire baisser les coûts du support client. Alors, comment faire ?

Comment recommander du contenu qui sera le plus à même d’intéresser le lecteur suite à l’article qu’il vient de consulter ?

Je suis directeur webmarketing pour un éditeur d'informations d'actualité en ligne et je souhaite utiliser un système de recommandation d’articles efficace pour diminuer le taux de rebond des visiteurs du site et les fidéliser.