Exploiter efficacement les bases de données de brevet pour la recherche d’antériorité
|
|
Le besoin
Exploiter efficacement les bases de brevets
Contexte général
En tant que responsable R&D, il est important pour moi d’exploiter les bases de données de brevets dans mon domaine d’activités pour de multiples raisons.
Tout d’abord, elles me permettent de vérifier si des idées ou des concepts similaires ont déjà été brevetés. Cela permet de m'assurer que la société ne va pas investir du temps et de l'argent dans un projet qui pourrait être considéré comme une violation de brevet.
Consulter les bases de données de brevets me permet également d’évaluer la concurrence. En effet, en examinant les brevets déposés par d'autres sociétés, il est possible de mieux comprendre les efforts de recherche et développement de la concurrence et ainsi mieux positionner notre société sur le marché.
En outre, en parcourant les brevets existants dans mon domaine d’activités, je peux trouver de nouvelles idées ou des façons de développer des concepts existants.
Données
La structure d'un brevet peut varier légèrement selon le pays dans lequel le brevet a été délivré, mais, en général, un brevet comprend les éléments suivants :
- le titre du brevet qui décrit de manière concise l'invention protégée par le brevet ;
- le résumé du brevet qui présente de manière synthétique l'invention protégée par le brevet et ses principaux avantages ;
- la description du brevet qui détaille l'invention protégée par le brevet et explique comment elle fonctionne ;
- les revendications qui définissent les limites de la protection accordée par le brevet ;
- des dessins qui illustrent l'invention et aident à comprendre comment elle fonctionne ;
- les codes de classification du brevet ;
- les dates de dépôt et de délivrance du brevet ;
- des mots-clés décrivant l’invention.
Moteur de recherche intégrés
A l’aide des moteurs de recherche intégrés aux bases de données de brevets, il est possible de sélectionner des brevets à partir de mots-clés et d’autres données contextuelles telles que la date de dépôt, le domaine d’application, ou encore le pays de dépôt. Certaines bases de données offrent des outils de recherche avancée. Par exemple, sur Espacenet, il est possible de réaliser des requêtes plus complexes à l’aide d’opérateurs booléens (tels que AND, OR et NOT) pour combiner différents mots-clés et critères de recherche.
Il est également possible d’affiner la recherche en examinant les brevets cités et citant, afin d’évaluer l’impact d’une invention et de trouver des inventions proches.
Limites
Cependant, il n’est pas toujours aisé de trouver les bons paramètres de recherche. Le choix des mots-clés doit prendre en compte l’usage possible de synonymes ou de variantes dans les champs textuels des brevets.
Les codes de classifications qui se rapportent soit à l’usage des inventions brevetées, soit à la technologie mise en œuvre sont utiles pour la recherche d’antériorités pertinentes, mais je ne les connais pas toujours.
Par ailleurs, la volumétrie des données disponibles est considérable. A titre d’exemple, l’Office Européen des Brevets donne accès à plus de 140 millions documents de brevets via la plateforme Espacenet.
Ainsi, une recherche d’antériorité mal ciblée m’expose au risque de passer à côté d’un brevet pertinent ou d’avoir de nombreux brevets non pertinents à examiner. De manière générale, un choix judicieux de paramètres de recherche peut tout de même aboutir à un nombre important de brevets à étudier. Le Traitement Automatique des Langues peut-il m’aider à mieux présélectionner des brevets via un fournisseur de brevets et ensuite en faire un tri efficace ?
La solution
Que peut m'apporter le TAL
TAL et mots-clés
Une étape critique dans la recherche d’antériorité via un fournisseur de brevets est le choix des bons mots-clés. A partir d’une liste initiale de mots-clés se rapportant au projet d’invention, le TAL offre plusieurs méthodes permettant d’identifier d’autres mots-clés pertinents.
Approches basées sur les modèles de langue
Les modèles de langue sont des modèles mathématiques qui quantifient la probabilité d’occurrence d’une séquence de mots, de caractères, de morphèmes ou de phonèmes dans une langue et plus généralement dans un ensemble donné de documents. Les modèles de langue permettent d’obtenir des représentations vectorielles des mots appelées plongements lexicaux, dont les distances euclidiennes sont petites lorsque les sens de ces mots sont proches.
Ainsi, des mots-clés synonymes tels que “vélo” ou “bicyclette”, ou ayant le même radical comme “bicyclette” et “tricycle”, auront des plongements lexicaux proches en distance euclidienne.
Il est donc possible de trouver des mots-clés alternatifs à partir d’un mot-clé initial, en calculant son plongement lexical et en recherchant dans le vocabulaire de la langue, les n mots dont les plongements lexicaux sont les plus proches de celui du mot-clé initial, n étant un nombre fixé par l’utilisateur.
Il est également possible par ce moyen d’obtenir des mots-clés alternatifs à partir de mots-clés “composés” tels que “course à pieds”, ou “sac à dos”. Le principe est le même. En effet, les plongements lexicaux se prêtent aux opérations algébriques. Il suffit donc dans un premier temps de calculer un vecteur qui est une moyenne pondérée des plongements lexicaux des mots composant le mot-clé auquel on cherche des alternatives. Et dans un deuxième temps, comme pour les mots-clés à terme unique, de sélectionner les mots du vocabulaire ayant les plongements lexicaux les plus proches du vecteur moyen.
Approches basées sur les données lexicales structurées
Il existe des outils construits explicitement pour organiser et représenter les connaissances dans un domaine spécifique, lesquels ont d’ailleurs préexisté aux modèles de langue. On peut citer les taxonomies, les thésaurus, ou encore les ontologies.
Ils ont en commun qu’ils dotent des données lexicales d’un domaine d’une structure qui en facilite l’exploitation. Dans le cas des taxonomies, il s’agit d’une structure hiérarchique entre concepts du domaine. Les thésaurus incluent en plus des relations non hiérarchiques telles que la synonymie entre des termes. Les ontologies quant à elles introduisent une description en langage formel des relations sémantiques qui lient les termes d’un domaine, ce qui les rend plus adaptées à une exploitation algorithmique dans les moteurs de recherche.
Ces outils, dont les différences tendent à s’effacer, permettent de rechercher de nouveaux mots-clés dans un rapport sémantique prédéfini avec les mots-clés initiaux. L’on peut ainsi rechercher des termes équivalents, plus généraux, plus spécifiques ou encore dans une relation d’association propre au domaine, comme par exemple une relation de contenu à contenant. D’autre part, la polysémie des mots, qui constitue un challenge pour les modèles de langue, est ici mitigée par construction :
- ces outils sont spécifiques à des domaines ce qui réduit les ambiguïtés,
- ils peuvent fournir des groupes distincts de synonymes se rapportant à des sens différents du même mot.
Cela permet de renforcer la pertinence de l’extension des mots-clés.
Recherche à partir d’une description de l’invention
A ce stade, à partir d’une liste de mots-clés étoffée au moyen de l’une des approches évoquées précédemment, on a effectué une première extraction de brevets sur une plateforme dédiée. Afin de les ranger par ordre de pertinence, il est possible d’exploiter une description succincte de la future invention grâce aux méthodes de mesure de similarité entre deux textes, en l’occurrence la description de l’invention à breveter et le contenu textuel d’un des brevets présélectionnés.
Word Mover Distance
Par exemple, les textes peuvent être comparés à partir des plongements lexicaux de leurs mots. Chaque texte est vu comme un nuage de points dans l'espace vectoriel des plongements lexicaux. On peut alors utiliser une distance entre nuages de points telle que la Word Mover Distance (WMD) comme mesure de similarité. Intuitivement, la WMD recherche la façon la moins coûteuse en distance sémantique de “pousser” les mots de l’un des textes de sorte à ce qu’ils se confondent avec ceux de l’autre texte dans l’espace vectoriel des plongements lexicaux. Elle utilise pour ce faire un formalisme issu de la théorie du transport optimal. Le coût minimal obtenu constitue une distance sémantique entre les deux textes.
Vectorisation de documents
On peut également comparer des textes en les mettant directement sous une forme vectorielle pour ensuite calculer la distance entre ces vecteurs. Cette représentation vectorielle peut être obtenue simplement par le calcul d’une moyenne pondérée des plongements lexicaux des mots qui composent le texte.
Une approche plus performante au plan sémantique repose sur le calcul de plongements lexicaux de phrases entières. Pour ce faire, une méthode courante consiste à prendre comme plongements lexicaux, les représentations internes de modèles entraînés sur des tâches inférentielles qui reçoivent en données d’entrée des phrases et qui en requièrent une représentation sémantique précise. Ces tâches peuvent consister à prédire la phrase précédente ou suivante dans un texte, la réponse à une question ou encore le lien sémantique entre deux phrases. La représentation vectorielle du texte s’obtient alors en moyennant ces plongements lexicaux de phrases.
On peut également vectoriser un texte en exploitant directement les fréquences d’occurrence des mots et leur diffusion dans l’ensemble des documents textuels d’intérêt. C’est le principe des TF-IDFs qui semblent adaptés aux textes de brevets, étant donné qu’ils sont en principe rédigés dans un vocabulaire technique relativement restreint et précis.
Une fois les brevets et la description de l’invention vectorisés, on peut classer les brevets par ordre croissant de distance sémantique à la description de la future invention. Cet ordonnancement fournit un ordre de priorité pour l’examen des brevets présélectionnés. On peut, en outre, déterminer empiriquement une distance sémantique maximale au-delà de laquelle un brevet ne sera pas examiné, parce que trop éloigné de la description de l’invention.
Points d'attention
Mesurer l’originalité
Au-delà de la recherche d’antériorité, le NLP peut faciliter l’exploitation des bases de données de brevet pour suivre les évolutions technologiques importantes et identifier les opportunités d’innovation.
Par exemple, il est possible de mesurer le degré d’originalité d’une innovation en quantifiant son écart par rapport à des inventions similaires. Dans un premier temps, en utilisant l’une des techniques de vectorisation de texte évoquées dans la partie précédente, on peut à partir de la description d’une invention, constituer un ensemble de brevets portant sur des inventions similaires.
On peut également constituer un tel ensemble en procédant à un clustering des brevets.
Chacun de ces brevets, y compris celui dont on veut évaluer l’originalité, est un point dans un espace vectoriel. On peut ensuite utiliser n'importe quelle méthode de détection d’anomalies pour mesurer à quel point chacun de ces brevets, y compris le brevet d’intérêt, s’écarte de la majorité, et ainsi inférer son caractère potentiel de rupture. Il est à noter que la détection de nouveauté est un champ de recherche à part entière en apprentissage automatique qui s’applique naturellement à l’analyse de brevets.
Prétraitements
Les documents de brevets doivent passer par une phase de prétraitement indispensable avant de pouvoir être ingérés par les algorithmes de traitement automatique des langues. Il faut en effet prendre en compte les différences de conventions entre agences nationales ou internationales de brevets et leurs variations au fil du temps, ce qui constitue du bruit. Cela passe notamment par la reconnaissance d’entités nommées, en l’occurrence, les inventeurs, les entreprises, les sujets, les lieux, etc. Tout cela rentre dans le processus de normalisation des documents textuels.