Optimiser la recherche sur son site grâce à l'intelligence artificielle

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comment améliorer la recherche sur mon site de vente en ligne ?

Notre société de fournitures électriques pour professionnels propose une plate-forme de vente en ligne avec un formulaire pour la recherche produits. L'indexation plein-texte des fiches produits s'appuie sur un référentiel (tableau Excel) mais il a été élaboré au fil de l'eau, et nous ne parvenons pas à le maintenir ou à l'étendre. Il n'est pas réellement structuré, et ne prend pas en compte toutes les relations qui peuvent exister entre les mots.

Ceci a un impact sur la qualité de la recherche, et donc sur nos ventes. Ainsi, par exemple aujourd'hui, lorsqu'un client cherche domino ou dominos, le moteur ne retourne pas les mêmes produits et ne propose pas non plus les synonymes (barrette de connexion ou de raccordement). L'indexation se fait sur les fiches produits générées à partir de nos bases de données produits avec notre référentiel. Or nos fournisseurs n'emploient pas toujours les mêmes termes dans leurs descriptions produits, et notre référentiel actuel ne permet pas de pallier ce problème.

Nous pensons donc qu'une organisation de ce référentiel en une ressource réellement structurée permettrait d'indexer et de traiter les requêtes utilisateurs plus finement. Nous souhaitons également mettre en place un outil de gestion de cette nouvelle classification, ergonomique et simple d'utilisation même pour des non spécialistes de la langue afin de garantir une maintenance souple et pérenne.

La solution

Lemmatisation et gestion semi-automatisée d'un thesaurus

Plusieurs problèmes émergent ici, dont deux sont directement liés au langage :

  • les différentes formes d'un mot : certains mots en français changent de forme selon leur genre et leur nombre, et ici, un mot au singulier n'est pas associé à son pluriel ;
  • les différents sens d'un mot : un même mot peut avoir plusieurs sens (un domino est une fourniture électrique et c'est aussi la pièce d'un jeu du même nom ainsi qu'un élément de cuisson) et différents mots peuvent désigner une même chose (barrette de connexion et domino sont synonymes), et ici, les synonymes d'un terme ne sont pas non plus mis en relation.

Le dernier problème est lié à la maintenance et à l'enrichissement du référentiel. Il s’agit ici de situations assez classiques qui peuvent aisément être résolues grâce à certains modules de TALN/NLP (Traitement Automatique de la Langue Naturelle ou Natural Language Processing).

La lemmatisation pour réduire le silence

Concernant les variations de forme, il s’agit de prendre en compte la flexion des mots, c’est-à-dire le fait que les mots changent de forme selon qu’ils sont au féminin/masculin ou singulier/pluriel pour les noms et les adjectifs, ou bien selon leur temps pour les verbes.

Or finalement, lorsqu’on cherche des dominos, on aimerait également trouver les produits qui ne comporteraient que le mot domino au singulier. C’est là qu’intervient le TAL avec la mise en place d’un module de lemmatisation, module qui ramène toutes les formes fléchies d’un mot à une seule et unique forme, dite canonique ou lemme, qui sera conservée dans l’index inversé.

Ce module doit s’appliquer à l’indexation des fiches produits ainsi que sur les requêtes des utilisateurs, garantissant une meilleure pertinence des résultats retournés. La pertinence est l’un des critères habituellement retenu pour mesurer l’efficacité d’un Système de Recherche d'Information (SRI), elle fait appel :

  • au taux de précision : fondé sur le rapport entre l’ensemble des documents sélectionnés pertinents et l’ensemble des documents retournés, il peut s’interpréter comme une mesure de la qualité ;
  • au taux de rappel : fondé sur le rapport entre les documents retournés pertinents et l’ensemble des documents pertinents de la base, il peut s’interpréter comme une mesure de la quantité.

Ces mesures s’opposent aux notions de silence (les résultats pertinents mais non retournés par le système) et de bruit (les résultats retournés non pertinents). Ainsi, prenons l’exemple d’une base documentaire constituée par les fiches produits, si l’on a 100 produits qui répondent à une requête et que le système n’en retourne que 30, le taux de rappel sera de 30% et le silence de 70%.

Prenons maintenant le cas où l’on récupère 100 produits en réponse à une requête, si seulement 30% de ces documents sont pertinents, le taux de précision sera quant à lui de 30% et le bruit de 70%.

La lemmatisation des documents à l’indexation et des requêtes lors de la recherche permettent donc de minimiser le silence en associant des termes comme domino et dominos ou barrette et barrettes. On peut aussi se contenter d'un module de racinisation (souvent mis en œuvre par défaut dans les moteurs de recherche) mais au risque de faire baisser la précision.

Création d'une ressource structurée et mise en place d'une gestion semi-automatisée

La réorganisation du référentiel en thésaurus permettra lui aussi d'optimiser les processus d'indexation et de recherche sur le site. En effet, dans un thesaurus, les termes sont organisés entre eux par des relations de différentes natures : hiérarchiques, associatives ou d'équivalence, ce qui permet d’établir des liens de synonymie par exemple.

À partir d’une étude du référentiel et de sa granularité, et en accord avec les experts du domaine, un(e) infolinguiste pourra déterminer les niveaux du plan de classement qui serviront de base au découpage en domaines (Fils et câbles / Génie climatique / Éclairage / etc.) et en notions associées (sous Fils, on trouvera Bornes puis Bornes de connexion par exemple).

Les notions retenues seront ensuite associées aux termes employés pour les désigner, et des relations associatives ou d’équivalence pourront être rajoutées entre ces termes comme entre domino et borne ou barrette de connexion. Les règles régissant la constitution de ce thesaurus (notions et termes à retenir ou exclure, typologie des relations, etc.) devront être explicitées et consignées dans un guide qui servira de référence pour la maintenance.

Les fiches produits pourront alors être indexées puis catégorisées automatiquement à l’aide du thesaurus, vérifiant ainsi une bonne adéquation de la nouvelle ressource avec le contenu effectif des fiches.

Enfin, un module de détection de nouveaux termes peut s’avérer utile pour mettre à jour régulièrement le thesaurus. En utilisant des techniques simplifiées d’Extraction d’Information (EI), des termes potentiellement pertinents sont extraits automatiquement et proposés comme nouveaux termes possibles à partir des évolutions du catalogue mais aussi de l'analyse des logs de requêtes, en particulier les recherches infructueuses.

On parle de gestion semi-automatisée car la décision finale reviendra toujours à l’opérateur humain. Les outils de gestion de thesaurus (ou plus généralement de terminologies) offrent aujourd’hui des interfaces très intuitives intégrant des fonctionnalités de visualisation et de mise à jour simples et ne nécessitent pas de connaissances linguistiques particulières.

 

Points d'attention

Une attention particulière devra être portée aux effets de bord possibles lors de la mise en place de relations entre les termes. Par exemple, si on souhaite bien établir une relation d'équivalence entre une barrette de connexion et un domino, on ne veut pas qu'il y ait de relation entre une barrette de connexion et un domino de cuisson, on ne créera donc pas de relation de synonymie entre ces derniers.

 

Par Vanessa

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas Optimiser la recherche sur son site grâce à l’intelligence artificielle
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Semios est une solution assurant la relecture automatique des spécifications, cahiers des charges et documentations techniques. Elle signale les différentes incohérences, inexactitudes ou ambiguïtés impliquant des risques d'interprétation, et anticipe ainsi toutes les conséquences industrielles induites.
 
La plateforme Lettria rassemble les équipes tech et métier sur une même interface collaborative et no-code, pour les accompagner étape par étape dans la réalisation de leurs projets de traitement de données textuelles.
 
Vivoka commercialise le Voice Development Kit, le premier kit de développement logiciel 100% pour les technologies vocales embarquées. Ce produit permet aux entreprises et développeurs de créer rapidement et simplement une solution, incorporant une ou plusieurs technologies (Wake word, STT, ASR, Biométrie, TTS...), multilingue (40+ langues supportées), fonctionnant entièrement sur appareil. L'interface user-friendly ainsi que les capacités du VDK en font un outil stratégique pour les acteurs éco souhaitant tirer parti des technologies vocales, sans se heurter à la barrière de leur complexité.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Reecall est une solution de productivité et de gestion des appels entrants augmentée par l’IA. Gagnez en satisfaction client et en productivité : disponibles 24/7 nos agents virtuels reconnaissent vos clients, dialoguent en langage naturel, traitent immédiatement les demandes simples et automatisent les demandes complexes pour assister vos conseillers. Concentrez vos équipes sur les appels à forte valeur ajoutée et gagnez un temps précieux sur la résolution. Connectez vos outils avec notre RPA et automatisez jusqu’à 60% des demandes. Reecall, l’excellence d’un service client sans limite.
 
Mondeca équipe et assiste les entreprises privées et les organisations publiques pour qu’elles puissent tirer le meilleur profit de la technologie sémantique. Deux outils fondent l'offre Mondeca : CAM (Content Autotagging Manager) chaine UIMA de pilotage de workflows (Gate, Spacy, ML ...) et ITM (Intelligent Taxonomy Manager) gestionnaire de graphes de référentiels (taxonomies/ontologies). Un portail de diffusion et publication de terminologies (KB) est également proposé. La solution Mondeca est performante (pertinence, volumes, rapidité), stable et s'adapte aux différents cas métiers.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Botfuel développe une plateforme de création de chatbots NOCODE spécialisée pour le e-commerce. Les assistant virtuels créés avec Botfuel répondent aux questions fréquentes des internautes, les guident dans leur parcours d'achat.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Qu'est-ce qu'un gestionnaire de taxinomies ?
A quoi sert une taxinomie ? De nom­breuses appli­ca­tions, notam­ment des appli­ca­tions de trai­te­ment auto­ma­tique des langues, néces­sitent d’u­ti­li­ser un réfé­ren­tiel. Par exemple une nomen­cla­ture des...
Catégorisation de documents
Pourquoi catégoriser des documents ? L’ac­tion de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...
Sur quels principes fonctionne un module de recherche textuelle ?
Moteur de recherche grand public, moteur de recherche professionnel, quelles différences ? Les moteurs de recherche du Web sont deve­nus des outils du quo­ti­dien, et ces...
Qu'est-ce qu'une ontologie ?
Une onto­lo­gie est un mode de repré­sen­ta­tion for­melle des connais­sances défi­ni dans le cadre du Web Séman­tique. Vous trou­ve­rez plus d’in­for­ma­tion dans notre fiche Qu’est-ce...

Ces études de cas peuvent aussi vous intéresser

Comment alléger la charge que représente la rédaction de comptes-rendus médicaux en milieu hospitalier ?

Je suis chef de service hospitalier et souhaite alléger la charge que représente la rédaction récurrente de comptes-rendus médicaux. Les médecins du service sont amenés à rédiger pour chaque visite de patient des comptes-rendus médicaux nécessaires à leur suivi. Afin d'alléger la charge que représente la rédaction de ces comptes-rendus, je souhaite disposer d'un outil qui permettre d'optimiser la rédaction récurrente de parties redondantes.

Comprendre le fonctionnement et les limites des correcteurs orthographique et grammatical

Dans ma pratique professionnelle, je dois rédiger de nombreux rapports. La correction orthographique et grammaticale amène un gain de temps considérable. Souvent surpris par l'efficacité de ce type d'outils, j'aimerais comprendre comment ils fonctionnent afin de mieux jauger les corrections proposées.

La relation client multicanale : comment équilibrer le service entre coût et opportunités ?

Je suis responsable du service client de mon entreprise. Mon équipe et moi devons traiter quotidiennement un volume important de demandes clients dans un environnement multicanal, avec une réactivité optimale.