/

FAQ

FAQ

Analyse sémantique

Au tout début du XXème siècle, Louis Ferdinand de Saussure, dans ses Cours de linguistique Générale, explorait la différence entre signifiant et signifié. Le signe, selon Saussure, comprend deux faces, l’une ‑le signifiant – est l‘image acoustique, c’est à dire la face matérielle du signe, l’autre – le signifié – est le concept auquel, pour le locuteur, cette image acoustique renvoie. Dès lors, la sémantique va concerner les rapports entre le sig…

BERT

A l’ère des modèles pré-entraînés de plus en plus puissants, BERT, de par son architecture et son fonctionnement singulier, est un outil puissant à intégrer dans toutes sortes de solutions de traitement automatique des langues. Avec le modèle GPT (GPT‑3, ChatGPT), BERT est aujourd’hui à la tête d’avancées considérables en matière de deep learning et de modélisation du langage naturel.…

Catégorisation de documents

L’action de regrouper les objets en classes est au moins aussi ancienne que le langage lui-même, et, d’une certaine façon, en est la condition première. Classer des documents est généralement un préalable à tout activité de gestion d’information, la catégorisation de documents est une fonction essentielle de nombreuses solutions de traitement automatique des langues, que ce soit en gestion documentaire, knowledge management, analyse de documents …

Comment comparer des documents ?

De nombreuses applications nécessitent de pouvoir comparer des documents entre eux, par exemple pour corriger un document, détecter du plagiat, constituer une mémoire de traduction, faire de la recherche d’information, lutter contre les fake news ou encore évaluer un logiciel de traduction. Les techniques employées diffèrent selon les besoins et la taille des documents. On trouve parmi ces techniques le calcul de la distance d’édition, les modèle…

Comment fonctionne la génération de texte ?

NLG est l’acronyme anglais de « Natural Language Generation », en d’autres termes génération (de textes) en langage naturel. Il s’agit de faire produire à une machine des textes sur un sujet donné. Les travaux sur la génération de textes datent des débuts du traitement automatique des langues, qui est né de la traduction automatique. En effet, les premiers systèmes de traduction étaient basés sur le triptyque analyse-transfert-génération (aussi a…

Comment fonctionne la synthèse vocale ?

Synthèse de la parole, synthèse vocale, Text to Speech, TTS, tous ces termes sont aujourd’hui synonymes. Ils décrivent le fait de produire du son, aussi proche que possible de la voix humaine. correspondant à un texte écrit en langue naturelle. La réponse vocale, quant à elle, consiste à restituer, en fonction du contexte, des phrases ou des parties de phrases enregistrées par des humains. On pense notamment aux annonces d’arrivées en gares dans …

Comment un ordinateur peut-il aider à traduire ?

Les premières solutions de traduction automatique et de traduction assistée par ordinateur sont apparues dès le milieu du XXème siècle. Les chercheurs ont en effet perçu très tôt que la puissance de calcul offerte par les ordinateurs pouvait grandement faciliter le processus de traduction. Les premières démonstrations de traduction automatique datent de 1954, lors de l’expérience Georgetown (Georgetown experiment). On pensait alors que la questio…

Dialogueurs / Agents conversationnels, de quoi parle-t-on ?

Un agent conversationnel – ou chatbot en anglais – interagit en langue naturelle, à l’oral ou à l’écrit, avec l’utilisateur afin de répondre à ces questions ou, plus généralement, à l’aider dans une tâche. Ces agents conversationnels sont souvent présents sur les sites Internet, sous la forme d’un avatar accompagné d’une interface de saisie dans lequel l’utilisateur saisit sa question ou décrit son besoin. Le texte saisi par l’utilisateur, ou sa …

Extraction d’information, de quoi s’agit-il ?

L’extraction d’information consiste à identifier, dans des textes en langue naturelle, des informations types : noms de personnes ou de lieux, relations entre entreprises, dates, montants… De nombreuses applications du traitement automatique des langues nécessitent de pouvoir extraire des informations contenues dans les documents en langue naturelle. On peut, par exemple : vouloir reconnaître l’ensemble des noms de personnes contenus dans un text…

Le résumé automatique, comment ça marche ?

Le résumé automatique consiste à analyser un ou plusieurs documents et produire un nouveau document plus court qui permet à l’utilisateur d’accéder aux informations pertinentes. La notion de pertinence est évidemment relative à un contexte particulier. On distingue donc plusieurs types de résumés. LLoret et Palomar ont proposé quelques grands critères pour distinguer les familles de résumé, en particulier : l’entrée : s’agit-il de résumer un docu…

Qu’est-ce qu’un crawler ?

Un crawler, ou scraper, est un outil qui permet d’obtenir le contenu (généralement textuel) d’une page web afin d’appliquer des traitements d’analyse. On se place évidemment dans l’optique d’une automatisation, c’est-à-dire d’une collecte à large échelle, sinon un simple copier/coller depuis l’affichage d’une page web fera l’affaire. Mais si vous faites cette opération à la main, vous allez vous rendre compte de la complexité de la tâche. En effe…

Qu’est-ce qu’un gestionnaire de taxinomies ?

De nombreuses applications, notamment des applications de traitement automatique des langues, nécessitent d’utiliser un référentiel. Par exemple une nomenclature des compétences pour la gestion de CV, un plan de classement pour la fouille de texte ou un organigramme pour orienter les demandes clients. Ce référentiel peut être représenté via une taxinomie, un plan de classement, une ontologie, un thésaurus ou tout modèle de représentation hiérarch…

Qu’est-ce qu’une ontologie ?

Une ontologie est un mode de représentation formelle des connaissances défini dans le cadre du Web Sémantique. Vous trouverez plus d’information dans notre fiche Qu’est-ce qu’un gestionnaire de taxinomie ?…

Qu’est-ce que la fouille de texte ?

Le traitement automatique des langues est une étape préalable au traitement informatique dans de nombreuses applications. On considère que les textes en langue naturelle sont des données non-structurées ou, à tout le moins, que leur structure n’est pas directement accessible à ces applications informatiques. La fouille de texte, ou text mining en anglais, regroupe l’ensemble des techniques de traitement de la langue qui visent à extraire l’inform…

Qu’est-ce que la normalisation de textes ?

La normalisation de textes consiste à préparer les textes pour effectuer un traitement automatique du contenu de plus haut niveau. Cette étape est nécessaire lorsque les texte fournis aux outils de traitement du langage proviennent de sources peu fiables quant à la forme du texte, par exemple dans le cas d’enquêtes d’opinions, de documents acquis par reconnaissance optique de caractères ou bien d’environnements logiciels tiers. Différents traiteme…

Qu’est-ce que le clustering ?

Le Clustering s’applique à un ensemble de documents (un « corpus ») et consiste à regrouper les documents qui se ressemblent. On forme ainsi des sous-ensembles, ou grappes (clusters en anglais). Sur quel principe repose le clustering de documents ? Le clustering repose sur quelques principes simples et intuitifs liés à la fréquence d’occurrence des termes associés à des concepts : Si un concept est fréquent dans un document, il est fort probable …

Qu’est-ce que le traitement automatique des langues ?

Le traitement automatique des langues (TAL) est un domaine combinant des compétences en linguistique et en informatique. De nombreuses solutions de NLP sont aujourd’hui présentes dans notre quotidien, à commencer par nos smartphones : assistant virtuel, dictée de message par commande vocale, traducteur automatique ou encore correcteur orthographique. L’intelligence artificielle, et plus spécifiquement son volet textuel, suscite donc un grand intérêt ….

Qu’est-ce que le Machine Learning ?

Le Machine Learning (ou apprentissage automatique) est un domaine de l’intelligence artificielle qui permet de trouver des patterns dans une grande quantité de données et d’en tirer des prédictions à l’aide de statistiques. Le Machine Learning est un domaine de l’intelligence artificielle. Il s’appuie sur l’analyse de données et les statistiques pour extraire des tendances, faire des prédictions, aider à la prise de décision ou encore suggérer du contenu personnalisé à un utilisateur…

Reconnaissance Optique de Caractères : quelle différence entre l’OCR et l’ICR ?

La reconnaissance optique de caractères (ou OCR) consiste à analyser un document disponible sous forme d’image, par exemple un document numérisé au moyen d’un scanner ou une photo, et à le transformer en une version texte directement analysable par un module de traitement automatique des langues. Cette opération utilise généralement des technologies de reconnaissance de formes à base de réseaux de neurones. Un premier traitement consiste à identi…

Sur quels principes fonctionne un module de recherche textuelle ?

Les moteurs de recherche du Web sont devenus des outils du quotidien, et ces moteurs ont beaucoup évolué depuis les premiers moteurs historiques tels que Archie ou AltaVista. Les moteurs de recherche sont également très utiles en entreprise. Les moteurs grand public et professionnels ont des caractéristiques différentes : volume de données traitées, mode de collecte de l’information et critères de classement notamment. Selon le site Live Stats, l…