FAQ

Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre signi­fiant et signi­fié. Le signe, selon Saus­sure, com­prend deux faces, l’une ‑le signi­fiant – est l‘image acous­tique, c’est à dire la face maté­rielle du signe, l’autre – le signi­fié – est le concept auquel, pour le locu­teur, cette image acous­tique ren­voie. Dès lors, la séman­tique va concer­ner les rap­ports entre le sig…

En savoir plus 

L’action de regrou­per les objets en classes est au moins aus­si ancienne que le lan­gage lui-même, et, d’une cer­taine façon, en est la condi­tion pre­mière. Clas­ser des docu­ments est géné­ra­le­ment un préa­lable à tout acti­vi­té de ges­tion d’information, la caté­go­ri­sa­tion de docu­ments est une fonc­tion essen­tielle de nom­breuses solu­tions de trai­te­ment auto­ma­tique des langues, que ce soit en ges­tion docu­men­taire, know­ledge mana­ge­ment, ana­lyse de documents …

En savoir plus 

De nom­breuses appli­ca­tions néces­sitent de pou­voir com­pa­rer des docu­ments entre eux, par exemple pour cor­ri­ger un docu­ment, détec­ter du pla­giat, consti­tuer une mémoire de tra­duc­tion, faire de la recherche d’information, lut­ter contre les fake news ou encore éva­luer un logi­ciel de tra­duc­tion. Les tech­niques employées dif­fèrent selon les besoins et la taille des docu­ments. On trouve par­mi ces tech­niques le cal­cul de la dis­tance d’édition, les modèle…

En savoir plus 

NLG est l’acronyme anglais de « Natu­ral Lan­guage Gene­ra­tion », en d’autres termes géné­ra­tion (de textes) en lan­gage natu­rel. Il s’agit de faire pro­duire à une machine des textes sur un sujet don­né. Les tra­vaux sur la géné­ra­tion de textes datent des débuts du trai­te­ment auto­ma­tique des langues, qui est né de la tra­duc­tion auto­ma­tique. En effet, les pre­miers sys­tèmes de tra­duc­tion étaient basés sur le trip­tyque ana­lyse-trans­fert-géné­ra­tion (aus­si a…

En savoir plus 

Syn­thèse de la parole, syn­thèse vocale, Text to Speech, TTS, tous ces termes sont aujourd’hui syno­nymes. Ils décrivent le fait de pro­duire du son, aus­si proche que pos­sible de la voix humaine. cor­res­pon­dant à un texte écrit en langue natu­relle. La réponse vocale, quant à elle, consiste à res­ti­tuer, en fonc­tion du contexte, des phrases ou des par­ties de phrases enre­gis­trées par des humains. On pense notam­ment aux annonces d’arrivées en gares dans …

En savoir plus 

Les pre­mières solu­tions de tra­duc­tion auto­ma­tique et de tra­duc­tion assis­tée par ordi­na­teur sont appa­rues dès le milieu du XXème siècle. Les cher­cheurs ont en effet per­çu très tôt que la puis­sance de cal­cul offerte par les ordi­na­teurs pou­vait gran­de­ment faci­li­ter le pro­ces­sus de tra­duc­tion. Les pre­mières démons­tra­tions de tra­duc­tion auto­ma­tique datent de 1954, lors de l’expérience Geor­ge­town (Geor­ge­town expe­riment). On pen­sait alors que la questio…

En savoir plus 

Un agent conver­sa­tion­nel – ou chat­bot en anglais – inter­agit en langue natu­relle, à l’oral ou à l’écrit, avec l’utilisateur afin de répondre à ces ques­tions ou, plus géné­ra­le­ment, à l’aider dans une tâche. Ces agents conver­sa­tion­nels sont sou­vent pré­sents sur les sites Inter­net, sous la forme d’un ava­tar accom­pa­gné d’une inter­face de sai­sie dans lequel l’utilisateur sai­sit sa ques­tion ou décrit son besoin. Le texte sai­si par l’utilisateur, ou sa …

En savoir plus 

L’extraction d’information consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de lieux, rela­tions entre entre­prises, dates, mon­tants… De nom­breuses appli­ca­tions du trai­te­ment auto­ma­tique des langues néces­sitent de pou­voir extraire des infor­ma­tions conte­nues dans les docu­ments en langue natu­relle. On peut, par exemple : vou­loir recon­naître l’ensemble des noms de per­sonnes conte­nus dans un text…

En savoir plus 

Le résu­mé auto­ma­tique consiste à ana­ly­ser un ou plu­sieurs docu­ments et pro­duire un nou­veau docu­ment plus court qui per­met à l’utilisateur d’accéder aux infor­ma­tions per­ti­nentes. La notion de per­ti­nence est évi­dem­ment rela­tive à un contexte par­ti­cu­lier. On dis­tingue donc plu­sieurs types de résu­més. LLo­ret et Palo­mar ont pro­po­sé quelques grands cri­tères pour dis­tin­guer les familles de résu­mé, en par­ti­cu­lier : l’entrée : s’agit-il de résu­mer un docu…

En savoir plus 

Un craw­ler, ou scra­per, est un outil qui per­met d’obtenir le conte­nu (géné­ra­le­ment tex­tuel) d’une page web afin d’appliquer des trai­te­ments d’analyse. On se place évi­dem­ment dans l’optique d’une auto­ma­ti­sa­tion, c’est-à-dire d’une col­lecte à large échelle, sinon un simple copier/coller depuis l’affichage d’une page web fera l’affaire. Mais si vous faites cette opé­ra­tion à la main, vous allez vous rendre compte de la com­plexi­té de la tâche. En effe…

En savoir plus 

De nom­breuses appli­ca­tions, notam­ment des appli­ca­tions de trai­te­ment auto­ma­tique des langues, néces­sitent d’utiliser un réfé­ren­tiel. Par exemple une nomen­cla­ture des com­pé­tences pour la ges­tion de CV, un plan de clas­se­ment pour la fouille de texte ou un orga­ni­gramme pour orien­ter les demandes clients. Ce réfé­ren­tiel peut être repré­sen­té via une taxi­no­mie, un plan de clas­se­ment, une onto­lo­gie, un thé­sau­rus ou tout modèle de repré­sen­ta­tion hiérarch…

En savoir plus 

Une onto­lo­gie est un mode de repré­sen­ta­tion for­melle des connais­sances défi­ni dans le cadre du Web Séman­tique. Vous trou­ve­rez plus d’information dans notre fiche Qu’est-ce qu’un ges­tion­naire de taxinomie ?…

En savoir plus 

Le trai­te­ment auto­ma­tique des langues est une étape préa­lable au trai­te­ment infor­ma­tique dans de nom­breuses appli­ca­tions. On consi­dère que les textes en langue natu­relle sont des don­nées non-struc­tu­rées ou, à tout le moins, que leur struc­ture n’est pas direc­te­ment acces­sible à ces appli­ca­tions infor­ma­tiques. La fouille de texte, ou text mining en anglais, regroupe l’ensemble des tech­niques de trai­te­ment de la langue qui visent à extraire l’inform…

En savoir plus 

La nor­ma­li­sa­tion de textes consiste à pré­pa­rer les textes pour effec­tuer un trai­te­ment auto­ma­tique du conte­nu de plus haut niveau. Cette étape est néces­saire lorsque les texte four­nis aux outils de trai­te­ment du lan­gage pro­viennent de sources peu fiables quant à la forme du texte, par exemple dans le cas d’enquêtes d’opinions, de docu­ments acquis par recon­nais­sance optique de carac­tères ou bien d’environnements logi­ciels tiers. Dif­fé­rents traiteme…

En savoir plus 

Le Clus­te­ring s’applique à un ensemble de docu­ments (un « cor­pus ») et consiste à regrou­per les docu­ments qui se res­semblent. On forme ain­si des sous-ensembles, ou grappes (clus­ters en anglais). Sur quel prin­cipe repose le clus­te­ring de docu­ments ? Le clus­te­ring repose sur quelques prin­cipes simples et intui­tifs liés à la fré­quence d’occurrence des termes asso­ciés à des concepts : Si un concept est fré­quent dans un docu­ment, il est fort probable …

En savoir plus 

La recon­nais­sance optique de carac­tères (ou OCR) consiste à ana­ly­ser un docu­ment dis­po­nible sous forme d’image, par exemple un docu­ment numé­ri­sé au moyen d’un scan­ner ou une pho­to, et à le trans­for­mer en une ver­sion texte direc­te­ment ana­ly­sable par un module de trai­te­ment auto­ma­tique des langues. Cette opé­ra­tion uti­lise géné­ra­le­ment des tech­no­lo­gies de recon­nais­sance de formes à base de réseaux de neu­rones. Un pre­mier trai­te­ment consiste à identi…

En savoir plus 

Les moteurs de recherche du Web sont deve­nus des outils du quo­ti­dien, et ces moteurs ont beau­coup évo­lué depuis les pre­miers moteurs his­to­riques tels que Archie ou Alta­Vis­ta. Les moteurs de recherche sont éga­le­ment très utiles en entre­prise. Les moteurs grand public et pro­fes­sion­nels ont des carac­té­ris­tiques dif­fé­rentes : volume de don­nées trai­tées, mode de col­lecte de l’information et cri­tères de clas­se­ment notam­ment. Selon le site Live Stats, l…

En savoir plus