Je suis professeur-chercheur et je travaille à la semi-automatisation d'exercices de paléontologie à l'attention des étudiants en histoire notamment. Pour cela, j'ai à ma disposition un corpus composé de manuscrits enluminés du Moyen Âge, mais les documents sont scannés et enregistrés sous la forme de collections d'images ou fichiers PDF sans texte sélectionnable. Or le corpus est composé de milliers de manuscrits, et je n'envisage pas de laisser une équipe d'humains tout retranscrire manuellement, tels des moines copistes pour ainsi dire. J'imagine que les outils du TAL, plus particulièrement l'OCR, pourront m'aider à rendre la tâche moins fastidieuse. Mais quelle méthode privilégier dans le cas particulier de manuscrits qui contiennent des éléments non textuels comme des ornements ainsi qu'une mise en page complexe avec, par exemple, des annotations dans les marges ?
|
Je suis responsable d’une plateforme de bibliothèque numérique et je souhaite améliorer l’expérience des utilisateurs en perfectionnant le moteur de recherche de l’application.
Je suis associée dans un cabinet d’avocats spécialisé en droit des affaires. Je voudrais fournir aux avocats et juristes de notre cabinet des outils efficaces pour identifier la jurisprudence utilisable dans la construction de leurs arguments. Actuellement, ce processus est chronophage et comporte le risque de ne pas repérer les décisions les plus pertinentes. La masse d'informations disponible rend difficile l'obtention d'une vision claire de l'évolution de la jurisprudence, ce qui peut d’ailleurs entraîner des lacunes concernant les revirements de jurisprudence. Le Traitement Automatique des Langues peut-il aider à réduire le temps et le niveau d’expertise nécessaire pour trouver les jurisprudences pertinentes ?
En tant que responsable R&D, il est important pour moi d’exploiter les bases de données de brevets dans mon domaine d’activités pour m'assurer que la société ne va pas investir du temps et de l'argent dans un projet qui pourrait être considéré comme une violation de brevet. Cependant, la volumétrie des données disponibles est considérable. A titre d’exemple, l’Office Européen des Brevets donne accès à plus de 140 millions documents de brevets. Le Traitement Automatique des Langues peut-il m’aider à mieux présélectionner des brevets via un fournisseur de brevets et ensuite à en faire un tri efficace ?
Je suis directeur webmarketing pour un éditeur d'informations d'actualité en ligne et je souhaite utiliser un système de recommandation d’articles efficace pour diminuer le taux de rebond des visiteurs du site et les fidéliser.