Je suis professeur-chercheur et je travaille à la semi-automatisation d'exercices de paléontologie à l'attention des étudiants en histoire notamment. Pour cela, j'ai à ma disposition un corpus composé de manuscrits enluminés du Moyen Âge, mais les documents sont scannés et enregistrés sous la forme de collections d'images ou fichiers PDF sans texte sélectionnable. Or le corpus est composé de milliers de manuscrits, et je n'envisage pas de laisser une équipe d'humains tout retranscrire manuellement, tels des moines copistes pour ainsi dire. J'imagine que les outils du TAL, plus particulièrement l'OCR, pourront m'aider à rendre la tâche moins fastidieuse. Mais quelle méthode privilégier dans le cas particulier de manuscrits qui contiennent des éléments non textuels comme des ornements ainsi qu'une mise en page complexe avec, par exemple, des annotations dans les marges ?
|
Je suis Directrice d'un Laboratoire de la Police Scientifique. Notre mission est d'effectuer des examens scientifiques et techniques sur demande des autorités judiciaires, de la police et de la gendarmerie, dans le but de constater les infractions pénales et d'identifier leurs auteurs. L'évolution croissante des usages des moyens numériques de communication s’accompagne malheureusement d’une hausse de la cybercriminalité. Dans ce cadre, je souhaite doter les équipes d’outils permettant de faciliter l’identification de cybercriminels à partir de textes numériques anonymes.
Je suis consultant fonctionnel dans une compagnie qui propose des solutions de paiement et je souhaite centraliser la terminologie employée dans notre entreprise au sein d'une seule ressource, afin d'assurer une communication claire entre les employés des différents services.
Je suis responsable d’une plateforme de bibliothèque numérique et je souhaite améliorer l’expérience des utilisateurs en perfectionnant le moteur de recherche de l’application.
Je suis associée dans un cabinet d’avocats spécialisé en droit des affaires. Je voudrais fournir aux avocats et juristes de notre cabinet des outils efficaces pour identifier la jurisprudence utilisable dans la construction de leurs arguments. Actuellement, ce processus est chronophage et comporte le risque de ne pas repérer les décisions les plus pertinentes. La masse d'informations disponible rend difficile l'obtention d'une vision claire de l'évolution de la jurisprudence, ce qui peut d’ailleurs entraîner des lacunes concernant les revirements de jurisprudence. Le Traitement Automatique des Langues peut-il aider à réduire le temps et le niveau d’expertise nécessaire pour trouver les jurisprudences pertinentes ?