Garantir la cohérence des univers fictionnels collaboratifs grâce au TAL

Le besoin

Maintenir la cohérence narrative face à l'explosion du volume de données

Je suis administrateur d'un projet de « wikifiction » collaborative, où une vaste communauté construit un univers imaginaire partagé. Notre plateforme héberge des milliers de contributions fragmentées : des rapports techniques sur des objets mystérieux, des récits de lieux insaisissables et des « Contes » explorant la profondeur du « Lore ».

Dans ce type de structure, chaque auteur apporte sa pierre à l'édifice, mais le monde est régi par des règles de cohérence strictes, souvent découpées en différents « Canons » ou portées par des « Groupes d'Intérêt » (GoI) récurrents. Le défi majeur est de maintenir la logique narrative alors que le corpus devient trop volumineux pour être maîtrisé par un humain. L'objectif est de déployer un système intelligent pour assister les auteurs et les modérateurs, non pas pour créer à leur place, mais pour garantir que leurs nouvelles contributions s'intègrent harmonieusement au patrimoine existant sans créer de contradictions majeures.

La solution

Une architecture TAL multicouche au service du « Lore »

Pour relever ce défi sans dénaturer l'acte créatif, l'approche repose sur une architecture TAL multicouche agissant comme un dispositif logistique. Plutôt que de générer du texte, le système fonctionne comme un module de référence automatisé : il oriente l'auteur vers les sources pertinentes et vérifie la validité structurelle des nouveaux concepts. Le pipeline se décompose en quatre couches successives.

Couche 1 : Prétraitement — extraction et standardisation des entités
Le premier défi réside dans le jargon propre à ces univers : dénominations d'objets codifiés, acronymes de laboratoires fictifs, surnoms officieux circulant dans la communauté. Avant toute analyse, le système applique une couche de normalisation textuelle couplée à un module d'extraction d'entités nommées (personnages, lieux, objets, dates). Chaque mention identifiée est ensuite résolue à travers un graphe d'alias, qui est une table de correspondance qui relie chaque variante (surnom, code, abréviation) à son identifiant canonique. Sur un corpus comportant potentiellement des milliers de néologismes et de variantes, ce mécanisme neutralise les ambiguïtés avant même l'étape de recherche.

Couche 2 : Recherche hybride — approche sémantique et lexicale
Pour retrouver les passages pertinents du corpus existant, le système combine deux modes de recherche complémentaires. D'une part, une analyse sémantique par plongements lexicaux (embeddings) identifie les passages dont le sens est proche de la requête, même si les termes exacts diffèrent. D'autre part, une recherche lexicale exacte (de type BM25) garantit que les identifiants codifiés et les termes techniques exclusifs au projet ne passent pas inaperçus. Les résultats des deux canaux sont fusionnés et reclassés par un algorithme de ré-ordonnancement (reranker) afin de produire une liste unifiée des documents les plus pertinents.

Couche 3 : Vérification factuelle — détection de contradictions
Lorsqu'un auteur soumet un projet de texte, le système ne génère aucune donnée créative. Il procède en deux temps. D'abord, une vérification par règles structurées : les faits extraits du brouillon (dates, états, attributs) sont comparés à une ontologie du monde fictif — un référentiel taxonomique qui encode les relations et propriétés fondamentales du Lore. Ce mécanisme détecte les contradictions factuelles évidentes : un personnage décédé qui réapparaît, un événement situé dans une chronologie incohérente. Ensuite, pour les incohérences plus subtiles, un processus de questionnement automatisé génère des interrogations de vérification (« Ce groupe d'intérêt possède-t-il les capacités technologiques décrites ici ? ») et les soumet au moteur de recherche hybride. Les résultats sont présentés à l'auteur avec citation directe de l'article source, sans aucune prise de décision à sa place.

Couche 4 : Recommandation de liens et enrichissement du réseau narratif
Au-delà de la vérification, l'algorithme identifie des opportunités de connexion impossibles à détecter manuellement à grande échelle. En s'appuyant sur la comparaison vectorielle de documents et le regroupement thématique (clustering), le système signale les parentés potentielles entre contenus éloignés dans le corpus. Si un nouveau lieu partage des caractéristiques climatiques ou historiques avec une région créée par un autre contributeur, cette proximité est mise en évidence, transformant un ensemble de textes isolés en un réseau narratif dense et cohérent.

Garantir la cohérence des univers fictionnels collaboratifs grâce au TAL

Le besoin

Maintenir la cohérence narrative face à l'explosion du volume de données

La solution

Une architecture TAL multicouche au service du « Lore »

Points d'attention

Le TAL pour la révision des normes d’écriture de documents techniques

Étude de marché automatisée : une force de travail Multi-Agents pour l’analyse des tendances

Génération de données synthétiques : produire des commentaires de réseaux sociaux pour mieux préparer une campagne marketing grâce à l’ingénierie de prompt