Garantir la cohérence des univers fictionnels collaboratifs grâce au TAL
|
|
Le besoin
Maintenir la cohérence narrative face à l'explosion du volume de données
Je suis administrateur d'un projet de « wikifiction » collaborative, où une vaste communauté construit un univers imaginaire partagé. Notre plateforme héberge des milliers de contributions fragmentées : des rapports techniques sur des objets mystérieux, des récits de lieux insaisissables et des « Contes » explorant la profondeur du « Lore ».
Dans ce type de structure, chaque auteur apporte sa pierre à l'édifice, mais le monde est régi par des règles de cohérence strictes, souvent découpées en différents « Canons » ou portées par des « Groupes d'Intérêt » (GoI) récurrents. Le défi majeur est de maintenir la logique narrative alors que le corpus devient trop volumineux pour être maîtrisé par un humain. L'objectif est de déployer un système intelligent pour assister les auteurs et les modérateurs, non pas pour créer à leur place, mais pour garantir que leurs nouvelles contributions s'intègrent harmonieusement au patrimoine existant sans créer de contradictions majeures.
La solution
Une architecture TAL multicouche au service du « Lore »
Pour relever ce défi sans dénaturer l'acte créatif, l'approche repose sur une architecture TAL multicouche agissant comme un dispositif logistique. Plutôt que de générer du texte, le système fonctionne comme un module de référence automatisé : il oriente l'auteur vers les sources pertinentes et vérifie la validité structurelle des nouveaux concepts. Le pipeline se décompose en quatre couches successives.
Couche 1 : Prétraitement — extraction et standardisation des entités
Le premier défi réside dans le jargon propre à ces univers : dénominations d'objets codifiés, acronymes de laboratoires fictifs, surnoms officieux circulant dans la communauté. Avant toute analyse, le système applique une couche de normalisation textuelle couplée à un module d'extraction d'entités nommées (personnages, lieux, objets, dates). Chaque mention identifiée est ensuite résolue à travers un graphe d'alias, qui est une table de correspondance qui relie chaque variante (surnom, code, abréviation) à son identifiant canonique. Sur un corpus comportant potentiellement des milliers de néologismes et de variantes, ce mécanisme neutralise les ambiguïtés avant même l'étape de recherche.
Couche 2 : Recherche hybride — approche sémantique et lexicale
Pour retrouver les passages pertinents du corpus existant, le système combine deux modes de recherche complémentaires. D'une part, une analyse sémantique par plongements lexicaux (embeddings) identifie les passages dont le sens est proche de la requête, même si les termes exacts diffèrent. D'autre part, une recherche lexicale exacte (de type BM25) garantit que les identifiants codifiés et les termes techniques exclusifs au projet ne passent pas inaperçus. Les résultats des deux canaux sont fusionnés et reclassés par un algorithme de ré-ordonnancement (reranker) afin de produire une liste unifiée des documents les plus pertinents.
Couche 3 : Vérification factuelle — détection de contradictions
Lorsqu'un auteur soumet un projet de texte, le système ne génère aucune donnée créative. Il procède en deux temps. D'abord, une vérification par règles structurées : les faits extraits du brouillon (dates, états, attributs) sont comparés à une ontologie du monde fictif — un référentiel taxonomique qui encode les relations et propriétés fondamentales du Lore. Ce mécanisme détecte les contradictions factuelles évidentes : un personnage décédé qui réapparaît, un événement situé dans une chronologie incohérente. Ensuite, pour les incohérences plus subtiles, un processus de questionnement automatisé génère des interrogations de vérification (« Ce groupe d'intérêt possède-t-il les capacités technologiques décrites ici ? ») et les soumet au moteur de recherche hybride. Les résultats sont présentés à l'auteur avec citation directe de l'article source, sans aucune prise de décision à sa place.
Couche 4 : Recommandation de liens et enrichissement du réseau narratif
Au-delà de la vérification, l'algorithme identifie des opportunités de connexion impossibles à détecter manuellement à grande échelle. En s'appuyant sur la comparaison vectorielle de documents et le regroupement thématique (clustering), le système signale les parentés potentielles entre contenus éloignés dans le corpus. Si un nouveau lieu partage des caractéristiques climatiques ou historiques avec une région créée par un autre contributeur, cette proximité est mise en évidence, transformant un ensemble de textes isolés en un réseau narratif dense et cohérent.
Points d'attention
La mise en œuvre de ce type de système dans un cadre créatif et collaboratif nécessite de naviguer entre rigueur technique et liberté d'imagination :
- Le défi du jargon et des néologismes : Les auteurs inventent constamment des concepts. Un modèle de langue pré-entraîné sur des corpus standards risque d'interpréter ces termes comme des erreurs. Il est impératif d'enrichir les représentations du modèle par un dictionnaire d'entités spécifique au projet et d'appliquer des techniques de standardisation d'entités pour gérer les variantes orthographiques et les alias.
- La hiérarchie du « Canon » : Sur ces plateformes, tous les textes ne font pas force de loi. Le système doit intégrer un mécanisme de catégorisation qui distingue le cœur du Lore (validé par la communauté) des essais personnels ou des contenus non canoniques. L'attribution d'un score d'autorité basé sur les métadonnées (votes, labels de modération, ancienneté) permet de pondérer les sources dans les résultats de recherche.
- Éthique et exclusion de la génération : Pour respecter l'intégrité des communautés créatives, le système est strictement limité à un rôle d'analyse de cohérence. Aucune génération de texte n'est autorisée : le dispositif ne propose ni suites de phrases, ni reformulations, mais uniquement des pointeurs vers des connaissances existantes accompagnés de leurs sources.
- Équilibre entre rigueur et performance : Une analyse exhaustive de chaque soumission peut être coûteuse et lente. L'architecture est pensée en couches : un premier niveau de vérification rapide basé sur la fouille de texte et l'apprentissage automatique pour un feedback immédiat, suivi d'une analyse logique plus fine lors de la soumission finale.