RGPD: comment anonymiser des données textuelles

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comment rendre les données textuelles compatibles avec la législation sur les données personnelles ?

Les directives concernant la protection des données à caractère personnel sont assez claires concernant les données structurées et les procédures bien décrites par la CNIL pour appliquer correctement le RGPD. En revanche, les modalités de manipulation et surtout de conservation des données textuelles restent parfois floue.

Si par exemple je désire garder les avis consommateurs collectés sur un site de vente en ligne pour estimer le potentiel d'un nouveau produit à venir (par exemple via de l'analyse des émotions), je désire à la fois garder le texte de ces avis, mais je dois le faire en conformité avec les directives de protection des données personnelles.

Comment supprimer les liens nominatifs présents dans les données textuelles ?

La solution

Anonymisation, pseudonymisation de données textuelles

Si vous désirez effectuer des traitements sur des données textuelles et que vous n'avez pas obtenu le consentement des utilisateurs pour ce traitement, vous devez vous assurer que les principes du RGPD sont respectés préalablement à tout stockage et tout traitement. Cette étape est importante car la CNIL nous rappelle qu'il ne faut jamais considérer une donnée comme a priori neutre du point de vue de la protection des données personnelles.

Les principes, qui vous seront confirmés par votre DPO sont les suivants :

  • L’individualisation : est-il toujours possible d’isoler un individu ?
  • La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?
  • L’inférence : peut-on déduire de l’information sur un individu ?

Si les principes ne sont pas respectés, il vous faudra étudier les risques de ré-identification avant même de stocker les données. Par exemple, un message mentionnant une adresse ou un numéro client présente de forts risques qu'un tiers puisse identifier l'émetteur du message, même si toutes les méta-données associées ont été correctement masquées. Le principe d'individualisation risque donc de ne pas être assuré si l'on garde tels quels les verbatims pour un usage ultérieur.

La reconnaissance d'entités, un premier outil

La plupart des éléments qui permettent d'identifier un individu se présentent sous la forme de ce que les spécialistes de l'IA multilingue appellent des entités nommées, c'est-à-dire des objets dont la seule expression permet de désigner un objet du monde (un nom de personne, une adresse, un numéro de téléphone, etc.). Les systèmes d'analyse sémantique proposent fréquemment des modules pour extraire les entités nommées. Les objets reconnus varient selon les systèmes, mais ils sont en général capables de reconnaître :

  • les noms propres (de personnes et d'organisation),
  • les numéros de téléphone et autres identifiants,
  • les adresses et noms de lieu.

Il est souvent possible de les étendre à des entités spécifiques pour un corpus donné, par règles ou par apprentissage.

Masquage des entités

Une fois ces entités reconnues dans le texte, il est possible de les masquer, réduisant ainsi grandement le risque de ré-identification.

On peut procéder par anonymisation, c'est-à-dire remplacer le texte de l'entité par une chaîne de caractères aléatoire ou par un marqueur conventionnel comme par exemple  ***.

L'alternative est de procéder par pseudonymisation, c'est-à-dire de remplacer les entités reconnues chaque fois par la même entité (par exemple, on remplacera toutes les occurrences de "le patron du magasin Sam-le-Pirate de Montreuil" par "le patron du magasin Brol de Poudlard"). La pseudonymisation permet des traitements plus fins, comme par exemple compter s'il y a eu beaucoup de magasins différents mentionnés dans les commentaires, même si les noms de ces magasins sont masqués. En revanche, la CNIL nous prévient que le niveau de risque est plus élevé, particulièrement si la table de "mapping" entre les entités et leurs pseudonymes est conservée. Pseudonymisation n'est pas anonymisation.

Points d'attention

Il est important d'étudier précisément la nature des données et les risques associés. Une anonymisation automatique peut se révéler insuffisante, d'une part parce que les systèmes d'IA multilingue n'ont pas une précision de 100% sur la reconnaissance d'entités. La performance de ces systèmes est de l'ordre de 90%, ce qui signifie qu'une mention d'entité sur 10 risque de "passer au travers" du filtre automatique.

L'autre écueil des procédures automatiques est que même si l'anonymisation est parfaite, il est parfois possible de ré-identifier une personne via le contexte. Un exemple flagrant peut être trouvé dans l'anonymisation des décisions de justice. Celles-ci sont mises en ligne en open-data, suite à une phase de pseudonymisation, dans lesquelles les noms des accusés et plaignants sont remplacé par des lettres (X, Y, Z, ...). On y trouve par exemple une décision de 2000 mentionnant un "M. Jacques Y..., à l'époque des faits maire de Paris et aujourd'hui Président de la République" (voir legifrance.fr). Point n'est besoin d'algorithme complexe pour effectuer une ré-identification.

Le traitement automatique n'est donc qu'un outil au service du RGPD. Le risque associé aux données résultantes doit être étudié et validé par le DPO.

Par Hugues de Mazancourt
Président de l'APIL

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas RGPD: comment anonymiser des données textuelles
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
La plateforme Lettria rassemble les équipes tech et métier sur une même interface collaborative et no-code, pour les accompagner étape par étape dans la réalisation de leurs projets de traitement de données textuelles.
 
Mondeca équipe et assiste les entreprises privées et les organisations publiques pour qu’elles puissent tirer le meilleur profit de la technologie sémantique. Deux outils fondent l'offre Mondeca : CAM (Content Autotagging Manager) chaine UIMA de pilotage de workflows (Gate, Spacy, ML ...) et ITM (Intelligent Taxonomy Manager) gestionnaire de graphes de référentiels (taxonomies/ontologies). Un portail de diffusion et publication de terminologies (KB) est également proposé. La solution Mondeca est performante (pertinence, volumes, rapidité), stable et s'adapte aux différents cas métiers.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Reecall est une solution de productivité et de gestion des appels entrants augmentée par l’IA. Gagnez en satisfaction client et en productivité : disponibles 24/7 nos agents virtuels reconnaissent vos clients, dialoguent en langage naturel, traitent immédiatement les demandes simples et automatisent les demandes complexes pour assister vos conseillers. Concentrez vos équipes sur les appels à forte valeur ajoutée et gagnez un temps précieux sur la résolution. Connectez vos outils avec notre RPA et automatisez jusqu’à 60% des demandes. Reecall, l’excellence d’un service client sans limite.
 
Botfuel développe une plateforme de création de chatbots NOCODE spécialisée pour le e-commerce. Les assistant virtuels créés avec Botfuel répondent aux questions fréquentes des internautes, les guident dans leur parcours d'achat.
 
Nous créons des contenus éducatifs qui lèvent la barrière de l'écrit et celle de la langue nationale, au moyen de saynètes dans lesquelles les avatars Ludo et Vic contextualisent les éléments des concepts à transmettre. Ainsi les consignes des exercices d'apprentissage d'une langue (Niveau A1) sont livrées oralement dans la langue maternelle de l'apprenant. Nos MOOCS sont complétés par une mesure du degré d'engagement et la mise en place de stratégies de ré-engagement, en analysant les émotions et en échangeant avec l'apprenant au travers de nos agents conversationnels interactifs émotionnels
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Semios est une solution assurant la relecture automatique des spécifications, cahiers des charges et documentations techniques. Elle signale les différentes incohérences, inexactitudes ou ambiguïtés impliquant des risques d'interprétation, et anticipe ainsi toutes les conséquences industrielles induites.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...

Ces études de cas peuvent aussi vous intéresser

Aide à la saisie de comptes rendus d'intervention de maintenance

Responsable du service après-vente (SAV) dans une entreprise de fabrication et d’installation de volets roulants, j'envoie quotidiennement des techniciens de maintenance intervenir chez nos clients. Après chaque intervention, ils doivent rédiger un compte rendu (CR) dont une grande partie est pré-remplie à l’aide de notre logiciel de gestion de maintenance assistée par ordinateur (GMAO). Il reste cependant une zone de texte libre à renseigner, quel que soit le type d’intervention (corrective, préventive ou curative). Le clavier des tablettes et téléphones qu’utilisent nos techniciens ne permet pas de le faire rapidement. La reconnaissance vocale peut-elle faciliter la tâche de nos techniciens lors de rédaction de leurs CR, tout en s'intégrant aisément à notre application de GMAO ?

Classer la polarité des avis clients de manière fine

Je suis responsable du service après-vente d'un site de vente en ligne et nous avons actuellement un système de prédiction automatique permettant de classer les avis de clients comme positifs, négatifs et neutres. Cependant, nous aimerions un système de détection qui, au lieu de donner une étiquette globale à un texte entier, fournisse des informations à un niveau plus fin. Existe-t-il des solutions de ce genre ?

Qualifier automatiquement les leads : un gain de temps et de précision

Je suis responsable commercial du service de ventes en ligne pour une entreprise de vente de produits sportifs, et dans le cadre du processus de gestion de nos leads, je souhaite disposer d'une solution pour aider les commerciaux de mon équipe à qualifier automatiquement les leads et à les classer en fonction de leur profil ou de leurs intentions d'achat.