RGPD: comment anonymiser des données textuelles

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comment rendre les données textuelles compatibles avec la législation sur les données personnelles ?

Les directives concernant la protection des données à caractère personnel sont assez claires concernant les données structurées et les procédures bien décrites par la CNIL pour appliquer correctement le RGPD. En revanche, les modalités de manipulation et surtout de conservation des données textuelles restent parfois floue.

Si par exemple je désire garder les avis consommateurs collectés sur un site de vente en ligne pour estimer le potentiel d'un nouveau produit à venir (par exemple via de l'analyse des émotions), je désire à la fois garder le texte de ces avis, mais je dois le faire en conformité avec les directives de protection des données personnelles.

Comment supprimer les liens nominatifs présents dans les données textuelles ?

La solution

Anonymisation, pseudonymisation de données textuelles

Si vous désirez effectuer des traitements sur des données textuelles et que vous n'avez pas obtenu le consentement des utilisateurs pour ce traitement, vous devez vous assurer que les principes du RGPD sont respectés préalablement à tout stockage et tout traitement. Cette étape est importante car la CNIL nous rappelle qu'il ne faut jamais considérer une donnée comme a priori neutre du point de vue de la protection des données personnelles.

Les principes, qui vous seront confirmés par votre DPO sont les suivants :

  • L’individualisation : est-il toujours possible d’isoler un individu ?
  • La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?
  • L’inférence : peut-on déduire de l’information sur un individu ?

Si les principes ne sont pas respectés, il vous faudra étudier les risques de ré-identification avant même de stocker les données. Par exemple, un message mentionnant une adresse ou un numéro client présente de forts risques qu'un tiers puisse identifier l'émetteur du message, même si toutes les méta-données associées ont été correctement masquées. Le principe d'individualisation risque donc de ne pas être assuré si l'on garde tels quels les verbatims pour un usage ultérieur.

La reconnaissance d'entités, un premier outil

La plupart des éléments qui permettent d'identifier un individu se présentent sous la forme de ce que les spécialistes de l'IA multilingue appellent des entités nommées, c'est-à-dire des objets dont la seule expression permet de désigner un objet du monde (un nom de personne, une adresse, un numéro de téléphone, etc.). Les systèmes d'analyse sémantique proposent fréquemment des modules pour extraire les entités nommées. Les objets reconnus varient selon les systèmes, mais ils sont en général capables de reconnaître :

  • les noms propres (de personnes et d'organisation),
  • les numéros de téléphone et autres identifiants,
  • les adresses et noms de lieu.

Il est souvent possible de les étendre à des entités spécifiques pour un corpus donné, par règles ou par apprentissage.

Masquage des entités

Une fois ces entités reconnues dans le texte, il est possible de les masquer, réduisant ainsi grandement le risque de ré-identification.

On peut procéder par anonymisation, c'est-à-dire remplacer le texte de l'entité par une chaîne de caractères aléatoire ou par un marqueur conventionnel comme par exemple  ***.

L'alternative est de procéder par pseudonymisation, c'est-à-dire de remplacer les entités reconnues chaque fois par la même entité (par exemple, on remplacera toutes les occurrences de "le patron du magasin Sam-le-Pirate de Montreuil" par "le patron du magasin Brol de Poudlard"). La pseudonymisation permet des traitements plus fins, comme par exemple compter s'il y a eu beaucoup de magasins différents mentionnés dans les commentaires, même si les noms de ces magasins sont masqués. En revanche, la CNIL nous prévient que le niveau de risque est plus élevé, particulièrement si la table de "mapping" entre les entités et leurs pseudonymes est conservée. Pseudonymisation n'est pas anonymisation.

Points d'attention

Il est important d'étudier précisément la nature des données et les risques associés. Une anonymisation automatique peut se révéler insuffisante, d'une part parce que les systèmes d'IA multilingue n'ont pas une précision de 100% sur la reconnaissance d'entités. La performance de ces systèmes est de l'ordre de 90%, ce qui signifie qu'une mention d'entité sur 10 risque de "passer au travers" du filtre automatique.

L'autre écueil des procédures automatiques est que même si l'anonymisation est parfaite, il est parfois possible de ré-identifier une personne via le contexte. Un exemple flagrant peut être trouvé dans l'anonymisation des décisions de justice. Celles-ci sont mises en ligne en open-data, suite à une phase de pseudonymisation, dans lesquelles les noms des accusés et plaignants sont remplacé par des lettres (X, Y, Z, ...). On y trouve par exemple une décision de 2000 mentionnant un "M. Jacques Y..., à l'époque des faits maire de Paris et aujourd'hui Président de la République" (voir legifrance.fr). Point n'est besoin d'algorithme complexe pour effectuer une ré-identification.

Le traitement automatique n'est donc qu'un outil au service du RGPD. Le risque associé aux données résultantes doit être étudié et validé par le DPO.

Par Hugues de Mazancourt
Président de l'APIL

Ils peuvent vous aider

Demande de mise en relation concernant l'étude de cas RGPD: comment anonymiser des données textuelles
Veuillez recopier le texte ci-dessous afin de pouvoir envoyer votre message. Attention aux majuscules !
 
Callity est né en 2018 du constat que les solutions de Quality Monitoring et de Speech Analytics traditionnelles étaient dépassées. Qui peut dire aujourd’hui qu’il exploite pleinement l’ensemble de ses interactions clients ? Personne ! Chez Callity nous oeuvrons pour changer cela via une plateforme SaaS moderne, utilisant pleinement les possibilités offertes par l'intelligence artificielle, qui permette aux marques d'exploiter 100% des conversations clients et les transformer en stratégies d'acquisition, de fidélisation et de formation efficaces.
 
Semantiweb apporte un décodage marketing des contenus conversationnels spontanés des internautes. Cette expertise donne une valeur stratégique aux annonceurs, permet de créer une intimité clients, détecte les tendances de consommation et traduit les insights des marchés en les rendant opérationnels pour l’entreprise, la marque et le produit.
 
Automatisation de la relation client via des interfaces conversationnelles et des chatbots. Clustaar permet aux marques d'aider leurs clients en répondant automatiquement à des demandes d'informations ou de support.
 
Lingua Custodia est une Fintech leader du Traitement Automatique des Langues (TAL) pour la Finance basée en France et au Luxembourg. Elle a développé son expertise avec une offre pointue de traduction automatique spécialisée par type de document financier. La société propose aujourd'hui également des services de transcription automatique, des services d'analyse linguistique de document et des services d'extraction de données via sa plateforme en ligne ou par API. Ses clients sont des institutions financières et les départements financiers de grandes sociétés et ETI.
 
QWAM développe des solutions logicielles d'intelligence artificielle appliquée au traitement du langage naturel. Nos solutions combinent les approches sémantiques, big data, machine learning et deep learning. QWAM intervient pour répondre aux besoins d'exploitation avancée des données textuelles existantes au sein des entreprises et organisations ou bien disponibles sur le web.
 
Leader des technologies d'investigation et services pour la sécurité globale.
 
Synapse est expert en Intelligence Artificielle appliquée au texte. Notre raison d'être est d'accompagner nos clients dans la transmission de leurs connaissances. En ce sens, Synapse intervient tout au niveau de 3 leviers : - Créer de la connaissance, à travers un outil d'aide à l'écriture qui permet d'écrire l'esprit libre : Cordial. - Structurer de la connaissance, à travers des outils d'analyse sémantique. - Partager de la connaissance, à travers un chatbot capable de se connecter à la documentation d'une entreprise et de générer automatiquement sa base de connaissances.
 
Datapolitics met la donnée au service de l'action publique. La data est partout, volumineuse, et peu structurée : son utilisation dépasse rapidement le cadre du fichier Excel. Avec Datapolitics, passez la vitesse supérieure en bénéficiant des multiples possibilités offertes par la datascience. Propulsez vos contenus au meilleur niveau grâce à nos algorithmes et nos intelligences artificielles. Nous collectons aujourd'hui les prises de position des gouvernants ou de ceux qui aspirent à le devenir et produisons des analyses automatiques au travers de la plateforme Hedwige.
 
Kairntech développe une plateforme d'IA visant à démocratiser et accélérer le développement d'applications basées sur le TAL au sein de l’entreprise. L’objectif est de pouvoir créer rapidement et sans programmation des robots permettant d’analyser automatiquement de grandes quantités de texte avec une très grande précision, faisant économiser du temps et des efforts. Nous aidons les professionnels de l’information et les analystes (auditeurs, analystes marketing, chercheurs scientifiques, enquêteurs…) à bâtir des applications pour gagner en efficacité tout en prenant de meilleures décisions.
 
Agir chaque jour dans votre intérêt, et celui de la société.
 
L'APIL, association à but non lucratif, rassemble l'expertise des personnes et des industriels du traitement automatique des langues. Elle a pour ambition de promouvoir le traitement automatique des langues auprès des utilisateurs, qu'ils soient industriels ou grand public. Nous animons un réseau d'expertise en collaboration avec les acteurs spécialisés du domaine : forum JeunesTalents en collaboration avec l'ATALA, les rencontres entre membres industriels, ou l'accompagnement de projets collaboratifs innovants en partenariat international.

Vous fournissez de telles solutions et vous souhaitez faire partie de nos partenaires, contactez-nous.

Les technologies à mettre en oeuvre

Analyse sémantique
Signifiant, signifié, de quoi parle-t-on ? Au tout début du XXème siècle, Louis Fer­di­nand de Saus­sure, dans ses Cours de lin­guis­tique Géné­rale, explo­rait la dif­fé­rence entre...
Extraction d'information, de quoi s'agit-il ?
L’extraction d’information, à quoi ça sert ? L’ex­trac­tion d’in­for­ma­tion consiste à iden­ti­fier, dans des textes en langue natu­relle, des infor­ma­tions types : noms de per­sonnes ou de...

Ces études de cas peuvent aussi vous intéresser

Mettre en place une veille scientifique multilingue

Je suis responsable produits/R&D dans le domaine pharmaceutique, et je souhaite mettre en place une veille multilingue.

Tendances selfcare et modernisation du support client

Je suis directeur du support client chez un fournisseur de télévision par satellite. J’ai pour objectif de mettre en place plus de selfcare et automatiser mon support pour que mes clients trouvent plus rapidement les informations qu’ils recherchent. En parallèle, je dois faire baisser les coûts du support client. Alors, comment faire ?

Exploiter efficacement les bases de brevets

En tant que responsable R&D, il est important pour moi d’exploiter les bases de données de brevets dans mon domaine d’activités pour m'assurer que la société ne va pas investir du temps et de l'argent dans un projet qui pourrait être considéré comme une violation de brevet. Cependant, la volumétrie des données disponibles est considérable. A titre d’exemple, l’Office Européen des Brevets donne accès à plus de 140 millions documents de brevets. Le Traitement Automatique des Langues peut-il m’aider à mieux présélectionner des brevets via un fournisseur de brevets et ensuite à en faire un tri efficace ?