RGPD: comment anonymiser des données textuelles

Le besoin

Comment rendre les données textuelles compatibles avec la législation sur les données personnelles ?

Les directives concernant la protection des données à caractère personnel sont assez claires concernant les données structurées et les procédures bien décrites par la CNIL pour appliquer correctement le RGPD. En revanche, les modalités de manipulation et surtout de conservation des données textuelles restent parfois floue.

Si par exemple je désire garder les avis consommateurs collectés sur un site de vente en ligne pour estimer le potentiel d'un nouveau produit à venir (par exemple via de l'analyse des émotions), je désire à la fois garder le texte de ces avis, mais je dois le faire en conformité avec les directives de protection des données personnelles.

Comment supprimer les liens nominatifs présents dans les données textuelles ?

La solution

Anonymisation, pseudonymisation de données textuelles

Si vous désirez effectuer des traitements sur des données textuelles et que vous n'avez pas obtenu le consentement des utilisateurs pour ce traitement, vous devez vous assurer que les principes du RGPD sont respectés préalablement à tout stockage et tout traitement. Cette étape est importante car la CNIL nous rappelle qu'il ne faut jamais considérer une donnée comme a priori neutre du point de vue de la protection des données personnelles.

Les principes, qui vous seront confirmés par votre DPO sont les suivants :

L’individualisation : est-il toujours possible d’isoler un individu ?
La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?
L’inférence : peut-on déduire de l’information sur un individu ?

Si les principes ne sont pas respectés, il vous faudra étudier les risques de ré-identification avant même de stocker les données. Par exemple, un message mentionnant une adresse ou un numéro client présente de forts risques qu'un tiers puisse identifier l'émetteur du message, même si toutes les méta-données associées ont été correctement masquées. Le principe d'individualisation risque donc de ne pas être assuré si l'on garde tels quels les verbatims pour un usage ultérieur.

La reconnaissance d'entités, un premier outil

La plupart des éléments qui permettent d'identifier un individu se présentent sous la forme de ce que les spécialistes de l'IA multilingue appellent des entités nommées, c'est-à-dire des objets dont la seule expression permet de désigner un objet du monde (un nom de personne, une adresse, un numéro de téléphone, etc.). Les systèmes d'analyse sémantique proposent fréquemment des modules pour extraire les entités nommées. Les objets reconnus varient selon les systèmes, mais ils sont en général capables de reconnaître :

les noms propres (de personnes et d'organisation),
les numéros de téléphone et autres identifiants,
les adresses et noms de lieu.

Il est souvent possible de les étendre à des entités spécifiques pour un corpus donné, par règles ou par apprentissage.

Masquage des entités

Une fois ces entités reconnues dans le texte, il est possible de les masquer, réduisant ainsi grandement le risque de ré-identification.

On peut procéder par anonymisation, c'est-à-dire remplacer le texte de l'entité par une chaîne de caractères aléatoire ou par un marqueur conventionnel comme par exemple ***.

L'alternative est de procéder par pseudonymisation, c'est-à-dire de remplacer les entités reconnues chaque fois par la même entité (par exemple, on remplacera toutes les occurrences de "le patron du magasin Sam-le-Pirate de Montreuil" par "le patron du magasin Brol de Poudlard"). La pseudonymisation permet des traitements plus fins, comme par exemple compter s'il y a eu beaucoup de magasins différents mentionnés dans les commentaires, même si les noms de ces magasins sont masqués. En revanche, la CNIL nous prévient que le niveau de risque est plus élevé, particulièrement si la table de "mapping" entre les entités et leurs pseudonymes est conservée. Pseudonymisation n'est pas anonymisation.

Le besoin

Comment rendre les données textuelles compatibles avec la législation sur les données personnelles ?

La solution

Anonymisation, pseudonymisation de données textuelles

La reconnaissance d'entités, un premier outil

Masquage des entités

Points d'attention

Le TAL pour la révision des normes d’écriture de documents techniques

Étude de marché automatisée : une force de travail Multi-Agents pour l’analyse des tendances

Génération de données synthétiques : produire des commentaires de réseaux sociaux pour mieux préparer une campagne marketing grâce à l’ingénierie de prompt