RGPD: comment anonymiser des données textuelles

|

|

Le besoin
La solution
Ils peuvent vous aider

Le besoin

Comment rendre les données textuelles compatibles avec la législation sur les données personnelles ?

Les directives concernant la protection des données à caractère personnel sont assez claires concernant les données structurées et les procédures bien décrites par la CNIL pour appliquer correctement le RGPD. En revanche, les modalités de manipulation et surtout de conservation des données textuelles restent parfois floue.

Si par exemple je désire garder les avis consommateurs collectés sur un site de vente en ligne pour estimer le potentiel d'un nouveau produit à venir (par exemple via de l'analyse des émotions), je désire à la fois garder le texte de ces avis, mais je dois le faire en conformité avec les directives de protection des données personnelles.

Comment supprimer les liens nominatifs présents dans les données textuelles ?

La solution

Anonymisation, pseudonymisation de données textuelles

Si vous désirez effectuer des traitements sur des données textuelles et que vous n'avez pas obtenu le consentement des utilisateurs pour ce traitement, vous devez vous assurer que les principes du RGPD sont respectés préalablement à tout stockage et tout traitement. Cette étape est importante car la CNIL nous rappelle qu'il ne faut jamais considérer une donnée comme a priori neutre du point de vue de la protection des données personnelles.

Les principes, qui vous seront confirmés par votre DPO sont les suivants :

  • L’individualisation : est-il toujours possible d’isoler un individu ?
  • La corrélation : est-il possible de relier entre eux des ensembles de données distincts concernant un même individu ?
  • L’inférence : peut-on déduire de l’information sur un individu ?

Si les principes ne sont pas respectés, il vous faudra étudier les risques de ré-identification avant même de stocker les données. Par exemple, un message mentionnant une adresse ou un numéro client présente de forts risques qu'un tiers puisse identifier l'émetteur du message, même si toutes les méta-données associées ont été correctement masquées. Le principe d'individualisation risque donc de ne pas être assuré si l'on garde tels quels les verbatims pour un usage ultérieur.

La reconnaissance d'entités, un premier outil

La plupart des éléments qui permettent d'identifier un individu se présentent sous la forme de ce que les spécialistes de l'IA multilingue appellent des entités nommées, c'est-à-dire des objets dont la seule expression permet de désigner un objet du monde (un nom de personne, une adresse, un numéro de téléphone, etc.). Les systèmes d'analyse sémantique proposent fréquemment des modules pour extraire les entités nommées. Les objets reconnus varient selon les systèmes, mais ils sont en général capables de reconnaître :

  • les noms propres (de personnes et d'organisation),
  • les numéros de téléphone et autres identifiants,
  • les adresses et noms de lieu.

Il est souvent possible de les étendre à des entités spécifiques pour un corpus donné, par règles ou par apprentissage.

Masquage des entités

Une fois ces entités reconnues dans le texte, il est possible de les masquer, réduisant ainsi grandement le risque de ré-identification.

On peut procéder par anonymisation, c'est-à-dire remplacer le texte de l'entité par une chaîne de caractères aléatoire ou par un marqueur conventionnel comme par exemple  ***.

L'alternative est de procéder par pseudonymisation, c'est-à-dire de remplacer les entités reconnues chaque fois par la même entité (par exemple, on remplacera toutes les occurrences de "le patron du magasin Sam-le-Pirate de Montreuil" par "le patron du magasin Brol de Poudlard"). La pseudonymisation permet des traitements plus fins, comme par exemple compter s'il y a eu beaucoup de magasins différents mentionnés dans les commentaires, même si les noms de ces magasins sont masqués. En revanche, la CNIL nous prévient que le niveau de risque est plus élevé, particulièrement si la table de "mapping" entre les entités et leurs pseudonymes est conservée. Pseudonymisation n'est pas anonymisation.

Points d'attention

Il est important d'étudier précisément la nature des données et les risques associés. Une anonymisation automatique peut se révéler insuffisante, d'une part parce que les systèmes d'IA multilingue n'ont pas une précision de 100% sur la reconnaissance d'entités. La performance de ces systèmes est de l'ordre de 90%, ce qui signifie qu'une mention d'entité sur 10 risque de "passer au travers" du filtre automatique.

L'autre écueil des procédures automatiques est que même si l'anonymisation est parfaite, il est parfois possible de ré-identifier une personne via le contexte. Un exemple flagrant peut être trouvé dans l'anonymisation des décisions de justice. Celles-ci sont mises en ligne en open-data, suite à une phase de pseudonymisation, dans lesquelles les noms des accusés et plaignants sont remplacé par des lettres (X, Y, Z, ...). On y trouve par exemple une décision de 2000 mentionnant un "M. Jacques Y..., à l'époque des faits maire de Paris et aujourd'hui Président de la République" (voir legifrance.fr). Point n'est besoin d'algorithme complexe pour effectuer une ré-identification.

Le traitement automatique n'est donc qu'un outil au service du RGPD. Le risque associé aux données résultantes doit être étudié et validé par le DPO.

Par Hugues de Mazancourt
Président de l'APIL