Ce post a pour but de récapituler les informations réglementaires concernant les notions de désidentification et d’anonymisation dans le cadre du traitement automatique des langues, qui s’appuie sur des données issues de sujets humains sous la forme de textes.
L’anonymisation lève la nécessité de consentement
Les données personnelles sont dites sensibles si elles portent sur la santé (y compris données biométriques et génétiques), l’orientation sexuelle, l’appartenance religieuse, politique ou syndicale des personnes [1].
La réglementation européenne encadre de manière très stricte l’utilisation de ces données qui n’est permise qu’avec la validation d’un comité éthique et le consentement éclairé des personnes concernées. La qualification d’une base de données comme « anonyme » a un impact sur les personnes dont les données sont inclues dans la base: leur consentement n’est pas requis pour la diffusion et l’utilisation de données anonymisées.
Anonymiser, c’est rompre de façon irréversible le lien entre données et personnes
Anonymiser des données demande de garantir la conformité avec trois critères définis par la réglementation. Nous reprenons ici la formulation validée par des juristes proposée par le comité d’éthique de Sorbonne Université [2]:
-
il ne doit pas être possible d’isoler un individu dans le jeu de données
-
il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu
-
il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.
Désidentifier, c’est brouiller les pistes pour cacher le lien entre données et personnes
Désidentifier permet de transformer des données personnelles de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire. Cela consiste à remplacer les données directement identifiantes (par exemple, nom, prénom) d’un jeu de données par des données indirectement identifiantes (substitut plausible, numéro séquentiel, désignation de la catégorie de données).
Comme l’explique la note du comité d’éthique de Sorbonne Université [2], la réglementation stipule que:
une correspondance avec l’identité des individus (par exemple, clé de chiffrement ou table de correspondance entre données identifiantes et substituts) doit être stockée dans un autre lieu que les données, et avec un accès contrôlé limité.
Cependant, même si cette correspondance venait à être perdue ou effacée, cela ne rend pas les données anonymes pour autant. En effet, si la possibilité de retrouver ou de reconstituer la correspondance individus/données existe, cela signifie que la ré-identification est possible. La ré-identification est considérée comme possible:
- quels que soit les moyens à employer pour y parvenir (par exemple, l’accès à une base de donnée tierce)
- même si la ré-identification ne concerne que certains individus
Il est important de noter que la législation relative à la protection des données personnelles reste applicable aux données désidentifiées, également appelées « données pseudonymisées ».
Et mon corpus dans tout ça?
En TAL typiquement, un corpus est considéré comme une base de données. Il est possible de désidentifier un texte en remplaçant dans le texte des données directement identifiantes, en utilisant différentes stratégies, comme présenté dans les exemples (fictifs) ci-dessous:
28 Juin 2022 – Ce jour, Mr. Martin, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (texte original)
<crypt_d=12056789> – Ce jour, Mr. <crypt_n=12cby567gt0987gt7h>, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par chiffrement des données directement identifiantes)
DATE – Ce jour, Mr. X, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des génériques)
14 Juin 2015 – Ce jour, Mr. Dupond, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des substituts plausibles)
Dans l’ensemble de ces exemples, la connaissance externe de l’anecdote (non présentation d’un patient schizophrénique à un examen à cause d’une activité spécifique) permet la ré-identification du patient. Ce texte n’est donc pas anonyme, et n’est pas anonymisable par simple traitement des données directement identifiantes.
De manière générale, la désidentification d’un texte n’apporte aucune garantie d’anonymisation.
Références
[1] https://www.cnil.fr/fr/definition/donnee-sensible
[2] https://cer.sorbonne-universite.fr/ressources-ethiques