Réplicabilité vs protection des données : l’impossible équilibre

Depuis quelques années, nous assistons et participons à l’essor de préoccupations éthiques dans la communauté de l’intelligence artificielle et en particulier du traitement automatique des langues et de la parole. Dans ce cadre, deux tendances se sont en particulier développées : la réplicabilité des expériences et la protection des données personnelles.
Ces tendances ont émergé de la volonté de la communauté de produire une « meilleure » recherche, plus éthique, plus responsable, plus durable. Or, elles entrent souvent en contradiction, ce qui pose pour certains la question de leur crédibilité.
Nous visons ici à mieux définir ce dont il est question et les enjeux associés, afin de permettre un débat informé dans la communauté.

Réplicabilité des expériences

Réplicabilité vs reproductibilité

Les termes de reproductibilité et de réplicabilité ont été utilisés dans la littérature, parfois de manière interchangeable, parfois pour désigner des activités différentes. Il s’agit par exemple du fait de réunir les mêmes conditions expérimentales (matériel et méthodes) pour reproduire une expérience à l’identique. Il peut également s’agir de reproduire une expérience avec des variations dans le matériel (par exemple, un corpus) ou les méthodes (par exemple, le type de pré-traitement appliqué à ce corpus). Suite au constat du manque de consensus sur la définition même du terme de reproductibilité en Traitement Automatique de la Langue, (Cohen et al., 2018) proposent de distinguer trois dimensions de la reproductibilité que sont la reproductibilité d’une valeur, d’un résultat et d’une conclusion.

  • La reproductibilité d’une valeur consiste à reproduire une expérience et obtenir la même valeur chiffrée que celle rapportée précédemment (par exemple, une F-mesure de 0,85). L’absence de reproductibilité d’une valeur n’est pas nécessairement un échec – il est typiquement attendu qu’un algorithme non déterministe produise des valeurs différentes à chaque itération.
  • La reproductibilité d’un résultat consiste à reproduire une expérience et obtenir la même observation que celle rapportée précédemment (par exemple, la performance du système A est supérieure à celle du système B). Une expérimentation robuste devrait permettre la reproductibilité d’un résultat, lorsque des conditions expérimentales identiques sont réunies.
  • La reproductibilité d’une conclusion consiste à reproduire une expérience et arriver à la même conclusion que celle rapportée précédemment (par exemple, la méthode M obtient d’excellentes performances pour la tâche T).

Malgré les nuances apportées, le terme de reproductibilité désigne là le fait de reproduire une expérience à l’identique – du moins autant que possible. Nous montrerons dans la suite de ce post que cela n’est pas évident. Nous retiendrons par ailleurs le terme de réplicabilité pour désigner le fait de reproduire une expérience en introduisant des variations volontaires afin d’étudier la robustesse et la « généralisabilité » d’un processus expérimental.

Répliquer quelle partie de l’expérience ?

On peut donc envisager tout un spectre dans le cadre de la réplication d’expériences selon que l’on s’intéresse à reproduire un modèle primaire ou à l’utiliser dans un nouveau cadre.
La question se pose des expériences portant sur des systèmes « complexes » c’est à dire qui imbriquent différents modèles et typiquement les systèmes de TAL qui exploitent des plongements dits « généralistes » voire « universels » qui sont ensuite mis à jour, adaptés etc. sur une tâche précise. Des projets comme la plateforme GLUE (Wang et al. 2018) ont pour objet de faciliter les comparaisons directes entre modèles de langue.

Protection des données

Des données pas données

Ces modèles sont d’autant plus efficaces qu’ils sont entraînés sur de grandes quantités de données. Se pose alors la question de leur disponibilité.
D’une part, pour de très nombreuses langues (la majorité des 7 000 langues recensées sur Ethnologue), ces grandes masses de données sont inexistantes. Ainsi, le corpus OSCAR ne comprend « que » 1 166 langues.
D’autre part, lorsque de grandes masses de données existent pour une langue, elles proviennent très majoritairement du Web dont elles ont été aspirées, ce qui ne pose pas de problème juridique dans les pays anglophones, où le fair use est de mise (dans la mesure où ces données ne sont utilisées que pour des buts de recherche ou d’enseignement), mais qui pose question juridiquement en France, par exemple.

Fournir les modèles ?

Extraire des données à partir d’un modèle d’apprentissage automatique constitue un domaine de recherche à part entière qui fait l’objet de plusieurs méthodes d’attaques, respectivement connues sous le nom de model inversion attacks, membership inference attacks, ou encore GAN-based attacks, etc. Nous parlons bien sûr d’attaques uniquement lorsque les données sur lesquelles le modèle automatique a été entraîné ne sont pas des données publiques sous licence libres, car dans ce cas, mener une telle attaque sur un modèle peut révéler des données qui n’étaient pas censées l’être.

Le cas typique problématique est celui des corpus contenant des données privées, comme la plupart des corpus textuels issus des réseaux sociaux ou extraits du Web. Ce domaine de recherche comporte de nombreux travaux mettant en évidence la possibilité d’extraire des données privées à partir de la plupart des modèles d’apprentissage. Ainsi, (Fredrikson et al., 2014) montrent qu’il est possible d’extraire des informations personnelles sur les génomes à partir de classifieurs linéaires, ou encore de retrouver des informations sensibles à partir d’arbres de décision ou de réseaux neuronaux en exploitant les mesures de confiance, lorsqu’elles sont fournies en sortie du système (Fredrikson et al., 2015).
De même que la plupart des systèmes pouvant être attaqués, des mesures de défense ont été proposées, parmi lesquelles nous pouvons citer la differential privacy (Abadi et al., 2016), l’encryption homomorphique ou encore l’apprentissage fédéré, méthodes qui à leur tour sont le sujet de contre-attaques (Cheu et al., 2019), et ainsi de suite.

Une situation particulière est celle des modèles profonds génératifs, comme les modèles de langage, qui sont utilisés aujourd’hui dans quasiment tous les services de traitement automatique des langues, y compris la reconnaissance de la parole, la traduction automatique, les systèmes de question-réponse, de résumé automatique, d’agents conversationnels, de plongements contextuels de mots ou de phrase, etc. Ces modèles sont particulièrement sensibles car ils sont entraînés sur de grands corpus qui contiennent inévitablement des données personnelles, et sont largement diffusés ou accessibles aujourd’hui à un large public, soit directement, soit au travers de services, comme l’aide à la rédaction de SMS, la correction orthographique, et peuvent donc faire l’objet d’attaques en « boîte noire » ou non. Une publication jointe de chercheurs de Google et des Universités de Berkeley et de Singapour (Carlini et al., 2016) étudie ce problème particulier en proposant une approche pour quantifier les risques encourus de retrouver des données privées comme des numéros de carte de crédits dans de tels modèles. Ces travaux montrent que l’ajout de bruit modéré dans le processus d’apprentissage, comme préconisé par la méthode de differential privacy, constitue une parade efficace contre ce type d’attaques.
Toutefois, d’autres travaux (Leino & Fredrikson, 2019) proposent une nouvelle forme d’attaque par membership inference qui exploite les idiosyncrasies des données du corpus d’apprentissage. Or, il est également montré dans ces travaux que lorsque l’on réalise un apprentissage par (, δ)-differential privacy avec des valeurs relativement grandes (Jayaraman et al., 2019), malgré des pertes substantielles en taux de reconnaissance, le modèle reste sensible au type d’attaque proposé.

En conclusion, les attaques sur les modèles de deep learning et leurs défenses respectives constituent un champs de recherche très actif, et il n’existe pas de solution à l’heure actuelle permettant de garantir que des données privées dans les corpus d’apprentissage ne puissent pas être extraites des modèles.

Quel avenir pour la recherche « non reproductible » car réalisée sur des données non partageables?

La crise du COVID-19 a mis la recherche sous les projecteurs de l’actualité, en particulier sur le sujet de la reproductibilité. Ainsi, une étude publiée dans la prestigieuse revue médicale Lancet (Mehra et al. 2020) a fait l’objet d’une rétraction décrite ainsi dans la presse grand public:

« Coup sur coup, deux des plus grandes revues médicales mondiales ont procédé à la rétractation d’articles ayant trait au Covid-19, fondés sur des données fournies par une société américaine, Surgisphere, et à l’origine, désormais, plus que douteuse. »

Le Monde, 4 Juin 2020

Cependant, la lecture attentive de la mise en garde ayant conduit à la rétractation indique que les auteurs «n’ont pas été en mesure d’effectuer un audit indépendant des données qui sous-tendent leur analyse ». Cela signifie que des données médicales confidentielles n’ont pas pu être partagées hors de l’hôpital dans lequel les patients ont été pris en charge. Sans prendre position sur ce cas particulier que nous ne connaissons que par voie de presse, il nous semble mettre à jour une question intéressante concernant la recherche sur des données confidentielles.

Est-ce que pour autant, un travail réalisé sur des données non partageables (car confidentielles) mérite de ne pas être pas publié ? Selon nous, l’intérêt supérieur du patient et son droit à la confidentialité priment. Par ailleurs, refuser la publication de travaux réalisés sur des données non partageables implique pour les chercheurs de choisir entre 1/travailler sur des données non partageables et avoir de fortes contraintes de publication ou 2/ travailler sur des données partageables et être libre de publier. Dans le contexte de recherche actuel où la publication est l’un des moyens principaux de valoriser le travail de recherche, cela pousserait les chercheurs à se détourner de certains domaines de recherche. Ce problème est particulièrement prégnant pour le TAL clinique dans les langues autres que l’anglais, puisque les textes cliniques sont, par nature, impossibles à anonymiser au sens de la législation européenne.

Mazancourt et al. ont proposé la notion de « tiers de confiance » ou de « cercle garant », avec un exemple de mise en oeuvre sur un corpus de courriers électroniques (Mazancourt et al. 2014). Cependant, on peut se demander dans quelle mesure cette démarche est applicable pour un corpus clinique ?



Conclusion

Si les risques liés à la diffusion de modèles semblent pour l’instant limités et si les efforts de partage de données et de modèles reposent sur des intentions louables, il est important de rappeler que la diffusion de modèles n’est éthique et réglementaire qu’avec l’assurance que ceux-ci ne comprennent que des données libres.

Nous en sommes loin.

Pire, nos modes d’évaluation nous poussent dans la direction opposée : pour publier dans une conférence sélective, il faut beaucoup de données (ce n’est obligatoire, mais ça aide bien) et pour publier rapidement, on ne v|peut pas toujours vérifier les sources de ces données.

Pire encore, la tendance, positive, à fournir les moyens de répliquer l’expérience, pousse à publier des corpus pas toujours très « propres », pour faire de la recherche propre !

Dans un tel contexte, avec peu d’incitation pour une recherche plus lente, plus respectueuse des données, les individus qui font cet effort se retrouvent souvent moins bien évalués. C’est un cercle vicieux, un problème systémique que la création de comités d’éthique dans les conférences EMNLP 2020, puis NAACL 2021 ne règle pas totalement, puisque les lois ne sont pas les mêmes partout dans le monde (en particulier concernant le fair use).

On pourrait envisager la création d’un « label rouge » des modèles et des résultats état de l’art, mais encore faudrait-il en définir les critères et trouver des gens pour l’appliquer…

Aujourd’hui, les grosses compagnies entraînent leurs modèles sur le Web entier sans (trop) se poser de question. Mais est-ce que bigger data sera vraiment better data ? Est-ce qu’elles vont arriver à créer un modèle du monde ? Pour quelles langues ? Pour quels citoyens ? Quel rôle devons-nous jouer face à elles, avec elles ?

Ces questions nous concernent non seulement en tant que chercheurs, mais également (surtout) en tant que citoyens.

Karën Fort, Aurélie Névéol, Sophie Rosset et Christophe Cerisara

Références

A BADI M., CHU A., GOODFELLOW I., MC MAHAN H. B., MIRONOV I., T ALWAR K. & ZHANG L. (2016). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, p. 308–318.

CARLINI N., LIU C., ERLINGSSON Ú., KOS J. & SONG D. (2016). The secret sharer : Evaluating and testing unintended memorization in neural networks. In 28th {USENIX} Security Symposium ({USENIX} Security 19), p. 267–284, Santa Clara, CA, USA.

CHEU A., SMITH A. & ULLMAN J. (2019). Manipulation attacks in local differential privacy. arXiv preprint arXiv :1909.09630.

COHEN K. B., XIA J., ZWEIGENBAUM P., CALLAHAN T., HARGRAVES O., GOSS F., IDE N., NÉVÉOL A., GROUIN C. & H UNTER L. E. (2018). Three Dimensions of Reproducibility in Natural Language Processing. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).

DE MAZANCOURT H., COUILLAULT A., RECOURCÉ G. (2014). L’anonymisation, pierre d’achoppement pour le traitement automatique des courriels. Journée d’Etude ATALA Ethique et TAL, Nov 2014, Paris, France. http://www.schplaf.org/kf/pdf/mazancourt-couillault-recourceJEEthiqueTal.pdf

FREDRIKSON M., JHA S. & RISTENPART T. (2015). Model inversion attacks that exploit confidence information and basic countermeasures. In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, p. 1322–1333.

FREDRIKSON M., LANTZ E., JHA S., LIN S., PAGE D. & T. R. (2014). Privacy in pharmacogenetics : An end-to-end case study of personalized warfarin dosing. In USENIX Security Symposium, p. 17–32.

JAYARAMAN B. & EVANS D. (2019). Evaluating Differential Private Machine Learning in Practice. In USENIX Security Symposium, p. 1895-1912.

LEINO K. & FREDRIKSON M. (2019). Stolen memories : Leveraging model memorization for calibrated white-box membership inference. arXiv preprint arXiv :1906.11798.


MEHRA MR, DESAI SS, RUSCHITZKA F & PATEL AN. (2020). RETRACTED: Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19: a multinational registry analysis. Lancet. Published:May 22, 2020 DOI:https://doi.org/10.1016/S0140-6736(20)31180-6

WANG A., SINGH A., MICHAEL J., HILL F., LEVY O. & BOWMAN S. (2018). GLUE : A multitask benchmark and analysis platform for natural language understanding. In Proceedings of the 2018 EMNLP Workshop BlackboxNLP : Analyzing and Interpreting Neural Networks for NLP, p. 353–355, Brussels, Belgium : Association for Computational Linguistics. doi : 10.18653/v1/W18-5446.