Réplicabilité vs protection des données : l’impossible équilibre

Depuis quelques années, nous assistons et participons à l’essor de préoccupations éthiques dans la communauté de l’intelligence artificielle et en particulier du traitement automatique des langues et de la parole. Dans ce cadre, deux tendances se sont en particulier développées : la réplicabilité des expériences et la protection des données personnelles.
Ces tendances ont émergé de la volonté de la communauté de produire une « meilleure » recherche, plus éthique, plus responsable, plus durable. Or, elles entrent souvent en contradiction, ce qui pose pour certains la question de leur crédibilité.
Nous visons ici à mieux définir ce dont il est question et les enjeux associés, afin de permettre un débat informé dans la communauté.

Réplicabilité des expériences

Réplicabilité vs reproductibilité

Les termes de reproductibilité et de réplicabilité ont été utilisés dans la littérature, parfois de manière interchangeable, parfois pour désigner des activités différentes. Il s’agit par exemple du fait de réunir les mêmes conditions expérimentales (matériel et méthodes) pour reproduire une expérience à l’identique. Il peut également s’agir de reproduire une expérience avec des variations dans le matériel (par exemple, un corpus) ou les méthodes (par exemple, le type de pré-traitement appliqué à ce corpus). Suite au constat du manque de consensus sur la définition même du terme de reproductibilité en Traitement Automatique de la Langue, (Cohen et al., 2018) proposent de distinguer trois dimensions de la reproductibilité que sont la reproductibilité d’une valeur, d’un résultat et d’une conclusion.

  • La reproductibilité d’une valeur consiste à reproduire une expérience et obtenir la même valeur chiffrée que celle rapportée précédemment (par exemple, une F-mesure de 0,85). L’absence de reproductibilité d’une valeur n’est pas nécessairement un échec – il est typiquement attendu qu’un algorithme non déterministe produise des valeurs différentes à chaque itération.
  • La reproductibilité d’un résultat consiste à reproduire une expérience et obtenir la même observation que celle rapportée précédemment (par exemple, la performance du système A est supérieure à celle du système B). Une expérimentation robuste devrait permettre la reproductibilité d’un résultat, lorsque des conditions expérimentales identiques sont réunies.
  • La reproductibilité d’une conclusion consiste à reproduire une expérience et arriver à la même conclusion que celle rapportée précédemment (par exemple, la méthode M obtient d’excellentes performances pour la tâche T).

Malgré les nuances apportées, le terme de reproductibilité désigne là le fait de reproduire une expérience à l’identique – du moins autant que possible. Nous montrerons dans la suite de ce post que cela n’est pas évident. Nous retiendrons par ailleurs le terme de réplicabilité pour désigner le fait de reproduire une expérience en introduisant des variations volontaires afin d’étudier la robustesse et la « généralisabilité » d’un processus expérimental.

Répliquer quelle partie de l’expérience ?

On peut donc envisager tout un spectre dans le cadre de la réplication d’expériences selon que l’on s’intéresse à reproduire un modèle primaire ou à l’utiliser dans un nouveau cadre.
La question se pose des expériences portant sur des systèmes « complexes » c’est à dire qui imbriquent différents modèles et typiquement les systèmes de TAL qui exploitent des plongements dits « généralistes » voire « universels » qui sont ensuite mis à jour, adaptés etc. sur une tâche précise. Des projets comme la plateforme GLUE (Wang et al. 2018) ont pour objet de faciliter les comparaisons directes entre modèles de langue.

Protection des données

Des données pas données

Ces modèles sont d’autant plus efficaces qu’ils sont entraînés sur de grandes quantités de données. Se pose alors la question de leur disponibilité.
D’une part, pour de très nombreuses langues (la majorité des 7 000 langues recensées sur Ethnologue), ces grandes masses de données sont inexistantes. Ainsi, le corpus OSCAR ne comprend « que » 1 166 langues.
D’autre part, lorsque de grandes masses de données existent pour une langue, elles proviennent très majoritairement du Web dont elles ont été aspirées, ce qui ne pose pas de problème juridique dans les pays anglophones, où le fair use est de mise (dans la mesure où ces données ne sont utilisées que pour des buts de recherche ou d’enseignement), mais qui pose question juridiquement en France, par exemple.

Fournir les modèles ?

Extraire des données à partir d’un modèle d’apprentissage automatique constitue un domaine de recherche à part entière qui fait l’objet de plusieurs méthodes d’attaques, respectivement connues sous le nom de model inversion attacks, membership inference attacks, ou encore GAN-based attacks, etc. Nous parlons bien sûr d’attaques uniquement lorsque les données sur lesquelles le modèle automatique a été entraîné ne sont pas des données publiques sous licence libres, car dans ce cas, mener une telle attaque sur un modèle peut révéler des données qui n’étaient pas censées l’être.

Le cas typique problématique est celui des corpus contenant des données privées, comme la plupart des corpus textuels issus des réseaux sociaux ou extraits du Web. Ce domaine de recherche comporte de nombreux travaux mettant en évidence la possibilité d’extraire des données privées à partir de la plupart des modèles d’apprentissage. Ainsi, (Fredrikson et al., 2014) montrent qu’il est possible d’extraire des informations personnelles sur les génomes à partir de classifieurs linéaires, ou encore de retrouver des informations sensibles à partir d’arbres de décision ou de réseaux neuronaux en exploitant les mesures de confiance, lorsqu’elles sont fournies en sortie du système (Fredrikson et al., 2015).
De même que la plupart des systèmes pouvant être attaqués, des mesures de défense ont été proposées, parmi lesquelles nous pouvons citer la differential privacy (Abadi et al., 2016), l’encryption homomorphique ou encore l’apprentissage fédéré, méthodes qui à leur tour sont le sujet de contre-attaques (Cheu et al., 2019), et ainsi de suite.

Une situation particulière est celle des modèles profonds génératifs, comme les modèles de langage, qui sont utilisés aujourd’hui dans quasiment tous les services de traitement automatique des langues, y compris la reconnaissance de la parole, la traduction automatique, les systèmes de question-réponse, de résumé automatique, d’agents conversationnels, de plongements contextuels de mots ou de phrase, etc. Ces modèles sont particulièrement sensibles car ils sont entraînés sur de grands corpus qui contiennent inévitablement des données personnelles, et sont largement diffusés ou accessibles aujourd’hui à un large public, soit directement, soit au travers de services, comme l’aide à la rédaction de SMS, la correction orthographique, et peuvent donc faire l’objet d’attaques en « boîte noire » ou non. Une publication jointe de chercheurs de Google et des Universités de Berkeley et de Singapour (Carlini et al., 2016) étudie ce problème particulier en proposant une approche pour quantifier les risques encourus de retrouver des données privées comme des numéros de carte de crédits dans de tels modèles. Ces travaux montrent que l’ajout de bruit modéré dans le processus d’apprentissage, comme préconisé par la méthode de differential privacy, constitue une parade efficace contre ce type d’attaques.
Toutefois, d’autres travaux (Leino & Fredrikson, 2019) proposent une nouvelle forme d’attaque par membership inference qui exploite les idiosyncrasies des données du corpus d’apprentissage. Or, il est également montré dans ces travaux que lorsque l’on réalise un apprentissage par (, δ)-differential privacy avec des valeurs relativement grandes (Jayaraman et al., 2019), malgré des pertes substantielles en taux de reconnaissance, le modèle reste sensible au type d’attaque proposé.

En conclusion, les attaques sur les modèles de deep learning et leurs défenses respectives constituent un champs de recherche très actif, et il n’existe pas de solution à l’heure actuelle permettant de garantir que des données privées dans les corpus d’apprentissage ne puissent pas être extraites des modèles.

Quel avenir pour la recherche « non reproductible » car réalisée sur des données non partageables?

La crise du COVID-19 a mis la recherche sous les projecteurs de l’actualité, en particulier sur le sujet de la reproductibilité. Ainsi, une étude publiée dans la prestigieuse revue médicale Lancet (Mehra et al. 2020) a fait l’objet d’une rétraction décrite ainsi dans la presse grand public:

« Coup sur coup, deux des plus grandes revues médicales mondiales ont procédé à la rétractation d’articles ayant trait au Covid-19, fondés sur des données fournies par une société américaine, Surgisphere, et à l’origine, désormais, plus que douteuse. »

Le Monde, 4 Juin 2020

Cependant, la lecture attentive de la mise en garde ayant conduit à la rétractation indique que les auteurs «n’ont pas été en mesure d’effectuer un audit indépendant des données qui sous-tendent leur analyse ». Cela signifie que des données médicales confidentielles n’ont pas pu être partagées hors de l’hôpital dans lequel les patients ont été pris en charge. Sans prendre position sur ce cas particulier que nous ne connaissons que par voie de presse, il nous semble mettre à jour une question intéressante concernant la recherche sur des données confidentielles.

Est-ce que pour autant, un travail réalisé sur des données non partageables (car confidentielles) mérite de ne pas être pas publié ? Selon nous, l’intérêt supérieur du patient et son droit à la confidentialité priment. Par ailleurs, refuser la publication de travaux réalisés sur des données non partageables implique pour les chercheurs de choisir entre 1/travailler sur des données non partageables et avoir de fortes contraintes de publication ou 2/ travailler sur des données partageables et être libre de publier. Dans le contexte de recherche actuel où la publication est l’un des moyens principaux de valoriser le travail de recherche, cela pousserait les chercheurs à se détourner de certains domaines de recherche. Ce problème est particulièrement prégnant pour le TAL clinique dans les langues autres que l’anglais, puisque les textes cliniques sont, par nature, impossibles à anonymiser au sens de la législation européenne.

Mazancourt et al. ont proposé la notion de « tiers de confiance » ou de « cercle garant », avec un exemple de mise en oeuvre sur un corpus de courriers électroniques (Mazancourt et al. 2014). Cependant, on peut se demander dans quelle mesure cette démarche est applicable pour un corpus clinique ?



Conclusion

Si les risques liés à la diffusion de modèles semblent pour l’instant limités et si les efforts de partage de données et de modèles reposent sur des intentions louables, il est important de rappeler que la diffusion de modèles n’est éthique et réglementaire qu’avec l’assurance que ceux-ci ne comprennent que des données libres.

Nous en sommes loin.

Pire, nos modes d’évaluation nous poussent dans la direction opposée : pour publier dans une conférence sélective, il faut beaucoup de données (ce n’est obligatoire, mais ça aide bien) et pour publier rapidement, on ne v|peut pas toujours vérifier les sources de ces données.

Pire encore, la tendance, positive, à fournir les moyens de répliquer l’expérience, pousse à publier des corpus pas toujours très « propres », pour faire de la recherche propre !

Dans un tel contexte, avec peu d’incitation pour une recherche plus lente, plus respectueuse des données, les individus qui font cet effort se retrouvent souvent moins bien évalués. C’est un cercle vicieux, un problème systémique que la création de comités d’éthique dans les conférences EMNLP 2020, puis NAACL 2021 ne règle pas totalement, puisque les lois ne sont pas les mêmes partout dans le monde (en particulier concernant le fair use).

On pourrait envisager la création d’un « label rouge » des modèles et des résultats état de l’art, mais encore faudrait-il en définir les critères et trouver des gens pour l’appliquer…

Aujourd’hui, les grosses compagnies entraînent leurs modèles sur le Web entier sans (trop) se poser de question. Mais est-ce que bigger data sera vraiment better data ? Est-ce qu’elles vont arriver à créer un modèle du monde ? Pour quelles langues ? Pour quels citoyens ? Quel rôle devons-nous jouer face à elles, avec elles ?

Ces questions nous concernent non seulement en tant que chercheurs, mais également (surtout) en tant que citoyens.

Karën Fort, Aurélie Névéol, Sophie Rosset et Christophe Cerisara

Références

A BADI M., CHU A., GOODFELLOW I., MC MAHAN H. B., MIRONOV I., T ALWAR K. & ZHANG L. (2016). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, p. 308–318.

CARLINI N., LIU C., ERLINGSSON Ú., KOS J. & SONG D. (2016). The secret sharer : Evaluating and testing unintended memorization in neural networks. In 28th {USENIX} Security Symposium ({USENIX} Security 19), p. 267–284, Santa Clara, CA, USA.

CHEU A., SMITH A. & ULLMAN J. (2019). Manipulation attacks in local differential privacy. arXiv preprint arXiv :1909.09630.

COHEN K. B., XIA J., ZWEIGENBAUM P., CALLAHAN T., HARGRAVES O., GOSS F., IDE N., NÉVÉOL A., GROUIN C. & H UNTER L. E. (2018). Three Dimensions of Reproducibility in Natural Language Processing. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).

DE MAZANCOURT H., COUILLAULT A., RECOURCÉ G. (2014). L’anonymisation, pierre d’achoppement pour le traitement automatique des courriels. Journée d’Etude ATALA Ethique et TAL, Nov 2014, Paris, France. http://www.schplaf.org/kf/pdf/mazancourt-couillault-recourceJEEthiqueTal.pdf

FREDRIKSON M., JHA S. & RISTENPART T. (2015). Model inversion attacks that exploit confidence information and basic countermeasures. In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, p. 1322–1333.

FREDRIKSON M., LANTZ E., JHA S., LIN S., PAGE D. & T. R. (2014). Privacy in pharmacogenetics : An end-to-end case study of personalized warfarin dosing. In USENIX Security Symposium, p. 17–32.

JAYARAMAN B. & EVANS D. (2019). Evaluating Differential Private Machine Learning in Practice. In USENIX Security Symposium, p. 1895-1912.

LEINO K. & FREDRIKSON M. (2019). Stolen memories : Leveraging model memorization for calibrated white-box membership inference. arXiv preprint arXiv :1906.11798.


MEHRA MR, DESAI SS, RUSCHITZKA F & PATEL AN. (2020). RETRACTED: Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19: a multinational registry analysis. Lancet. Published:May 22, 2020 DOI:https://doi.org/10.1016/S0140-6736(20)31180-6

WANG A., SINGH A., MICHAEL J., HILL F., LEVY O. & BOWMAN S. (2018). GLUE : A multitask benchmark and analysis platform for natural language understanding. In Proceedings of the 2018 EMNLP Workshop BlackboxNLP : Analyzing and Interpreting Neural Networks for NLP, p. 353–355, Brussels, Belgium : Association for Computational Linguistics. doi : 10.18653/v1/W18-5446.

Microtravail : au service de qui ?

Le nouveau média https://www.caracteres.media m’a interviewée sur le sujet du microtravail (microworking crowdsourcing).

La journaliste, Flora Cortès a fait du beau boulot et présente le sujet de manière pédagogique, mais complète.

C’est ici : https://www.caracteres.media/micro-travail-economie-du-clic-au-service-de-intelligence-artificielle/

Relecture par les pairs : un état de l’art

Nous en discutons entre nous depuis presque un an, le sujet va et vient, la motivation pour écrire aussi… nous avons tant de choses à dire,
à contredire !

Je me lance, donc, en espérant de l’aide — Aurélie Névéol a répondu présente, ceci est donc un article à quatre mains — : quels sont les mécanismes possibles de relecture par les pairs ? ceux qui sont appliqués autour de nous ?  les options (auxquelles nous ne pensons même pas) ? leurs avantages ? leurs inconvénients ? y a-t-il des études menées sur le sujet ?
Bref, des données ! (#datalove)

Méthodes de relecture par les pairs

Il existe quatre principaux types de fonctionnement des relectures par les pairs, prenant en compte l’anonymat ou non des auteurs.trices et/ou des relecteurs.trices. On a ainsi :

  1. le double ouvert  : les auteurs.trices ne sont pas anonymes pour les relecteurs.trices et les relecteurs.trices signent leur relecture (les auteurs.trices savent qui les a relus). C’est le cas de certaines revues du groupe BMC, comme BMC Medical Informatics and Decision Making (qui comptait le 15/03/2017 186 articles publiés sur une thématique de TAL biomédical). Les revues signées ainsi que les réponses des auteurs.trices aux commentaires des relecteurs.trices sont disponibles publiquement dans la rubrique « pre-publication history » associée à chaque article publié.
  2. son pendant, le double aveugle : les auteurs.trices sont anonymisés lors de la soumission de l’article (les relecteurs.trices ne savent a priori pas qui ils/elles sont) et les relecteurs.trices ne signent pas leur relecture. C’est le cas pour TALN depuis quelques années, d’ACL, de COLING et de beaucoup d’autres conférences (il s’agit plus ou moins de la norme).
  3. le simple aveugle : les auteurs.trices ne sont pas anonymes, mais les relecteurs.trices oui. C’était le cas à TALN avant (quand ?) et c’est toujours le cas à LREC, et dans certaines revues comme BMC Bioinformatics (qui comptait le 16/03/2017 905 articles publiés sur une thématique de TAL biomédical).
  4. le cas, très rare et qui n’a pas de nom (si ?), où les auteurs.trices sont anonymes mais pas les relecteurs.trices. La revue DISCOURS, qui permet aux relecteurs.trices de signer leur relecture, permet ce cas de figure, puisque les auteurs.trices sont anonymes.

Enjeux de la méthode de relecture

Avant de rentrer dans le détail des avantages et inconvénients de chacune, il est important de noter qu’au-delà du choix principal, de nombreuses options existent, qui modifient plus ou moins la donne et qui sont tout aussi importantes.
C’est en particulier le cas des interactions entre relecteurs.trices, voire avec les auteurs.trices. Ainsi, dans la plupart des conférences, les relecteurs.trices peuvent voir leurs relectures respectives (une fois la leur entrée), voire leur nom (c’était le cas à TALN il y a quelques années, ce n’est plus possible aujourd’hui), voire, comme pour ACL, disposent de temps pour communiquer entre eux/elles et éventuellement modifier leur relecture et leur évaluation de l’article.

Par ailleurs, ACL propose une période (courte) de rebutal, pendant laquelle les auteurs.trices peuvent répondre aux remarques des relecteurs.trices, qui pourront être amenés à corriger leur évaluation. Cet échange entre auteurs.trices et relecteurs.trices est courant dans les revues, moins dans les conférences. Vue l’importance prise par les conférences dans le domaine du traitement automatique des langues, il semble logique que leur fonctionnement se rapproche de celui d’une revue.

Il faut ajouter à ces éléments le fait de savoir ou non qui est responsable de la track/area : si le processus est totalement décrit pour ACL (en particulier cette année, principalement via le blog des responsables), il ne l’est pas pour TALN. Les revues adoptent également des fonctionnements différents. Dans certains cas, l’éditeur.trice scientifique associé.e à un article ou un numéro sera clairement identifié.e auprès des auteurs.trices pendant la phase de relecture (c’est le cas pour les revues TAL ou BMC Bioinformatics, mais pas pour JAMIA) et cette information sera publiquement visible une fois l’article publié (c’est le cas pour la revue TAL, mais pas pour BMC Bioinformatics).

Pourquoi est-ce que tous ces points sont importants ? Tout simplement pour (tenter de) limiter les biais, les conflits d’intérêts et les relectures de mauvaise qualité. Un processus ouvert permet à plus d’yeux de vérifier si les auteurs.trices ne sont pas en conflit d’intérêt avec les relecteurs.trices (encore faut-il définir ce qu’est un conflit d’intérêt, là encore, ACL fournit des bases de réflexion). Il permet également de dénoncer les mauvaises relectures : un.e responsable de track/area est censé.e lire toutes les relectures, mais il est courant qu’il/elle passe à côté de certains problèmes, par ailleurs, des critiques émises par les co-relecteurs ET par le/la responsable ont un poids d’autant plus important.

Inciter les relecteurs.trices à écrire de bonnes relectures (constructives et respectueuses) peut également passer par des actions positives, comme le prix du/de la meilleur.e relecteur.trice (attribué à LTC ou à l’AMIA), ou la mise en valeur de leur travail par le biais d’un post de blog.

Avantages et inconvénients des méthodes de relecture par les pairs

Le principe de la relecture par les pairs est de permettre une évaluation scientifique des articles publiés, qui soit également indépendante des auteurs.trices.  Les différentes méthodes de relectures proposées ont donc pour but de maximiser les paramètres suivants :

garantie d’indépendance des relectures : l’anonymat des relecteurs.trices a été introduit pour s’assurer qu’ils puissent s’exprimer librement et indépendamment de leur rapport futur avec les auteurs.trices. De même, l’anonymat des auteurs.trices a été introduit afin de les protéger de tout biais (notamment genré) ou préjugé associé à leur identité (par exemple l’institution d’origine) et de focaliser la relecture sur le travail réalisé.

garantie de qualité des relectures : le principe de relecture ouverte est de s’assurer que les relecteurs.trices endossent bien la responsabilité de leur relectures. Il s’accompagne d’une hausse globale de la qualité des relectures [1] mais également d’une baisse de la sincérité des relecteurs.trices par crainte d’éventuelles futures représailles [2].

et, accessoirement :

facilité de gestion des relectures par l’éditeur de la revue : besoin éventuel de « caviarder » des relectures anonymes injurieuses [3], facilité de recrutement des relecteurs.trices (15 % de refus en plus pour le système ouvert d’après une comparaison des chiffres de deux revues d’informatique biomédicale ayant adopté un système différent : BMC Bioinformatics et BMC Biomedical Informatics and Decision Making [Daniel Shanahan communication personnelle]), facilité de mise en œuvre dans le cadre d’un comité éditorial [l’expérience de la revue TAL montre que le double aveugle induit des difficultés logistiques pour procéder à l’affectation des relecteurs.trices en préservant l’anonymat tout en gérant les conflits d’intérêt].

La gestion des revues par des systèmes informatisés permet de collecter un grand nombre d’informations sur les différentes étapes du processus, qui peuvent maintenant être exploitées pour prendre du recul et étudier l’influence des différents paramètres en jeu. Une étude réalisée avec les données issues de 14 conférences en informatique montre par exemple l’importance du dialogue entre relecteurs.trices et du facteur « chance » par rapport à d’autres leviers comme la réponse des auteurs.trices pour permettre la sélection d’articles de qualité [4].

ConclusionS

La transparence des processus génère (beaucoup) plus de travail, donc de temps, pour les organisateurs (y compris area/track chairs) et pour les relecteurs.trices (qui doivent être plus attentifs lors de l’écriture de leur relecture). Mais n’est-ce pas le prix à payer pour la qualité ?

J'(Karën Fort)étais personnellement pour le double ouvert, avant que je lise des papiers qui montrent les biais genrés [5], envers les institutions prestigieuses [6] et les auteurs.trices connus [7], bien que ces effets ne soient pas toujours constatés [8]. Je favoriserais maintenant davantage un système hybride de double aveugle dans un premier temps (avant relecture), puis d’ouverture : les relecteurs.trices voient leurs relectures (et leurs noms), les discutent entre eux, et les auteurs.trices voient les relectures, y répondent, et lorsque tout est terminé, tout le monde voit les noms de tout le monde.

En ce qui concerne l’anonymat ou non des relecteurs.trices (qui ne représente que la partie émergée de l’iceberg, vous l’aurez compris), une possibilité intermédiaire serait de donner le choix aux relecteurs.trices de signer ou non leur relecture (comme dans le cas de la revue DISCOURS). Cela aurait l’avantage de ne forcer personne et de permettre aux relecteurs.trices de s’habituer et de se tester dans cet « exercice ». Mon expérience personnelle est qu’il est beaucoup plus facile de signer une relecture positive ou dans sa langue maternelle qu’une négative ou en anglais (du fait de la finesse de vocabulaire nécessaire).

Je (Aurélie) pense qu’il faut certainement plus d’études comme [4] pour bien réfléchir aux avantages et inconvénients des différents systèmes, et ne pas sous-estimer la part de l’aléatoire qui ne peut être éliminée du processus d’évaluation.

Et vous, vous en pensez quoi (si vous avez des références, nous sommes preneuses) ?

Karën Fort et Aurélie Névéol

Références

[1] Kowalczuk, M. K., Dudbridge, F., Nanda, S., Harriman, S. L., & Moylan, E. C. (2013). A comparison of the quality of reviewer reports from author-suggested reviewers and editor-suggested reviewers in journals operating on open or closed peer review models. F1000 Posters, 4, 1252.

[2] Khan K. Is open peer review the fairest system? No. BMJ. 2010;341:c6425. doi: 10.1136/bmj.c6425.
[3] Groves T. Is open peer review the fairest system? Yes. BMJ. 2010;341:c6424. doi: 10.1136/bmj.c6424.
[4] Zhu J, Fung G, Wong WH, Li Z, Xu C. Evaluating the Pros and Cons of Different Peer Review Policies via Simulation. Sci Eng Ethics. 2016 Aug;22(4):1073-94.
[5] Kaatz A, Gutierrez B, Carnes M. Threats to objectivity in peer review: the case of gender. Trends in pharmacological sciences. 2014;35(8):371-373.
[6] Tomkins A, Zhang M, Heavlin W. Single vs. Double Blind Reviewing at WSDM,  https://arxiv.org/pdf/1702.00502.pdf
[7] Okike K, Hug KT, Kocher MS, Leopold SS. Single-blind vs Double-blind Peer Review in the Setting of Author Prestige. JAMA. 2016 Sep 27;316(12):1315-6.
[8] van Rooyen S, Godlee F, Evans S, Smith R, Black N. Effect of blinding and unmasking on the quality of peer review: a randomized trial. JAMA. 1998 Jul
15;280(3):234-7.

Prendre le temps de célébrer : le numéro spécial de la revue TAL « TAL et éthique »

Nous passons notre temps à courir. D’une activité à l’autre, d’une vie à l’autre, d’un désir à l’autre. Nous célébrons peu, car les réalisations doivent se succéder, à un rythme de plus en plus soutenu. Pour obtenir un poste. Pour trouver un financement. Pour faire carrière. Pour ne pas avoir à penser trop à ce que nous faisons de nos vies.

En cette nouvelle année, je nous souhaite de trouver la volonté de prendre le temps. En particulier le temps de célébrer nos réussites, le résultat de nos efforts, si peu considérés, alors que nos échecs font si souvent l’objet de d’analyses, de relectures, de signalements. Bien entendu, il est sain de faire cette démarche et si naturel pour des scientifiques… Cependant, quelqu’un m’a fait remarquer il y a peu que fêter nos réussites est tout aussi important, pour entretenir l’envie et faire vivre les collectifs.

Je souhaite donc ici célébrer le numéro spécial de la revue TAL consacré à l’éthique, publié (en ligne, gratuitement) in extremis (encore une question de temps) juste avant Noël, après plus d’un an et demi de travail :

https://www.atala.org/IMG/pdf/Book_57-2-2.pdf

Revue TAL "TAL et éthique"Je suis fière de ce volume, sur le fonds, sur la forme, et sur ce qu’il dit de notre communauté de chercheurs/ses. C’est le premier numéro de revue centré sur le sujet, et il émane de la communauté francophone. Il a été construit grâce au travail d’un collectif très large, comprenant les rédacteurs en chef invités (Gilles Adda, K. Bretonnel Cohen et moi-même), l’un des rédacteurs en chef de la revue TAL (Jean-Luc Minel), les membres du comité de lecture (ceux listés ici et ceux du comité de rédaction de la revue TAL), les auteurs des papiers (soumis et acceptés), le comité de rédaction de la revue (CR) et la relectrice. J’ai été l’initiatrice du projet et j’en ai assuré le suivi, mais je n’étais pas seule et jamais je n’aurais pu le mener à bien sans l’aide, le conseil et l’énergie non seulement de mes co-rédacteurs en chef, mais également d’autres personnes autour (je pense en particulier aux membres du CR de ce blog).

Le résultat est très beau sur la forme, grâce au travail minutieux des auteurs, des relecteurs et de la relectrice (une véritable professionnelle, dont le travail d’harmonisation est indispensable).

Sur le fonds, je vous laisse juger par vous-même. Prenez le temps de lire les articles 😉
Quant à moi, j’ai beaucoup appris.

Contenu du numéro

Processus de création

Nous avons reçu sept propositions d’articles anonymisées (seuls JL Minel et moi-même pouvions voir les noms des auteurs et nous n’avons pas participé à la relecture). Nous avons dû rejeter l’une d’entre elles pour une question de forme (article trop court), sans relecture.

Le processus de relecture de la revue TAL comprend deux phases, au terme desquelles trois articles ont été sélectionnés.

Nous (les rédacteurs en chef invités) avons rédigé l’introduction, qui a été relue (cette fois-ci, c’est du double ouvert) par les rédacteurs en chef de la revue TAL (membres du CR), corrigée, puis de nouveau relue et corrigée (tout cela assez vite, car le temps – encore lui – pressait). J’ai également fait relire notre travail par les auteurs des articles du numéro de la revue, afin de vérifier que nous ne disions pas de bêtise concernant leurs articles.

Pour information, un numéro de la revue TAL ne peut contenir plus de cinq articles (y compris l’introduction, si elle est longue, ce qui était le cas ici).

Une fois acceptés, les articles sont dés-anonymisés puis confiés à une relectrice professionnelle, qui envoie ses remarques aux auteurs, qui doivent les prendre en compte pour la publication.

Tout cela est géré par les rédacteurs en chef invités et le CR de la revue TAL, c’est-à-dire par des membres co-optés de notre communauté, qui font ça bénévolement et de manière très « propre » (déontologiquement parlant) : non seulement les articles sont anonymes (et les relecteurs aussi, c’est du double aveugle), mais ils sont assignés (en l’occurrence, par moi, avec accord de JL Minel) à des relecteurs qui ne sont pas du même laboratoire (et a priori pour qui cela ne présente pas de conflit d’intérêt (couples, collaborateurs réguliers, etc)) et les membres du CR (et les invités) qui appartiennent aux laboratoires des auteurs sortent lors des discussions sur les articles.

Bien entendu, rien n’est parfait en ce monde et certains points sont identifiés et en cours d’amélioration (comme la plateforme, peu adaptée au processus de relecture spécifique de la revue), mais c’est notre revue et nous pouvons en être fiers : auto-gérée et en accès libre (vrai open access), c’est une revue dont la qualité est reconnue (je n’ai pas trouvé son classement officiel, mais il me semble qu’elle est classée A).

En ce 1er janvier 2017, je lève donc ma coupe (ma tasse de café, en fait, je me remets doucement…) à ce numéro spécial « TAL et éthique » de la revue TAL et à ceux qui l’ont créé !

Bonne année, éthique et TAL !

PS : certains articles sont déjà cités dans des cours : http://faculty.washington.edu/ebender/2017_575/

 

La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf

L’effet petits poneys roses, (ou de l’intérêt d’aborder les questions éthiques dans la conférence principale…)

Je suis allée présenter les résultats des enquêtes éthique et TAL (on en parlait ici, l’article complet est ici) à une conférence bien connue du domaine, LREC (Language Resources and Evaluation Conference), en Slovénie.
J’avais en outre un papier accepté dans un atelier périphérique à la conférence centré sur l’éthique, ETHI-CA², qui a eu lieu le mardi précédent la conférence principale. L’ordre de succession de ces deux événements a son importance.

L’atelier était très intéressant, non seulement dans la variété des contenus présentés mais également du fait de la riche discussion qui a suivi. Les questions posées par le public de chercheurs étaient constructives et l’ambiance détendue. Nous nous sommes rencontrés, avons échangé des idées, des suggestions. Je suis sortie revigorée, pleine de beaux projets, des jolis petits poneys roses pleins les yeux.

La conférence principale, LREC, est immense, avec trois ou quatre sessions en parallèle, des posters dans tous les coins et plusieurs centaines de participants. La salle qui était dévolue à notre session était très grande et devait contenir plus d’une cinquantaine de personnes lors de ma présentation. L’ambiance n’était pas hostile, mais pas particulièrement intéressée non plus : la session n’était pas spécifiquement dédiée à l’éthique, mais plutôt à des thématiques générales (Language Resource Policies).

J’avais beaucoup préparé ma présentation (trop ?), voulant donner le plus de résultats dans les 15 minutes octroyées. Au final, je n’ai pas été formidable, et j’ai fini en avance. J’étais contente d’avoir plus de temps pour les questions. J’avais encore les petits poneys roses de l’atelier ETHICA² plein la tête.

Je m’étais préparée à répondre à des questions difficiles, mais j’avoue que la première m’a désarçonnée : « peux-tu nous citer un outil de TAL qui pose un problème éthique ? Je n’en vois pas » ….
J’ai évidemment tout de suite donné un exemple (le moteur de recherche de Google), mais pas le plus percutant. Puis j’ai donné celui des aides à la communication qui font régresser les utilisateurs (voir Anaïs Lefeuvre et al., dont la présentation est ici). Je n’ai cependant pas l’impression d’avoir convaincu.

Le deuxième intervenant a dit quelque chose que je n’ai pas pu bien entendre, mais qui tournait apparemment autour de l’affirmation que l’éthique était du domaine du citoyen et pas du chercheur. A ce moment-là, il n’y avait plus vraiment de temps pour répondre et j’ai dit quelque chose autour du fait qu’il fallait en discuter, mais mon temps était terminé.

Moralité : pas de petit poney rose dans la conférence principale !

Je suis sortie déçue de ma prestation, avec l’impression d’être passée à côté de quelque chose. Et pourtant… c’est bien à ces questions qu’il faut répondre pour faire avancer la prise de conscience, c’est bien à ces chercheurs, qui ne sont pas convaincus de l’intérêt de l’éthique dans le TAL, qu’il faut parler.
Aussi.

C’est pour éviter l’effet petits poneys qu’il faut aborder l’éthique dans la conférence principale, et pas seulement dans des ateliers, même si ceux-ci sont indispensables (ne serait-ce que pour ne pas sombrer dans l’alcool en sortant d’une telle session !).

Au final, j’ai obtenu suite à cette présentation que l’appel général de la prochaine conférence LREC, en 2018, contienne un paragraphe sur l’éthique. Cette fois je serai prête et je laisserai les petits poneys au vestiaire ! Et si vous envoyez un papier sur le sujet, je serai là, dans le public, et je vous poserai une question, promis.

Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole [1]

Nous présentons ici les résultats d’une enquête sur l’éthique dans le Traitement Automatique des Langues et de la Parole, menée auprès de chercheurs et d’industriels de ce domaine.

Pour des raisons de commodité de lecture, ce post présente les réponses aux questions fermées. Un prochain traitera des questions ouvertes et des commentaires.

Motivations

Le questionnaire a été réalisé très rapidement (pour pouvoir en disposer pendant  la conférence JEP-TALN 2015), suite à la très intéressante journée Ethique de la  CERNA (Commission de réflexion sur l’éthique de la recherche en sciences et technologies du numérique d’Allistene).

La question principale que nous nous posions était de savoir dans quelle mesure les chercheurs en TAL/P francophone se sentent responsables de l’utilisation faite de leurs recherches (moral buffer). D’autres questions sont apparues rapidement, notamment celle de savoir si les universités proposent des sensibilisations à l’éthique.
Enfin, d’autres nous sont venues en liaison avec des remarques entendues lors de séminaires ou de rencontres.
Le questionnaire a bien entendu été créé avec un biais en faveur d’une meilleure prise en compte des questions d’éthique dans nos pratiques de chercheurs, mais il n’a pas empêché les personnes étant en désaccord de s’exprimer, ce qu’elles ont fait, vous allez le voir, et nous les en remercions.

Participation

Suite à la publicité réalisée pendant JEP-TALN, sur la liste LN et par mails personnels, et malgré quelques problèmes de connexion, 102 personnes ont participé à l’enquête, entre le 23 juin et le 30  juillet 2015.
Lors des dernières conférences TALN, les organisateurs ont enregistré environ 200 inscrits (200 en 2013, 195 en 2014 et 180 en 2015), nous considérons donc cette enquête représentative de la communauté française du TAL/P  dans son ensemble.

Réponses et (début d’)analyse

Le questionnaire comprenait majoritairement des questions fermées, toutes facultatives. Chaque personne a laissé en moyenne moins de deux questions sans réponse. Les non-réponses et les réponses « ne sais pas » ont été traitées par LimeSurvey comme équivalentes.

Responsabilité des chercheurs

Question : « Vous considérez-vous responsable des utilisations faites des outils que vous développez ? »

Près de 75 % des chercheurs considèrent qu’ils sont responsables, individuellement ou collectivement, plus précisément :

  • 12,2 % ont répondu à la fois « Oui, c’est tout à fait mon rôle » et « C’est un rôle partagé par l’ensemble de l’équipe »
  • 33,3 % ont répondu « Oui, c’est tout à fait mon rôle
  • 26,7 % ont répondu « C’est un rôle partagé par l’ensemble de l’équipe »
  • 1,1 % ont répondu « C’est le rôle d’un des membres de l’équipe »

Role

Cependant, pour 26,7 % des personnes répondantes, l’utilisation faite des outils qu’elles développent n’est pas de la responsabilité des chercheurs. Ce chiffre confirme qu’il existe en TAL/P comme ailleurs, un moral buffer (tampon moral ?). Nous espérons que ce blog et les différentes actions de sensibilisation menées permettront de le faire diminuer, car si nous ne nous sentons pas responsables et que le grand public et les politiques ne comprennent pas vraiment les capacités réelles des outils que nous développons (voir plus loin), personne ne se sentira la légitimité d’agir en cas d’utilisation néfaste, contraire aux droits de l’homme par exemple.

Données personnelles

Questions : « Doit-il selon vous y avoir une exception recherche sur l’usage des données personnelles ? » et « Un statut particulier pour la recherche des données personnelles vous permettrait-il de lancer de nouveaux travaux ? »

Les données personnelles, au sens de la CNIL, sont toutes les données qui permettent d’identifier, directement ou indirectement, un individu. Cette définition couvre ainsi un large éventail de données : données d’identification, mais également informations déposées sur un réseau social, ou n’importe quel texte, dès lors que ce texte ou ces données permettent, par les indices qu’ils contiennent, ou par le croisement d’indices, de (ré)-identifier un individu.

A la question de la nécessité ou non d’un statut particulier de ces données pour la recherche :

  • 1,4 % ont répondu à la fois « non » et « les données utilisées pour une expérience doivent être mises à disposition des évaluateurs et/ou de l’ensemble de la communauté scientifique »
  • 4,2 % ont répondu « toutes les données doivent être disponibles pour la recherche »
  • 56,3 % ont répondu « oui, sous certaines conditions »
  • 14,1 % ont répondu « les données utilisées pour une expérience doivent être mises à disposition des évaluateurs et/ou de l’ensemble de la communauté scientifique »
  • 19,7 % ont répondu « Non »

Outre les considérations éthiques que ce point soulève, notons que le recueil et le traitement des données personnelles est soumis à des obligations fortes, dont le non-respect est passible d'emprisonnement ou de conséquences financières lourdes.

Commentaires des répondants

La question « Doit-il selon vous y avoir une exception recherche sur l’usage des données personnelles ? » donnait la possibilité d’insérer des commentaires, que nous reproduirons dans un post à venir.

Refus d’un projet pour raisons éthiques

Question : « Avez-vous déjà refusé ou limité un projet pour des raisons éthiques ? »

abandon_ANR5

Environ 40 % des répondants affirment avoir refusé ou limité un projet pour des raisons éthiques. Ce résultat, qui peut paraître surprenant — qui l’est pour nous — montre à quel point l’éthique est une problématique actuelle. Cette question aurait cependant mérité d’être affinée (quelles raisons ?).

Pérennisation des données

Question : « Dans vos projets intégrez-vous dès le départ la possibilité de pérenniser et redistribuer vos données ? »

Pereniser_données

Une large majorité affirme intégrer dès le début d’un projet la pérennisation et la redistribution des données. Cela semble un peu contradictoire avec le fait que le français reste encore une langue relativement peu dotée en données langagières (voir Joseph Mariani (LIMSI / CNRS) sur ce sujet, en vidéo), surtout librement disponibles. Cependant, le terme « données » est ambigu et aurait sans doute dû être précisé (« données langagières », par exemple).

Il est intéressant que près de 20 % des répondants avouent ne pas considérer cet aspect dès le début du projet : soit ils le prennent en compte plus tard, soit ils ne le prennent jamais en compte. C’est une question que nous devrons aborder ici.

Rémunération des producteurs de données

Question : « Dans les projets auxquels vous avez participé, savez-vous comment les producteurs de données ont été rémunérés ? »

Remuneration

Là encore, une majorité déclare savoir comment ont été rémunérés les producteurs de données. Reste à valoriser la documentation de cette information, via la Charte Ethique et Big Data, par exemple. Nous avons en effet montré que les articles de recherche concernant les ressources langagières les plus utilisées  ne donnent pas cette information.

Plus de 25 % des personnes interrogées (voire plus de 40 % si on y ajoute les non réponses) déclarent ne pas savoir comment les producteurs de données de leurs projets ont été rémunérés. C’est préoccupant, en particulier avec le développement des plate-formes de myriadisation du travail parcellisé à la Amazon Mechanical Turk, qui posent de nombreux problèmes éthiques.

Limites du TAL vues par les pouvoirs et le grand public(s)

Questions : « Pensez-vous que les pouvoirs publics sont conscients des limites des capacités des outils de TAL ? » et « Pensez-vous que le grand public est conscient des limites des capacités des outils de TAL ? ».

limites

Près de 9 % des répondants (8,8 %) pensent que les pouvoirs publics sont conscients des limites des capacités des outils de TAL, contre 5 % (4,9 %) concernant le grand public.

67,6 % pensent au contraire que les pouvoirs publics n’en sont pas conscients et 75,5 % que le grand public ne l’est pas non plus.

23,5 % et 19,6 % ne répondent pas (ce qui représente un nombre important de personnes), sans doute parce qu’il s’agit de donner ici une impression, non fondée sur des données concrètes. Ces questions mériteraient en effet une enquête sérieuse auprès des pouvoirs publics et du grand public.

Quoi qu’il en soit, ce blog se veut un début de réponse à cette préoccupation, même si rendre accessible à un public plus large la finesse de certaines questions de recherche représente un réel effort, voire du talent. Nous tenons au passage à rendre hommage à notre collègue Jean Véronis, décédé l’année dernière, qui avait su maintenir cet effort sur la durée, non sans talent : http://blog.veronis.fr/.

Formation à l’éthique

Question : « Existe-t-il une sensibilisation à l’éthique dans les formations dans lesquelles vous intervenez ? »

formation

Les réponses négatives sont à rapprocher d’autres réponses du questionnaire : s’il n’y a que peu de sensibilisation à l’éthique dans les formations, comment pourrait-on avoir des chercheurs, des citoyens ou des responsables politiques conscients des enjeux des limites des outils ?

Cependant, les presque 15 % de réponses positives montrent que de telles formations existent, qui pourraient être diffusées plus largement. Ce blog pourrait être le lieu pour les recenser (n’hésitez-pas à nous les signaler en commentaire), ainsi que leur contenu.

Éthique comme sujet dans l’appel général de TALN

Question : « Pensez-vous que l’éthique doit faire partie des sujets de l’appel général de la conférence TALN ? »

TALN

En d’autres termes, les trois quarts des personnes ayant émis un avis pensent qu’il faut inclure le thème dans les prochains appels de TALN. Cela tombe on ne peut mieux puisque l’AG finale de l’association savante du TAL, l’ATALA, a donné son accord pour cela.

Il faudrait bien entendu étendre cette décision à la conférence JEP (parole) et aux conférences internationales (LREC, ACL, COLING, INTERSPEECH, etc). Nous comptons pour cela sur (vous) nos collègues présents dans les différentes instances et associations et tenterons de sensibiliser à cette question autour de nous.

Participation à un groupe de travail éthique dans le TAL

Question : « Êtes-vous d’accord pour participer à un groupe de travail sur l’éthique dans le TAL ? »

TAL

26 personnes nous ont laissé leur adresse mail, dont 21 ne sont pas (encore ?) membre du comité de lecture de ce blog. C’est très encourageant ! Nous allons contacter ces personnes pour les faire travailler envisager des actions communes.

ANR

Question : « Avez-vous décrit dans l’annexe technique les dimensions éthiques des projets que vous avez soumis pour financement (ANR ou autre) ? »

ANR

Cette question donnait la possibilité de laisser un commentaire que l’on trouvera dans un post à venir.

Conclusions

La première conclusion de cette enquête est que le sujet de l’éthique est reconnu comme important par la communauté du TAL/P francophone, ce qui est pour nous une grande satisfaction.

Cela nous encourage à continuer et à proposer d’autres formes d’expression sur la sujet ainsi que d’élargir le questionnement à l’international. Nous comptons en effet réaliser une enquête similaire, en anglais, que nous proposerons à la communauté internationale du TAL/P. Nous y réfléchissons actuellement et sommes preneur/se de vos suggestions, donc n’hésitez-pas à en faire, en commentaire de ce post par exemple.

N’oubliez pas de nous signaler en commentaire les sensibilisations à l’éthique proposées dans des formations.

Karën Fort, Alain Couillault et Jean-Yves Antoine pour les graphiques.

Avis du comité d’éthique du CNRS (COMETS) sur les sciences participatives

Jean-Gabriel Ganascia, membre du Comité d’éthique du CNRS (COMETS), nous a envoyé l’avis que vient d’émettre cette instance concernant les sciences participatives (ou citoyennes). Nous en reproduisons ici le résumé, l’avis complet étant disponible sur le site du COMETS.

Nous reviendrons sur cet avis un peu plus tard pour en fournir un éclairage, en attendant, voici de quoi alimenter la réflexion :

Résumé : Les relations de la science avec la société se sont profondément modifiées au cours de l’histoire. A partir des années 70, la notion de progrès est réinterrogée face aux nouveaux défis environnementaux et sanitaires. Ceci met aujourd’hui au premier plan les questions posées par les citoyens aux chercheurs et aux institutions de recherche, ainsi que le besoin des chercheurs de faire comprendre la nature et l’importance de leur démarche à l’ensemble de la société. Le COMETS affirme ici qu’il y a urgence à construire une relation de confiance entre les citoyens et les scientifiques. Deux voies sont abordées : celle des sciences participatives et celle d’un dialogue science-citoyens renouvelé.

La voie des sciences participatives, en grand développement aujourd’hui grâce à internet, associe les citoyens amateurs aux activités scientifiques pour la collecte des données et parfois la co-création ou l’interprétation des résultats. Il en résulte un apport mutuel considérable, d’une part pour l’enrichissement de la production des connaissances, d’autre part pour la formation des citoyens aux méthodes et à l’esprit scientifique. Cette voie encourage les vocations pour les sciences chez les jeunes. Le COMETS formule des recommandations portant sur l’encadrement des pratiques des réseaux amateurs, sur l’importance de la validation des résultats, sur le respect de l’anonymat lorsqu’il s’agit de données privées, enfin sur le statut et la reconnaissance dus aux contributeurs.

Dans un monde secoué de crises successives et traversé par des controverses sur des sujets sensibles, le COMETS est d’avis que les chercheurs et leurs institutions doivent être à l’écoute des questionnements du public sur l’impact de leurs choix. Tout en réaffirmant l’autonomie du champ scientifique, il estime nécessaire d’engager une réflexion sur les formes à donner au débat public autour des questions de recherche. Il souligne fortement l’importance de la diffusion de la culture scientifique et de sa promotion active à tous les niveaux de la société. Il recommande que les expertises exercées par les scientifiques sur des questions ayant un impact sociétal soient menées à l’abri des conflits d’intérêt, dans un cadre interdisciplinaire et si possible international. Il préconise que le CNRS soutienne l’implication d’équipes de recherche dans l’analyse des perceptions des sciences et encourage les initiatives abordant des thèmes sensibles. Il suggère enfin que le CNRS développe une expertise collective mobilisable pour répondre aux sollicitations des décideurs publics et des instances démocratiques.