Relecture par les pairs : un état de l’art

Nous en discutons entre nous depuis presque un an, le sujet va et vient, la motivation pour écrire aussi… nous avons tant de choses à dire,
à contredire !

Je me lance, donc, en espérant de l’aide — Aurélie Névéol a répondu présente, ceci est donc un article à quatre mains — : quels sont les mécanismes possibles de relecture par les pairs ? ceux qui sont appliqués autour de nous ?  les options (auxquelles nous ne pensons même pas) ? leurs avantages ? leurs inconvénients ? y a-t-il des études menées sur le sujet ?
Bref, des données ! (#datalove)

Méthodes de relecture par les pairs

Il existe quatre principaux types de fonctionnement des relectures par les pairs, prenant en compte l’anonymat ou non des auteurs.trices et/ou des relecteurs.trices. On a ainsi :

  1. le double ouvert  : les auteurs.trices ne sont pas anonymes pour les relecteurs.trices et les relecteurs.trices signent leur relecture (les auteurs.trices savent qui les a relus). C’est le cas de certaines revues du groupe BMC, comme BMC Medical Informatics and Decision Making (qui comptait le 15/03/2017 186 articles publiés sur une thématique de TAL biomédical). Les revues signées ainsi que les réponses des auteurs.trices aux commentaires des relecteurs.trices sont disponibles publiquement dans la rubrique « pre-publication history » associée à chaque article publié.
  2. son pendant, le double aveugle : les auteurs.trices sont anonymisés lors de la soumission de l’article (les relecteurs.trices ne savent a priori pas qui ils/elles sont) et les relecteurs.trices ne signent pas leur relecture. C’est le cas pour TALN depuis quelques années, d’ACL, de COLING et de beaucoup d’autres conférences (il s’agit plus ou moins de la norme).
  3. le simple aveugle : les auteurs.trices ne sont pas anonymes, mais les relecteurs.trices oui. C’était le cas à TALN avant (quand ?) et c’est toujours le cas à LREC, et dans certaines revues comme BMC Bioinformatics (qui comptait le 16/03/2017 905 articles publiés sur une thématique de TAL biomédical).
  4. le cas, très rare et qui n’a pas de nom (si ?), où les auteurs.trices sont anonymes mais pas les relecteurs.trices. La revue DISCOURS, qui permet aux relecteurs.trices de signer leur relecture, permet ce cas de figure, puisque les auteurs.trices sont anonymes.

Enjeux de la méthode de relecture

Avant de rentrer dans le détail des avantages et inconvénients de chacune, il est important de noter qu’au-delà du choix principal, de nombreuses options existent, qui modifient plus ou moins la donne et qui sont tout aussi importantes.
C’est en particulier le cas des interactions entre relecteurs.trices, voire avec les auteurs.trices. Ainsi, dans la plupart des conférences, les relecteurs.trices peuvent voir leurs relectures respectives (une fois la leur entrée), voire leur nom (c’était le cas à TALN il y a quelques années, ce n’est plus possible aujourd’hui), voire, comme pour ACL, disposent de temps pour communiquer entre eux/elles et éventuellement modifier leur relecture et leur évaluation de l’article.

Par ailleurs, ACL propose une période (courte) de rebutal, pendant laquelle les auteurs.trices peuvent répondre aux remarques des relecteurs.trices, qui pourront être amenés à corriger leur évaluation. Cet échange entre auteurs.trices et relecteurs.trices est courant dans les revues, moins dans les conférences. Vue l’importance prise par les conférences dans le domaine du traitement automatique des langues, il semble logique que leur fonctionnement se rapproche de celui d’une revue.

Il faut ajouter à ces éléments le fait de savoir ou non qui est responsable de la track/area : si le processus est totalement décrit pour ACL (en particulier cette année, principalement via le blog des responsables), il ne l’est pas pour TALN. Les revues adoptent également des fonctionnements différents. Dans certains cas, l’éditeur.trice scientifique associé.e à un article ou un numéro sera clairement identifié.e auprès des auteurs.trices pendant la phase de relecture (c’est le cas pour les revues TAL ou BMC Bioinformatics, mais pas pour JAMIA) et cette information sera publiquement visible une fois l’article publié (c’est le cas pour la revue TAL, mais pas pour BMC Bioinformatics).

Pourquoi est-ce que tous ces points sont importants ? Tout simplement pour (tenter de) limiter les biais, les conflits d’intérêts et les relectures de mauvaise qualité. Un processus ouvert permet à plus d’yeux de vérifier si les auteurs.trices ne sont pas en conflit d’intérêt avec les relecteurs.trices (encore faut-il définir ce qu’est un conflit d’intérêt, là encore, ACL fournit des bases de réflexion). Il permet également de dénoncer les mauvaises relectures : un.e responsable de track/area est censé.e lire toutes les relectures, mais il est courant qu’il/elle passe à côté de certains problèmes, par ailleurs, des critiques émises par les co-relecteurs ET par le/la responsable ont un poids d’autant plus important.

Inciter les relecteurs.trices à écrire de bonnes relectures (constructives et respectueuses) peut également passer par des actions positives, comme le prix du/de la meilleur.e relecteur.trice (attribué à LTC ou à l’AMIA), ou la mise en valeur de leur travail par le biais d’un post de blog.

Avantages et inconvénients des méthodes de relecture par les pairs

Le principe de la relecture par les pairs est de permettre une évaluation scientifique des articles publiés, qui soit également indépendante des auteurs.trices.  Les différentes méthodes de relectures proposées ont donc pour but de maximiser les paramètres suivants :

garantie d’indépendance des relectures : l’anonymat des relecteurs.trices a été introduit pour s’assurer qu’ils puissent s’exprimer librement et indépendamment de leur rapport futur avec les auteurs.trices. De même, l’anonymat des auteurs.trices a été introduit afin de les protéger de tout biais (notamment genré) ou préjugé associé à leur identité (par exemple l’institution d’origine) et de focaliser la relecture sur le travail réalisé.

garantie de qualité des relectures : le principe de relecture ouverte est de s’assurer que les relecteurs.trices endossent bien la responsabilité de leur relectures. Il s’accompagne d’une hausse globale de la qualité des relectures [1] mais également d’une baisse de la sincérité des relecteurs.trices par crainte d’éventuelles futures représailles [2].

et, accessoirement :

facilité de gestion des relectures par l’éditeur de la revue : besoin éventuel de « caviarder » des relectures anonymes injurieuses [3], facilité de recrutement des relecteurs.trices (15 % de refus en plus pour le système ouvert d’après une comparaison des chiffres de deux revues d’informatique biomédicale ayant adopté un système différent : BMC Bioinformatics et BMC Biomedical Informatics and Decision Making [Daniel Shanahan communication personnelle]), facilité de mise en œuvre dans le cadre d’un comité éditorial [l’expérience de la revue TAL montre que le double aveugle induit des difficultés logistiques pour procéder à l’affectation des relecteurs.trices en préservant l’anonymat tout en gérant les conflits d’intérêt].

La gestion des revues par des systèmes informatisés permet de collecter un grand nombre d’informations sur les différentes étapes du processus, qui peuvent maintenant être exploitées pour prendre du recul et étudier l’influence des différents paramètres en jeu. Une étude réalisée avec les données issues de 14 conférences en informatique montre par exemple l’importance du dialogue entre relecteurs.trices et du facteur « chance » par rapport à d’autres leviers comme la réponse des auteurs.trices pour permettre la sélection d’articles de qualité [4].

ConclusionS

La transparence des processus génère (beaucoup) plus de travail, donc de temps, pour les organisateurs (y compris area/track chairs) et pour les relecteurs.trices (qui doivent être plus attentifs lors de l’écriture de leur relecture). Mais n’est-ce pas le prix à payer pour la qualité ?

J'(Karën Fort)étais personnellement pour le double ouvert, avant que je lise des papiers qui montrent les biais genrés [5], envers les institutions prestigieuses [6] et les auteurs.trices connus [7], bien que ces effets ne soient pas toujours constatés [8]. Je favoriserais maintenant davantage un système hybride de double aveugle dans un premier temps (avant relecture), puis d’ouverture : les relecteurs.trices voient leurs relectures (et leurs noms), les discutent entre eux, et les auteurs.trices voient les relectures, y répondent, et lorsque tout est terminé, tout le monde voit les noms de tout le monde.

En ce qui concerne l’anonymat ou non des relecteurs.trices (qui ne représente que la partie émergée de l’iceberg, vous l’aurez compris), une possibilité intermédiaire serait de donner le choix aux relecteurs.trices de signer ou non leur relecture (comme dans le cas de la revue DISCOURS). Cela aurait l’avantage de ne forcer personne et de permettre aux relecteurs.trices de s’habituer et de se tester dans cet « exercice ». Mon expérience personnelle est qu’il est beaucoup plus facile de signer une relecture positive ou dans sa langue maternelle qu’une négative ou en anglais (du fait de la finesse de vocabulaire nécessaire).

Je (Aurélie) pense qu’il faut certainement plus d’études comme [4] pour bien réfléchir aux avantages et inconvénients des différents systèmes, et ne pas sous-estimer la part de l’aléatoire qui ne peut être éliminée du processus d’évaluation.

Et vous, vous en pensez quoi (si vous avez des références, nous sommes preneuses) ?

Karën Fort et Aurélie Névéol

Références

[1] Kowalczuk, M. K., Dudbridge, F., Nanda, S., Harriman, S. L., & Moylan, E. C. (2013). A comparison of the quality of reviewer reports from author-suggested reviewers and editor-suggested reviewers in journals operating on open or closed peer review models. F1000 Posters, 4, 1252.

[2] Khan K. Is open peer review the fairest system? No. BMJ. 2010;341:c6425. doi: 10.1136/bmj.c6425.
[3] Groves T. Is open peer review the fairest system? Yes. BMJ. 2010;341:c6424. doi: 10.1136/bmj.c6424.
[4] Zhu J, Fung G, Wong WH, Li Z, Xu C. Evaluating the Pros and Cons of Different Peer Review Policies via Simulation. Sci Eng Ethics. 2016 Aug;22(4):1073-94.
[5] Kaatz A, Gutierrez B, Carnes M. Threats to objectivity in peer review: the case of gender. Trends in pharmacological sciences. 2014;35(8):371-373.
[6] Tomkins A, Zhang M, Heavlin W. Single vs. Double Blind Reviewing at WSDM,  https://arxiv.org/pdf/1702.00502.pdf
[7] Okike K, Hug KT, Kocher MS, Leopold SS. Single-blind vs Double-blind Peer Review in the Setting of Author Prestige. JAMA. 2016 Sep 27;316(12):1315-6.
[8] van Rooyen S, Godlee F, Evans S, Smith R, Black N. Effect of blinding and unmasking on the quality of peer review: a randomized trial. JAMA. 1998 Jul
15;280(3):234-7.

Prendre le temps de célébrer : le numéro spécial de la revue TAL « TAL et éthique »

Nous passons notre temps à courir. D’une activité à l’autre, d’une vie à l’autre, d’un désir à l’autre. Nous célébrons peu, car les réalisations doivent se succéder, à un rythme de plus en plus soutenu. Pour obtenir un poste. Pour trouver un financement. Pour faire carrière. Pour ne pas avoir à penser trop à ce que nous faisons de nos vies.

En cette nouvelle année, je nous souhaite de trouver la volonté de prendre le temps. En particulier le temps de célébrer nos réussites, le résultat de nos efforts, si peu considérés, alors que nos échecs font si souvent l’objet de d’analyses, de relectures, de signalements. Bien entendu, il est sain de faire cette démarche et si naturel pour des scientifiques… Cependant, quelqu’un m’a fait remarquer il y a peu que fêter nos réussites est tout aussi important, pour entretenir l’envie et faire vivre les collectifs.

Je souhaite donc ici célébrer le numéro spécial de la revue TAL consacré à l’éthique, publié (en ligne, gratuitement) in extremis (encore une question de temps) juste avant Noël, après plus d’un an et demi de travail :

https://www.atala.org/IMG/pdf/Book_57-2-2.pdf

Revue TAL "TAL et éthique"Je suis fière de ce volume, sur le fonds, sur la forme, et sur ce qu’il dit de notre communauté de chercheurs/ses. C’est le premier numéro de revue centré sur le sujet, et il émane de la communauté francophone. Il a été construit grâce au travail d’un collectif très large, comprenant les rédacteurs en chef invités (Gilles Adda, K. Bretonnel Cohen et moi-même), l’un des rédacteurs en chef de la revue TAL (Jean-Luc Minel), les membres du comité de lecture (ceux listés ici et ceux du comité de rédaction de la revue TAL), les auteurs des papiers (soumis et acceptés), le comité de rédaction de la revue (CR) et la relectrice. J’ai été l’initiatrice du projet et j’en ai assuré le suivi, mais je n’étais pas seule et jamais je n’aurais pu le mener à bien sans l’aide, le conseil et l’énergie non seulement de mes co-rédacteurs en chef, mais également d’autres personnes autour (je pense en particulier aux membres du CR de ce blog).

Le résultat est très beau sur la forme, grâce au travail minutieux des auteurs, des relecteurs et de la relectrice (une véritable professionnelle, dont le travail d’harmonisation est indispensable).

Sur le fonds, je vous laisse juger par vous-même. Prenez le temps de lire les articles 😉
Quant à moi, j’ai beaucoup appris.

Contenu du numéro

Processus de création

Nous avons reçu sept propositions d’articles anonymisées (seuls JL Minel et moi-même pouvions voir les noms des auteurs et nous n’avons pas participé à la relecture). Nous avons dû rejeter l’une d’entre elles pour une question de forme (article trop court), sans relecture.

Le processus de relecture de la revue TAL comprend deux phases, au terme desquelles trois articles ont été sélectionnés.

Nous (les rédacteurs en chef invités) avons rédigé l’introduction, qui a été relue (cette fois-ci, c’est du double ouvert) par les rédacteurs en chef de la revue TAL (membres du CR), corrigée, puis de nouveau relue et corrigée (tout cela assez vite, car le temps – encore lui – pressait). J’ai également fait relire notre travail par les auteurs des articles du numéro de la revue, afin de vérifier que nous ne disions pas de bêtise concernant leurs articles.

Pour information, un numéro de la revue TAL ne peut contenir plus de cinq articles (y compris l’introduction, si elle est longue, ce qui était le cas ici).

Une fois acceptés, les articles sont dés-anonymisés puis confiés à une relectrice professionnelle, qui envoie ses remarques aux auteurs, qui doivent les prendre en compte pour la publication.

Tout cela est géré par les rédacteurs en chef invités et le CR de la revue TAL, c’est-à-dire par des membres co-optés de notre communauté, qui font ça bénévolement et de manière très « propre » (déontologiquement parlant) : non seulement les articles sont anonymes (et les relecteurs aussi, c’est du double aveugle), mais ils sont assignés (en l’occurrence, par moi, avec accord de JL Minel) à des relecteurs qui ne sont pas du même laboratoire (et a priori pour qui cela ne présente pas de conflit d’intérêt (couples, collaborateurs réguliers, etc)) et les membres du CR (et les invités) qui appartiennent aux laboratoires des auteurs sortent lors des discussions sur les articles.

Bien entendu, rien n’est parfait en ce monde et certains points sont identifiés et en cours d’amélioration (comme la plateforme, peu adaptée au processus de relecture spécifique de la revue), mais c’est notre revue et nous pouvons en être fiers : auto-gérée et en accès libre (vrai open access), c’est une revue dont la qualité est reconnue (je n’ai pas trouvé son classement officiel, mais il me semble qu’elle est classée A).

En ce 1er janvier 2017, je lève donc ma coupe (ma tasse de café, en fait, je me remets doucement…) à ce numéro spécial « TAL et éthique » de la revue TAL et à ceux qui l’ont créé !

Bonne année, éthique et TAL !

PS : certains articles sont déjà cités dans des cours : http://faculty.washington.edu/ebender/2017_575/

 

La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf

Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole [1]

Nous présentons ici les résultats d’une enquête sur l’éthique dans le Traitement Automatique des Langues et de la Parole, menée auprès de chercheurs et d’industriels de ce domaine.

Pour des raisons de commodité de lecture, ce post présente les réponses aux questions fermées. Un prochain traitera des questions ouvertes et des commentaires.

Motivations

Le questionnaire a été réalisé très rapidement (pour pouvoir en disposer pendant  la conférence JEP-TALN 2015), suite à la très intéressante journée Ethique de la  CERNA (Commission de réflexion sur l’éthique de la recherche en sciences et technologies du numérique d’Allistene).

La question principale que nous nous posions était de savoir dans quelle mesure les chercheurs en TAL/P francophone se sentent responsables de l’utilisation faite de leurs recherches (moral buffer). D’autres questions sont apparues rapidement, notamment celle de savoir si les universités proposent des sensibilisations à l’éthique.
Enfin, d’autres nous sont venues en liaison avec des remarques entendues lors de séminaires ou de rencontres.
Le questionnaire a bien entendu été créé avec un biais en faveur d’une meilleure prise en compte des questions d’éthique dans nos pratiques de chercheurs, mais il n’a pas empêché les personnes étant en désaccord de s’exprimer, ce qu’elles ont fait, vous allez le voir, et nous les en remercions.

Participation

Suite à la publicité réalisée pendant JEP-TALN, sur la liste LN et par mails personnels, et malgré quelques problèmes de connexion, 102 personnes ont participé à l’enquête, entre le 23 juin et le 30  juillet 2015.
Lors des dernières conférences TALN, les organisateurs ont enregistré environ 200 inscrits (200 en 2013, 195 en 2014 et 180 en 2015), nous considérons donc cette enquête représentative de la communauté française du TAL/P  dans son ensemble.

Réponses et (début d’)analyse

Le questionnaire comprenait majoritairement des questions fermées, toutes facultatives. Chaque personne a laissé en moyenne moins de deux questions sans réponse. Les non-réponses et les réponses « ne sais pas » ont été traitées par LimeSurvey comme équivalentes.

Responsabilité des chercheurs

Question : « Vous considérez-vous responsable des utilisations faites des outils que vous développez ? »

Près de 75 % des chercheurs considèrent qu’ils sont responsables, individuellement ou collectivement, plus précisément :

  • 12,2 % ont répondu à la fois « Oui, c’est tout à fait mon rôle » et « C’est un rôle partagé par l’ensemble de l’équipe »
  • 33,3 % ont répondu « Oui, c’est tout à fait mon rôle
  • 26,7 % ont répondu « C’est un rôle partagé par l’ensemble de l’équipe »
  • 1,1 % ont répondu « C’est le rôle d’un des membres de l’équipe »

Role

Cependant, pour 26,7 % des personnes répondantes, l’utilisation faite des outils qu’elles développent n’est pas de la responsabilité des chercheurs. Ce chiffre confirme qu’il existe en TAL/P comme ailleurs, un moral buffer (tampon moral ?). Nous espérons que ce blog et les différentes actions de sensibilisation menées permettront de le faire diminuer, car si nous ne nous sentons pas responsables et que le grand public et les politiques ne comprennent pas vraiment les capacités réelles des outils que nous développons (voir plus loin), personne ne se sentira la légitimité d’agir en cas d’utilisation néfaste, contraire aux droits de l’homme par exemple.

Données personnelles

Questions : « Doit-il selon vous y avoir une exception recherche sur l’usage des données personnelles ? » et « Un statut particulier pour la recherche des données personnelles vous permettrait-il de lancer de nouveaux travaux ? »

Les données personnelles, au sens de la CNIL, sont toutes les données qui permettent d’identifier, directement ou indirectement, un individu. Cette définition couvre ainsi un large éventail de données : données d’identification, mais également informations déposées sur un réseau social, ou n’importe quel texte, dès lors que ce texte ou ces données permettent, par les indices qu’ils contiennent, ou par le croisement d’indices, de (ré)-identifier un individu.

A la question de la nécessité ou non d’un statut particulier de ces données pour la recherche :

  • 1,4 % ont répondu à la fois « non » et « les données utilisées pour une expérience doivent être mises à disposition des évaluateurs et/ou de l’ensemble de la communauté scientifique »
  • 4,2 % ont répondu « toutes les données doivent être disponibles pour la recherche »
  • 56,3 % ont répondu « oui, sous certaines conditions »
  • 14,1 % ont répondu « les données utilisées pour une expérience doivent être mises à disposition des évaluateurs et/ou de l’ensemble de la communauté scientifique »
  • 19,7 % ont répondu « Non »

Outre les considérations éthiques que ce point soulève, notons que le recueil et le traitement des données personnelles est soumis à des obligations fortes, dont le non-respect est passible d’emprisonnement ou de conséquences financières lourdes.

Commentaires des répondants

La question « Doit-il selon vous y avoir une exception recherche sur l’usage des données personnelles ? » donnait la possibilité d’insérer des commentaires, que nous reproduirons dans un post à venir.

Refus d’un projet pour raisons éthiques

Question : « Avez-vous déjà refusé ou limité un projet pour des raisons éthiques ? »

abandon_ANR5

Environ 40 % des répondants affirment avoir refusé ou limité un projet pour des raisons éthiques. Ce résultat, qui peut paraître surprenant — qui l’est pour nous — montre à quel point l’éthique est une problématique actuelle. Cette question aurait cependant mérité d’être affinée (quelles raisons ?).

Pérennisation des données

Question : « Dans vos projets intégrez-vous dès le départ la possibilité de pérenniser et redistribuer vos données ? »

Pereniser_données

Une large majorité affirme intégrer dès le début d’un projet la pérennisation et la redistribution des données. Cela semble un peu contradictoire avec le fait que le français reste encore une langue relativement peu dotée en données langagières (voir Joseph Mariani (LIMSI / CNRS) sur ce sujet, en vidéo), surtout librement disponibles. Cependant, le terme « données » est ambigu et aurait sans doute dû être précisé (« données langagières », par exemple).

Il est intéressant que près de 20 % des répondants avouent ne pas considérer cet aspect dès le début du projet : soit ils le prennent en compte plus tard, soit ils ne le prennent jamais en compte. C’est une question que nous devrons aborder ici.

Rémunération des producteurs de données

Question : « Dans les projets auxquels vous avez participé, savez-vous comment les producteurs de données ont été rémunérés ? »

Remuneration

Là encore, une majorité déclare savoir comment ont été rémunérés les producteurs de données. Reste à valoriser la documentation de cette information, via la Charte Ethique et Big Data, par exemple. Nous avons en effet montré que les articles de recherche concernant les ressources langagières les plus utilisées  ne donnent pas cette information.

Plus de 25 % des personnes interrogées (voire plus de 40 % si on y ajoute les non réponses) déclarent ne pas savoir comment les producteurs de données de leurs projets ont été rémunérés. C’est préoccupant, en particulier avec le développement des plate-formes de myriadisation du travail parcellisé à la Amazon Mechanical Turk, qui posent de nombreux problèmes éthiques.

Limites du TAL vues par les pouvoirs et le grand public(s)

Questions : « Pensez-vous que les pouvoirs publics sont conscients des limites des capacités des outils de TAL ? » et « Pensez-vous que le grand public est conscient des limites des capacités des outils de TAL ? ».

limites

Près de 9 % des répondants (8,8 %) pensent que les pouvoirs publics sont conscients des limites des capacités des outils de TAL, contre 5 % (4,9 %) concernant le grand public.

67,6 % pensent au contraire que les pouvoirs publics n’en sont pas conscients et 75,5 % que le grand public ne l’est pas non plus.

23,5 % et 19,6 % ne répondent pas (ce qui représente un nombre important de personnes), sans doute parce qu’il s’agit de donner ici une impression, non fondée sur des données concrètes. Ces questions mériteraient en effet une enquête sérieuse auprès des pouvoirs publics et du grand public.

Quoi qu’il en soit, ce blog se veut un début de réponse à cette préoccupation, même si rendre accessible à un public plus large la finesse de certaines questions de recherche représente un réel effort, voire du talent. Nous tenons au passage à rendre hommage à notre collègue Jean Véronis, décédé l’année dernière, qui avait su maintenir cet effort sur la durée, non sans talent : http://blog.veronis.fr/.

Formation à l’éthique

Question : « Existe-t-il une sensibilisation à l’éthique dans les formations dans lesquelles vous intervenez ? »

formation

Les réponses négatives sont à rapprocher d’autres réponses du questionnaire : s’il n’y a que peu de sensibilisation à l’éthique dans les formations, comment pourrait-on avoir des chercheurs, des citoyens ou des responsables politiques conscients des enjeux des limites des outils ?

Cependant, les presque 15 % de réponses positives montrent que de telles formations existent, qui pourraient être diffusées plus largement. Ce blog pourrait être le lieu pour les recenser (n’hésitez-pas à nous les signaler en commentaire), ainsi que leur contenu.

Éthique comme sujet dans l’appel général de TALN

Question : « Pensez-vous que l’éthique doit faire partie des sujets de l’appel général de la conférence TALN ? »

TALN

En d’autres termes, les trois quarts des personnes ayant émis un avis pensent qu’il faut inclure le thème dans les prochains appels de TALN. Cela tombe on ne peut mieux puisque l’AG finale de l’association savante du TAL, l’ATALA, a donné son accord pour cela.

Il faudrait bien entendu étendre cette décision à la conférence JEP (parole) et aux conférences internationales (LREC, ACL, COLING, INTERSPEECH, etc). Nous comptons pour cela sur (vous) nos collègues présents dans les différentes instances et associations et tenterons de sensibiliser à cette question autour de nous.

Participation à un groupe de travail éthique dans le TAL

Question : « Êtes-vous d’accord pour participer à un groupe de travail sur l’éthique dans le TAL ? »

TAL

26 personnes nous ont laissé leur adresse mail, dont 21 ne sont pas (encore ?) membre du comité de lecture de ce blog. C’est très encourageant ! Nous allons contacter ces personnes pour les faire travailler envisager des actions communes.

ANR

Question : « Avez-vous décrit dans l’annexe technique les dimensions éthiques des projets que vous avez soumis pour financement (ANR ou autre) ? »

ANR

Cette question donnait la possibilité de laisser un commentaire que l’on trouvera dans un post à venir.

Conclusions

La première conclusion de cette enquête est que le sujet de l’éthique est reconnu comme important par la communauté du TAL/P francophone, ce qui est pour nous une grande satisfaction.

Cela nous encourage à continuer et à proposer d’autres formes d’expression sur la sujet ainsi que d’élargir le questionnement à l’international. Nous comptons en effet réaliser une enquête similaire, en anglais, que nous proposerons à la communauté internationale du TAL/P. Nous y réfléchissons actuellement et sommes preneur/se de vos suggestions, donc n’hésitez-pas à en faire, en commentaire de ce post par exemple.

N’oubliez pas de nous signaler en commentaire les sensibilisations à l’éthique proposées dans des formations.

Karën Fort, Alain Couillault et Jean-Yves Antoine pour les graphiques.

Atelier « Fairness Accountability and Transparency in Machine Learning »

La Conférence internationale sur l’apprentissage automatique (International Conference on Machine Learning ou ICML) est la conférence de référence au niveau mondial sur l’apprentissage automatique, ces algorithmes  qui, à partir d’un ensemble de données, induisent automatiquement des modèles. Ces technologies sont par exemple utilisées en vision par ordinateur ou en reconnaissance de la parole.
Pendant la dernière conférence ICML qui s’est tenue récemment à Lille, un atelier intitulé « Fairness Accountability and Transparency in Machine Learning«  s’est tenu.
Il est intéressant de voir que ces questions font leur chemin aussi dans la communauté de l’apprentissage. Cependant, ne nous emballons pas, il y avait 30 personnes maximum pendant cet atelier alors qu’ICML a rassemblé plus de 1000 personnes.
Voici quelques exemples de communications (en ligne sur le site) :
-Nick Diakopoulo.s Algorithmic Accountability and Transparency in Journalism
-Sara Hajian. Discrimination- and Privacy-Aware Data Mining
-Salvatore Ruggieri.  Privacy Attacks and Anonymization Methods as Tools for Discrimination Discovery and Fairness
-Toshihiro Kamishima and Kazuto Fukuchi. Future Directions of Fairness-Aware Data Mining: Recommendation, Causality, and Theoretical Aspects

Avis du comité d’éthique du CNRS (COMETS) sur les sciences participatives

Jean-Gabriel Ganascia, membre du Comité d’éthique du CNRS (COMETS), nous a envoyé l’avis que vient d’émettre cette instance concernant les sciences participatives (ou citoyennes). Nous en reproduisons ici le résumé, l’avis complet étant disponible sur le site du COMETS.

Nous reviendrons sur cet avis un peu plus tard pour en fournir un éclairage, en attendant, voici de quoi alimenter la réflexion :

Résumé : Les relations de la science avec la société se sont profondément modifiées au cours de l’histoire. A partir des années 70, la notion de progrès est réinterrogée face aux nouveaux défis environnementaux et sanitaires. Ceci met aujourd’hui au premier plan les questions posées par les citoyens aux chercheurs et aux institutions de recherche, ainsi que le besoin des chercheurs de faire comprendre la nature et l’importance de leur démarche à l’ensemble de la société. Le COMETS affirme ici qu’il y a urgence à construire une relation de confiance entre les citoyens et les scientifiques. Deux voies sont abordées : celle des sciences participatives et celle d’un dialogue science-citoyens renouvelé.

La voie des sciences participatives, en grand développement aujourd’hui grâce à internet, associe les citoyens amateurs aux activités scientifiques pour la collecte des données et parfois la co-création ou l’interprétation des résultats. Il en résulte un apport mutuel considérable, d’une part pour l’enrichissement de la production des connaissances, d’autre part pour la formation des citoyens aux méthodes et à l’esprit scientifique. Cette voie encourage les vocations pour les sciences chez les jeunes. Le COMETS formule des recommandations portant sur l’encadrement des pratiques des réseaux amateurs, sur l’importance de la validation des résultats, sur le respect de l’anonymat lorsqu’il s’agit de données privées, enfin sur le statut et la reconnaissance dus aux contributeurs.

Dans un monde secoué de crises successives et traversé par des controverses sur des sujets sensibles, le COMETS est d’avis que les chercheurs et leurs institutions doivent être à l’écoute des questionnements du public sur l’impact de leurs choix. Tout en réaffirmant l’autonomie du champ scientifique, il estime nécessaire d’engager une réflexion sur les formes à donner au débat public autour des questions de recherche. Il souligne fortement l’importance de la diffusion de la culture scientifique et de sa promotion active à tous les niveaux de la société. Il recommande que les expertises exercées par les scientifiques sur des questions ayant un impact sociétal soient menées à l’abri des conflits d’intérêt, dans un cadre interdisciplinaire et si possible international. Il préconise que le CNRS soutienne l’implication d’équipes de recherche dans l’analyse des perceptions des sciences et encourage les initiatives abordant des thèmes sensibles. Il suggère enfin que le CNRS développe une expertise collective mobilisable pour répondre aux sollicitations des décideurs publics et des instances démocratiques.

Armons notre pensée

À l’heure où nous refermons la première édition de l’atelier ETeRNAL, je veux croire que cette idée, pourtant tout à fait ancienne, que ce que nous étudions et la manière dont nous l’étudions est le plus important.

Nous avons constaté que nous abordions naturellement la question de l’éthique par celle de l’anonymisation, trop souvent considérée comme réglée. Force est de constater que ce n’est pas le cas, et d’autant moins que nous conservons de grandes difficultés à définir le problème. Et il n’est qu’une porte ouverte sur un constat, celui que lorsque les données sont devenues un enjeu économique et politique, les outils transformant intelligemment ces données deviennent de facto des objets économiques et politiques. En cela, notre travail de chercheur, de penseur, se décale de nos habitudes et nous oblige. Il ne nous oblige certainement pas à courir après plus de réussite ou de succès, mais bien à reconsidérer l’importance de notre travail.

Le traitement automatique des langues est divers d’histoires très différentes. À la fois issu de la tradition de la linguistique, sciences fort ancienne, et de l’informatique, science tout à fait moderne.
D’aucuns font le constat de notre éloignement de nos objets de recherche. Est-ce que la langue, pour ce qu’elle dit de notre capacité cognitive, de notre évolution, de notre relation au monde peut seulement se traiter par le biais de modèles purement mathématiques ? Est-ce que nous pouvons nous faire croire raisonnablement que nos outils n’ont pas de finalité en dehors des desseins que nous leur prêtons ? Est-ce que comprendre et transformer les données linguistiques est tout à fait anodin ?
Probablement pas.

Il nous appartient, en tant qu’individu, mais également en tant que communauté scientifique de nous inscrire dans une histoire, au moins celle de la science. Ne tentons pas de nous cacher derrière l’argument de la jeunesse, et de ce qu’elle justifie insouciance. Nous ne sommes plus les contemporains de la naissance de l’informatique. Et aujourd’hui, plus qu’hier, notre travail est devenu économique et politique.

Il ne s’agit pas de reproduire au sein de la communauté les habitus de la société, mais d’être en mesure de parler librement, de penser librement nos objets et les conséquences même de notre pensée. Il ne s’agit certainement pas de revendiquer les uns contre les autres, ou de trouver là le vecteur d’une forme de militantisme. Il s’agit certainement là d’une opportunité de s’enthousiasmer.

Alors, oui, il nous faut un espace pour prendre la parole et porter aux débats, celui de la communauté que nous formons, et celui de la société entière, dans sa diversité, les questions qui nous traversent. Reprenons les exercices difficiles de la réflexion, de la vulgarisation, du positionnement épistémologique de nos travaux.
Nous ne gagnerons pas grand chose pour nos carrières, mais notre pensée n’en sera que plus forte.
Je suis heureux de voir qu’un tel espace est en train d’éclore.
Il nous appartient de le faire naître, de le faire grandir et de s’en servir comme arme de la pensée.