Transparence des algorithmes, ça bouge encore

Cela faisait longtemps que nous n’avions pas eu de nouvelles de la transparence des algorithmes ! Il faut dire que l’actualité a largement privilégié l’IA avec la mission portée par Cédric Villani sur la stratégie nationale sur l’intelligence artificielle dont les médias sont fous.

L’IA a donné lieu a un numéro spécial de Libération et France Inter, un numéro spécial de Le Monde, de nombreuses émissions radio, télés, des articles sur la reconnaissance du cancer (sic), le remplacement des juges (sic), la lutte contre la pédophilie (sic) ou les voitures autonomes (quand même). Bref, l’IA est partout, parle de tout (donc du TAL aussi) et surtout dans tous les sens. Il y a encore quelques mois, il était possible de discuter les points de vue relayés dans les médias. La tâche est désormais impossible. Il faut donc tenter de comprendre les opinions de figures médiatiques. On pense évidemment à Yann Le Cun, dont on peut trouver une excellente interview sur France Culture.

Bref, la fin d’année était dense, ce n’est rien à côté du début de la nouvelle. Pour ceux·lles qui cherchent des éléments plus scientifiques, ils·elles pourront se consoler en lisant le rapport de la CERNA sur l’éthique en apprentissage automatique.

Nous sommes nombreux aujourd’hui à avoir entendu plusieurs spécialistes nous expliquer ce qu’est l’intelligence, la différence entre artificiel et naturel ou ce que sont les algorithmes, à l’origine de tous ces débats. Mais les choses n’ont pas beaucoup avancé concernant la compréhension de ce que font ces dits algorithmes.

Inria s’était lancé dans la mise en place d’une plateforme pour évaluer la transparence des algorithmes. Mais si l’annonce a presque un an, peu de nouvelles depuis. Sauf juste avant la trêve de fin d’année où nous avons reçu l’annonce de la mise en place de 5 groupes de travail (GT). L’occasion de vous donner les intitulés pour mieux cerner ce qu’est la transparence des algorithmes du point de vue des informaticiens :

GT1 : algorithmes de classement, de recommandation (neutralité, loyauté, non-discrimination)

GT2 : Explication des algorithmes d’apprentissage

GT3 : Confidentialité et Contrôle d’usage des données

GT4 : Neutralité/loyauté et métrologie des réseaux de communication

GT5 : Influence, Désinformation, Impersonification, Fact-checking

À lire ces intitulés, on se demande s’il s’agit de travailler sur la transparence des algorithmes ou sur l’éthique de l’informatique. On voit bien l’importance des débats qui vont se tenir, par exemple dans le GT5 qui fait facilement écho à la proposition par Macron lors de ses vœux à la presse pour légiférer sur la responsabilité des plates-formes dans la diffusion de fausses informations (fact-checking). L’idée que des algorithmes puissent être le support de la loi ouvre de nombreuses questions, ne serait-ce que pour décider le vrai du faux (sujet qui alimente largement la philosophie depuis Aristote).

Il semble bien important qu’un comité national d’éthique se mettent en place, comme le demande la CERNA, tant qu’il ne devient pas un comité Théodule mais fait la place aux discussions entre toutes les parties. Ce qui reste sûr, c’est que le sujet ne devrait pas disparaître, sentiment renforcé par les rumeurs de la très prochaine nomination d’Antoine Petit, PDG d’Inria, à la tête du CNRS.

2018 devrait donc être une année transparente. Espérons qu’elle prenne de l’épaisseur.

Pour la valorisation de la diversité de notre communauté scientifique

Nous avons fait l’année dernière un état des lieux de la représentation des femmes dans les instances de la communauté TAL. Sans surprise, nous avions conclu à un déséquilibre: les femmes sont sous représentées, notamment dans des rôles à forte visibilité comme les conférences invitées ou les présidences diverses. Et s’il s’agissait au moins en partie d’une question de confiance?

Le décalage dans la confiance en soi des hommes et des femmes a des conséquences sur l’avancement de carrière des femmes [1]. Des études scientifiques montrent la différence de perception entre la compétence des femmes et des hommes par les individus concernés et par leurs pairs: à compétence égale, les femmes sont perçues comme moins compétentes que les hommes. Cet état d’esprit est une source d’auto-censure pour se présenter – et pour obtenir – une reconnaissance professionnelle sous forme de prix, de prime, d’avancement de carrière. Des données anecdotiques récentes abondent également dans ce sens: pour un prix national d’économie sélectionnant un lauréat.e parmi des candidat.e.s auto-proclamé.e.s, seuls 8 dossiers de candidature sur 42 (soit 19%)  ont été soumis par des femmes [2].

La bonne nouvelle, c’est qu’il ne tient qu’à nous de faire évoluer cette situation et d’être pro-actifs pour améliorer la diversité et l’égalité au sein de notre communauté.

L’association ELRA (European Language Resources Association) sollicite actuellement des nominations pour le prix Antonio Zampolli, qui récompense des travaux sur les ressources langagières et l’évaluation des technologies de la langue. La liste des lauréat.e.s comporte 9 collègues… dont 8 hommes  et 1 femme (en co-nomination). On peut également noter que 7 des lauréat.e.s sont rattachés à une institution américaine et 2 rattachés à une institution britannique.

La diversité des candidats examinés à chaque session en termes de géographie ou de genre n’est pas indiquée sur le site. Cependant, nous avons cette année l’opportunité  de faire en sorte que le comité puisse examiner des contributions reflétant la diversité de notre communauté.  Je vous invite donc à nominer et à faire nominer des collègues méritant.e.s. N’hésitez pas à laisser vos suggestions en commentaires si cela peut donner des idées à d’autres pour appuyer une nomination. La date limite de réception des candidatures par ELRA est le 1er février 2018.

Références:
[1] Kay K, Shipman C. The confidence Gap. The Atlantic. May 2014.
[2] La conférence des économistes. Le prix du meilleur jeune économiste 2017. Le Monde. 22 Mai 2017.

Quelle éthique pour le crowdsourcing ?

Début septembre, j’ai été amené à donner une conférence invitée dans le cadre de l’action COST enetCollect, à Bolzano. Cette action se focalise sur l’appel au crowdsourcing (ou myriadisation) pour constituer des ressources linguistiques utiles au développement de solutions d’apprentissage des langues. Solutions qui seront également développées dans le cadre du projet. Un des working group, piloté par Karën Fort (U. Paris 4) et Katerina Zdravkova (Ss. Cyril & Methodius U. , Skopje), concerne la définition de spécifications éthiques et légales pour la conduite du processus de crowdsourcing.

C’est dans ce cadre que j’ai été invité à présenter les approches éthiques qui pourraient s’appliquer au crowdsourcing. J’ai choisi de mettre en avant les travaux de la littérature relevant d’une éthique :

(1) déontologique pour l’analyse du processus de crowdsourcing par lui-même,

(2) conséquentialiste pour l’analyse de l’impact des solutions d’apprentissage qui seront développées au cours de l’action.

Cette présentation relevant pour la partie déontologique d’une nouvelle réflexion de ma part, elle ne s’appuyait sur aucune publication personnelle. Dès lors, pourquoi ne pas la partager avec les lecteurs de ce blog ? Je ne sais si mes slides seront compréhensibles sans explications, mais je crois que la bibliographie que j’ai étudiée peut vous intéresser…

Présentation BOLZANO

 

TAL et domaine juridique : l’arrivée du Big Data

Jusqu’à une date assez récente, les applications du TAL ou du TAP (Traitement Automatique de la Parole) dans le domaine juridique ont surtout concerné les questions d’identification des personnes par leur voix ou leurs écrits. Avec l’arrivée de masses de données juridiques numériques, le Big Data investit désormais des questions comme la rédaction automatique d’acte notariés, la justice prédictive etc…

Le journal du CNRS vient précisément de publier un petit article qui fait le tour de la question : « La justice à l’heure des algorithmes et du big data« . Analyse assez équilibrée des bénéfices et risques de ces technologies langagières. Et une vision très claire des limites technologiques de ces dernières en termes de performances.

 

Relecture par les pairs : un état de l’art

Nous en discutons entre nous depuis presque un an, le sujet va et vient, la motivation pour écrire aussi… nous avons tant de choses à dire,
à contredire !

Je me lance, donc, en espérant de l’aide — Aurélie Névéol a répondu présente, ceci est donc un article à quatre mains — : quels sont les mécanismes possibles de relecture par les pairs ? ceux qui sont appliqués autour de nous ?  les options (auxquelles nous ne pensons même pas) ? leurs avantages ? leurs inconvénients ? y a-t-il des études menées sur le sujet ?
Bref, des données ! (#datalove)

Méthodes de relecture par les pairs

Il existe quatre principaux types de fonctionnement des relectures par les pairs, prenant en compte l’anonymat ou non des auteurs.trices et/ou des relecteurs.trices. On a ainsi :

  1. le double ouvert  : les auteurs.trices ne sont pas anonymes pour les relecteurs.trices et les relecteurs.trices signent leur relecture (les auteurs.trices savent qui les a relus). C’est le cas de certaines revues du groupe BMC, comme BMC Medical Informatics and Decision Making (qui comptait le 15/03/2017 186 articles publiés sur une thématique de TAL biomédical). Les revues signées ainsi que les réponses des auteurs.trices aux commentaires des relecteurs.trices sont disponibles publiquement dans la rubrique « pre-publication history » associée à chaque article publié.
  2. son pendant, le double aveugle : les auteurs.trices sont anonymisés lors de la soumission de l’article (les relecteurs.trices ne savent a priori pas qui ils/elles sont) et les relecteurs.trices ne signent pas leur relecture. C’est le cas pour TALN depuis quelques années, d’ACL, de COLING et de beaucoup d’autres conférences (il s’agit plus ou moins de la norme).
  3. le simple aveugle : les auteurs.trices ne sont pas anonymes, mais les relecteurs.trices oui. C’était le cas à TALN avant (quand ?) et c’est toujours le cas à LREC, et dans certaines revues comme BMC Bioinformatics (qui comptait le 16/03/2017 905 articles publiés sur une thématique de TAL biomédical).
  4. le cas, très rare et qui n’a pas de nom (si ?), où les auteurs.trices sont anonymes mais pas les relecteurs.trices. La revue DISCOURS, qui permet aux relecteurs.trices de signer leur relecture, permet ce cas de figure, puisque les auteurs.trices sont anonymes.

Enjeux de la méthode de relecture

Avant de rentrer dans le détail des avantages et inconvénients de chacune, il est important de noter qu’au-delà du choix principal, de nombreuses options existent, qui modifient plus ou moins la donne et qui sont tout aussi importantes.
C’est en particulier le cas des interactions entre relecteurs.trices, voire avec les auteurs.trices. Ainsi, dans la plupart des conférences, les relecteurs.trices peuvent voir leurs relectures respectives (une fois la leur entrée), voire leur nom (c’était le cas à TALN il y a quelques années, ce n’est plus possible aujourd’hui), voire, comme pour ACL, disposent de temps pour communiquer entre eux/elles et éventuellement modifier leur relecture et leur évaluation de l’article.

Par ailleurs, ACL propose une période (courte) de rebutal, pendant laquelle les auteurs.trices peuvent répondre aux remarques des relecteurs.trices, qui pourront être amenés à corriger leur évaluation. Cet échange entre auteurs.trices et relecteurs.trices est courant dans les revues, moins dans les conférences. Vue l’importance prise par les conférences dans le domaine du traitement automatique des langues, il semble logique que leur fonctionnement se rapproche de celui d’une revue.

Il faut ajouter à ces éléments le fait de savoir ou non qui est responsable de la track/area : si le processus est totalement décrit pour ACL (en particulier cette année, principalement via le blog des responsables), il ne l’est pas pour TALN. Les revues adoptent également des fonctionnements différents. Dans certains cas, l’éditeur.trice scientifique associé.e à un article ou un numéro sera clairement identifié.e auprès des auteurs.trices pendant la phase de relecture (c’est le cas pour les revues TAL ou BMC Bioinformatics, mais pas pour JAMIA) et cette information sera publiquement visible une fois l’article publié (c’est le cas pour la revue TAL, mais pas pour BMC Bioinformatics).

Pourquoi est-ce que tous ces points sont importants ? Tout simplement pour (tenter de) limiter les biais, les conflits d’intérêts et les relectures de mauvaise qualité. Un processus ouvert permet à plus d’yeux de vérifier si les auteurs.trices ne sont pas en conflit d’intérêt avec les relecteurs.trices (encore faut-il définir ce qu’est un conflit d’intérêt, là encore, ACL fournit des bases de réflexion). Il permet également de dénoncer les mauvaises relectures : un.e responsable de track/area est censé.e lire toutes les relectures, mais il est courant qu’il/elle passe à côté de certains problèmes, par ailleurs, des critiques émises par les co-relecteurs ET par le/la responsable ont un poids d’autant plus important.

Inciter les relecteurs.trices à écrire de bonnes relectures (constructives et respectueuses) peut également passer par des actions positives, comme le prix du/de la meilleur.e relecteur.trice (attribué à LTC ou à l’AMIA), ou la mise en valeur de leur travail par le biais d’un post de blog.

Avantages et inconvénients des méthodes de relecture par les pairs

Le principe de la relecture par les pairs est de permettre une évaluation scientifique des articles publiés, qui soit également indépendante des auteurs.trices.  Les différentes méthodes de relectures proposées ont donc pour but de maximiser les paramètres suivants :

garantie d’indépendance des relectures : l’anonymat des relecteurs.trices a été introduit pour s’assurer qu’ils puissent s’exprimer librement et indépendamment de leur rapport futur avec les auteurs.trices. De même, l’anonymat des auteurs.trices a été introduit afin de les protéger de tout biais (notamment genré) ou préjugé associé à leur identité (par exemple l’institution d’origine) et de focaliser la relecture sur le travail réalisé.

garantie de qualité des relectures : le principe de relecture ouverte est de s’assurer que les relecteurs.trices endossent bien la responsabilité de leur relectures. Il s’accompagne d’une hausse globale de la qualité des relectures [1] mais également d’une baisse de la sincérité des relecteurs.trices par crainte d’éventuelles futures représailles [2].

et, accessoirement :

facilité de gestion des relectures par l’éditeur de la revue : besoin éventuel de « caviarder » des relectures anonymes injurieuses [3], facilité de recrutement des relecteurs.trices (15 % de refus en plus pour le système ouvert d’après une comparaison des chiffres de deux revues d’informatique biomédicale ayant adopté un système différent : BMC Bioinformatics et BMC Biomedical Informatics and Decision Making [Daniel Shanahan communication personnelle]), facilité de mise en œuvre dans le cadre d’un comité éditorial [l’expérience de la revue TAL montre que le double aveugle induit des difficultés logistiques pour procéder à l’affectation des relecteurs.trices en préservant l’anonymat tout en gérant les conflits d’intérêt].

La gestion des revues par des systèmes informatisés permet de collecter un grand nombre d’informations sur les différentes étapes du processus, qui peuvent maintenant être exploitées pour prendre du recul et étudier l’influence des différents paramètres en jeu. Une étude réalisée avec les données issues de 14 conférences en informatique montre par exemple l’importance du dialogue entre relecteurs.trices et du facteur « chance » par rapport à d’autres leviers comme la réponse des auteurs.trices pour permettre la sélection d’articles de qualité [4].

ConclusionS

La transparence des processus génère (beaucoup) plus de travail, donc de temps, pour les organisateurs (y compris area/track chairs) et pour les relecteurs.trices (qui doivent être plus attentifs lors de l’écriture de leur relecture). Mais n’est-ce pas le prix à payer pour la qualité ?

J'(Karën Fort)étais personnellement pour le double ouvert, avant que je lise des papiers qui montrent les biais genrés [5], envers les institutions prestigieuses [6] et les auteurs.trices connus [7], bien que ces effets ne soient pas toujours constatés [8]. Je favoriserais maintenant davantage un système hybride de double aveugle dans un premier temps (avant relecture), puis d’ouverture : les relecteurs.trices voient leurs relectures (et leurs noms), les discutent entre eux, et les auteurs.trices voient les relectures, y répondent, et lorsque tout est terminé, tout le monde voit les noms de tout le monde.

En ce qui concerne l’anonymat ou non des relecteurs.trices (qui ne représente que la partie émergée de l’iceberg, vous l’aurez compris), une possibilité intermédiaire serait de donner le choix aux relecteurs.trices de signer ou non leur relecture (comme dans le cas de la revue DISCOURS). Cela aurait l’avantage de ne forcer personne et de permettre aux relecteurs.trices de s’habituer et de se tester dans cet « exercice ». Mon expérience personnelle est qu’il est beaucoup plus facile de signer une relecture positive ou dans sa langue maternelle qu’une négative ou en anglais (du fait de la finesse de vocabulaire nécessaire).

Je (Aurélie) pense qu’il faut certainement plus d’études comme [4] pour bien réfléchir aux avantages et inconvénients des différents systèmes, et ne pas sous-estimer la part de l’aléatoire qui ne peut être éliminée du processus d’évaluation.

Et vous, vous en pensez quoi (si vous avez des références, nous sommes preneuses) ?

Karën Fort et Aurélie Névéol

Références

[1] Kowalczuk, M. K., Dudbridge, F., Nanda, S., Harriman, S. L., & Moylan, E. C. (2013). A comparison of the quality of reviewer reports from author-suggested reviewers and editor-suggested reviewers in journals operating on open or closed peer review models. F1000 Posters, 4, 1252.

[2] Khan K. Is open peer review the fairest system? No. BMJ. 2010;341:c6425. doi: 10.1136/bmj.c6425.
[3] Groves T. Is open peer review the fairest system? Yes. BMJ. 2010;341:c6424. doi: 10.1136/bmj.c6424.
[4] Zhu J, Fung G, Wong WH, Li Z, Xu C. Evaluating the Pros and Cons of Different Peer Review Policies via Simulation. Sci Eng Ethics. 2016 Aug;22(4):1073-94.
[5] Kaatz A, Gutierrez B, Carnes M. Threats to objectivity in peer review: the case of gender. Trends in pharmacological sciences. 2014;35(8):371-373.
[6] Tomkins A, Zhang M, Heavlin W. Single vs. Double Blind Reviewing at WSDM,  https://arxiv.org/pdf/1702.00502.pdf
[7] Okike K, Hug KT, Kocher MS, Leopold SS. Single-blind vs Double-blind Peer Review in the Setting of Author Prestige. JAMA. 2016 Sep 27;316(12):1315-6.
[8] van Rooyen S, Godlee F, Evans S, Smith R, Black N. Effect of blinding and unmasking on the quality of peer review: a randomized trial. JAMA. 1998 Jul
15;280(3):234-7.

Note de lecture : « le temps des algorithmes »

La revue sur la culture scientifique en ligne Interstices a publié une note de lecture sur Le Temps des algorithmes (editions du Pommier), ouvrage que viennent de publier Abiteboul et Dowek sur les questions et débats éthiques que soulève le développement de notre société numérique :

https://interstices.info/jcms/p_92826/regard-sur-le-temps-des-algorithmes

Note de lecture intéressante qui vous incitera peut-être à aborder l’ouvrage lui-même…

Après le ministère de l’économie, la CNIL débat sur les algorithmes

La question des algorithmes est désormais bien présente au sein du débat politique français : après le rapport sur le sujet du ministère de l’Economie, c’est la CNIL qui lance un débat ce jour. Pour faire la part entre le fantasme et les questionnements éthiques légitimes. Des tables rondes sont à écouter dès ce lundi 23 janvier :

https://www.cnil.fr/fr/ethique-et-numerique-les-algorithmes-en-debat-0

Le ministère de l’économie s’intéresse aux algorithmes !

2016_05_13_rapport_algorithmes1Maintenant que le traitement de l’information a une valeur économique, le ministère de l’économie se doit d’en proposer une régulation. Un rapport intitulé « Modalités de régulation des algorithmes de traitement des contenus », dont les auteurs sont Jacques SERRIS et Ilarion PAVEL, est paru le 15 décembre (vous le trouverez ici).

Le document d’une cinquantaine de page, plus des annexes, revient sur l’importance croissante des algorithmes dans l’économie et il formule cinq recommandations.

Pour arriver à ce résultat, les auteurs ont rencontré différents acteurs institutionnels comme les directions générales des entreprises, du trésor, de la concurrence, ou encore l’agence du numérique, mais également des représentants des industriels, de Google au groupement français des industries de l’informatique, en passant par des acteurs de la recherche publique comme Inria ou l’ENS. On peut reconnaître que les auteurs ont eu a cœur d’ouvrir le paysage de leur investigation.

Les auteurs ont cherché à rendre compte d’une réflexion générale, en y associant régulièrement des exemples précis. Ainsi on retrouve des encadrés qui font un focus concret qui illustrent bien le propos. Ils proposent plusieurs scénari de développement du monde du numérique et mettent en face des questions pour la régulation. Dans une partie suivante, ils reviennent sur différentes pratiques de la régulation, des actions de la Commission Européenne ou de l’exemple américain.

La partie la plus pertinente est probablement la dernière. Les auteurs s’intéressent à ouvrir des pistes d’action pour la régulation. L’une des propositions est de mettre en place une plateforme, et donc un service (public ?) associé ayant pour mission de tester les algorithmes. Il s’agit d’une part de certification, mais surtout de travailler à construire une relation constructive et apaisée entre citoyens et informatique. Un enjeu que l’on ne peut que souhaiter voir prendre de l’essor.

Cette proposition a l’intérêt d’acter l’importance d’interroger notre relation aux algorithmes. Ainsi, il ne s’agit pas de savoir si nous sommes d’accord avec le résultat d’un algorithme, mais bien de se demander comment s’assurer qu’un algorithme fait ce qu’il prétend faire et pas autre chose. On parle alors de croyance dans les algorithmes.

Mais cela pose une question difficile. Accepte-t-on de déléguer à une autorité étatique la validation de nos croyances ou doit-on espérer une auto-organisation citoyenne capable de faire ce travail ? Nous sommes probablement à un moment où la compétence existe, par exemple dans les EPST (établissements publics scientifiques et techniques), voire dans certaines communautés. Mais il est très peu probable qu’une auto-organisation se produise. Et ne rien faire participe à dégrader notre confiance dans le numérique.

C’est à ce point que le problème de l’économique se pose à nouveau. Si notre modèle est un transfert vers des algorithmes, il est nécessaire que nous (citoyens) ayons une confiance minimale en eux. D’où l’idée de les valider. C’est un enjeu autant pour l’état que pour les entreprises. Il ne s’agit pas d’avancer ici une solution, mais simplement de rappeler que quelque soit l’organisation choisie, il est nécessaire d’en assurer tout autant son indépendance que sa capacité de travail, et cela en investissant sur cette mission.

 

 

On trouvera à la suite la liste des recommandations extraites du rapport.

Recommandation n° 1. Créer une plateforme collaborative scientifique, destinée à favoriser le développement d’outils logiciels et de méthodes de test d’algorithmes, ainsi que de promouvoir l’utilisation de ces outils et méthodes. Cette plateforme permettrait de faire appel à des équipes de recherche, des enseignants, des étudiants ou des experts, publics ou privés.

Recommandation n° 2. Créer une cellule de contrôle spécialisée « bureau des technologies de contrôle de l’économie numérique», pour l’ensemble des pouvoirs publics, implantée au sein de la DGCCRF.

Recommandation n° 3. Communiquer sur le fonctionnement des algorithmes. Quand un algorithme est affiché explicitement, ou perceptible pour l’utilisateur, identifier l’équipe où la personne responsable de son fonctionnement (« chief algorithm officer ») et communiquer au nom de cette équipe, pour rendre visible l’action humaine qui est aux commandes derrière l’algorithme.

Recommandation n° 4. Développer, dans les secteurs de l’emploi, de la santé, de la finance et de l’assurance, les réflexions avec les parties prenantes pour identifier de nouveaux services utilisant des algorithmes de traitement des contenus. Pour ces « services algorithmiques », identifier un pilote chargé de réunir un forum pour établir et promouvoir au niveau international des règles de bonnes pratiques.

Recommandation n° 5. Lancer un programme de formation à l’attention des agents opérant un service public utilisant un algorithme, pour les former au respect des obligations de transparence et de communication inscrites dans la loi République numérique.

Prendre le temps de célébrer : le numéro spécial de la revue TAL « TAL et éthique »

Nous passons notre temps à courir. D’une activité à l’autre, d’une vie à l’autre, d’un désir à l’autre. Nous célébrons peu, car les réalisations doivent se succéder, à un rythme de plus en plus soutenu. Pour obtenir un poste. Pour trouver un financement. Pour faire carrière. Pour ne pas avoir à penser trop à ce que nous faisons de nos vies.

En cette nouvelle année, je nous souhaite de trouver la volonté de prendre le temps. En particulier le temps de célébrer nos réussites, le résultat de nos efforts, si peu considérés, alors que nos échecs font si souvent l’objet de d’analyses, de relectures, de signalements. Bien entendu, il est sain de faire cette démarche et si naturel pour des scientifiques… Cependant, quelqu’un m’a fait remarquer il y a peu que fêter nos réussites est tout aussi important, pour entretenir l’envie et faire vivre les collectifs.

Je souhaite donc ici célébrer le numéro spécial de la revue TAL consacré à l’éthique, publié (en ligne, gratuitement) in extremis (encore une question de temps) juste avant Noël, après plus d’un an et demi de travail :

https://www.atala.org/IMG/pdf/Book_57-2-2.pdf

Revue TAL "TAL et éthique"Je suis fière de ce volume, sur le fonds, sur la forme, et sur ce qu’il dit de notre communauté de chercheurs/ses. C’est le premier numéro de revue centré sur le sujet, et il émane de la communauté francophone. Il a été construit grâce au travail d’un collectif très large, comprenant les rédacteurs en chef invités (Gilles Adda, K. Bretonnel Cohen et moi-même), l’un des rédacteurs en chef de la revue TAL (Jean-Luc Minel), les membres du comité de lecture (ceux listés ici et ceux du comité de rédaction de la revue TAL), les auteurs des papiers (soumis et acceptés), le comité de rédaction de la revue (CR) et la relectrice. J’ai été l’initiatrice du projet et j’en ai assuré le suivi, mais je n’étais pas seule et jamais je n’aurais pu le mener à bien sans l’aide, le conseil et l’énergie non seulement de mes co-rédacteurs en chef, mais également d’autres personnes autour (je pense en particulier aux membres du CR de ce blog).

Le résultat est très beau sur la forme, grâce au travail minutieux des auteurs, des relecteurs et de la relectrice (une véritable professionnelle, dont le travail d’harmonisation est indispensable).

Sur le fonds, je vous laisse juger par vous-même. Prenez le temps de lire les articles 😉
Quant à moi, j’ai beaucoup appris.

Contenu du numéro

Processus de création

Nous avons reçu sept propositions d’articles anonymisées (seuls JL Minel et moi-même pouvions voir les noms des auteurs et nous n’avons pas participé à la relecture). Nous avons dû rejeter l’une d’entre elles pour une question de forme (article trop court), sans relecture.

Le processus de relecture de la revue TAL comprend deux phases, au terme desquelles trois articles ont été sélectionnés.

Nous (les rédacteurs en chef invités) avons rédigé l’introduction, qui a été relue (cette fois-ci, c’est du double ouvert) par les rédacteurs en chef de la revue TAL (membres du CR), corrigée, puis de nouveau relue et corrigée (tout cela assez vite, car le temps – encore lui – pressait). J’ai également fait relire notre travail par les auteurs des articles du numéro de la revue, afin de vérifier que nous ne disions pas de bêtise concernant leurs articles.

Pour information, un numéro de la revue TAL ne peut contenir plus de cinq articles (y compris l’introduction, si elle est longue, ce qui était le cas ici).

Une fois acceptés, les articles sont dés-anonymisés puis confiés à une relectrice professionnelle, qui envoie ses remarques aux auteurs, qui doivent les prendre en compte pour la publication.

Tout cela est géré par les rédacteurs en chef invités et le CR de la revue TAL, c’est-à-dire par des membres co-optés de notre communauté, qui font ça bénévolement et de manière très « propre » (déontologiquement parlant) : non seulement les articles sont anonymes (et les relecteurs aussi, c’est du double aveugle), mais ils sont assignés (en l’occurrence, par moi, avec accord de JL Minel) à des relecteurs qui ne sont pas du même laboratoire (et a priori pour qui cela ne présente pas de conflit d’intérêt (couples, collaborateurs réguliers, etc)) et les membres du CR (et les invités) qui appartiennent aux laboratoires des auteurs sortent lors des discussions sur les articles.

Bien entendu, rien n’est parfait en ce monde et certains points sont identifiés et en cours d’amélioration (comme la plateforme, peu adaptée au processus de relecture spécifique de la revue), mais c’est notre revue et nous pouvons en être fiers : auto-gérée et en accès libre (vrai open access), c’est une revue dont la qualité est reconnue (je n’ai pas trouvé son classement officiel, mais il me semble qu’elle est classée A).

En ce 1er janvier 2017, je lève donc ma coupe (ma tasse de café, en fait, je me remets doucement…) à ce numéro spécial « TAL et éthique » de la revue TAL et à ceux qui l’ont créé !

Bonne année, éthique et TAL !

PS : certains articles sont déjà cités dans des cours : http://faculty.washington.edu/ebender/2017_575/

 

La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf