Réplicabilité vs protection des données : l’impossible équilibre

Depuis quelques années, nous assistons et participons à l’essor de préoccupations éthiques dans la communauté de l’intelligence artificielle et en particulier du traitement automatique des langues et de la parole. Dans ce cadre, deux tendances se sont en particulier développées : la réplicabilité des expériences et la protection des données personnelles.
Ces tendances ont émergé de la volonté de la communauté de produire une « meilleure » recherche, plus éthique, plus responsable, plus durable. Or, elles entrent souvent en contradiction, ce qui pose pour certains la question de leur crédibilité.
Nous visons ici à mieux définir ce dont il est question et les enjeux associés, afin de permettre un débat informé dans la communauté.

Réplicabilité des expériences

Réplicabilité vs reproductibilité

Les termes de reproductibilité et de réplicabilité ont été utilisés dans la littérature, parfois de manière interchangeable, parfois pour désigner des activités différentes. Il s’agit par exemple du fait de réunir les mêmes conditions expérimentales (matériel et méthodes) pour reproduire une expérience à l’identique. Il peut également s’agir de reproduire une expérience avec des variations dans le matériel (par exemple, un corpus) ou les méthodes (par exemple, le type de pré-traitement appliqué à ce corpus). Suite au constat du manque de consensus sur la définition même du terme de reproductibilité en Traitement Automatique de la Langue, (Cohen et al., 2018) proposent de distinguer trois dimensions de la reproductibilité que sont la reproductibilité d’une valeur, d’un résultat et d’une conclusion.

  • La reproductibilité d’une valeur consiste à reproduire une expérience et obtenir la même valeur chiffrée que celle rapportée précédemment (par exemple, une F-mesure de 0,85). L’absence de reproductibilité d’une valeur n’est pas nécessairement un échec – il est typiquement attendu qu’un algorithme non déterministe produise des valeurs différentes à chaque itération.
  • La reproductibilité d’un résultat consiste à reproduire une expérience et obtenir la même observation que celle rapportée précédemment (par exemple, la performance du système A est supérieure à celle du système B). Une expérimentation robuste devrait permettre la reproductibilité d’un résultat, lorsque des conditions expérimentales identiques sont réunies.
  • La reproductibilité d’une conclusion consiste à reproduire une expérience et arriver à la même conclusion que celle rapportée précédemment (par exemple, la méthode M obtient d’excellentes performances pour la tâche T).

Malgré les nuances apportées, le terme de reproductibilité désigne là le fait de reproduire une expérience à l’identique – du moins autant que possible. Nous montrerons dans la suite de ce post que cela n’est pas évident. Nous retiendrons par ailleurs le terme de réplicabilité pour désigner le fait de reproduire une expérience en introduisant des variations volontaires afin d’étudier la robustesse et la « généralisabilité » d’un processus expérimental.

Répliquer quelle partie de l’expérience ?

On peut donc envisager tout un spectre dans le cadre de la réplication d’expériences selon que l’on s’intéresse à reproduire un modèle primaire ou à l’utiliser dans un nouveau cadre.
La question se pose des expériences portant sur des systèmes « complexes » c’est à dire qui imbriquent différents modèles et typiquement les systèmes de TAL qui exploitent des plongements dits « généralistes » voire « universels » qui sont ensuite mis à jour, adaptés etc. sur une tâche précise. Des projets comme la plateforme GLUE (Wang et al. 2018) ont pour objet de faciliter les comparaisons directes entre modèles de langue.

Protection des données

Des données pas données

Ces modèles sont d’autant plus efficaces qu’ils sont entraînés sur de grandes quantités de données. Se pose alors la question de leur disponibilité.
D’une part, pour de très nombreuses langues (la majorité des 7 000 langues recensées sur Ethnologue), ces grandes masses de données sont inexistantes. Ainsi, le corpus OSCAR ne comprend « que » 1 166 langues.
D’autre part, lorsque de grandes masses de données existent pour une langue, elles proviennent très majoritairement du Web dont elles ont été aspirées, ce qui ne pose pas de problème juridique dans les pays anglophones, où le fair use est de mise (dans la mesure où ces données ne sont utilisées que pour des buts de recherche ou d’enseignement), mais qui pose question juridiquement en France, par exemple.

Fournir les modèles ?

Extraire des données à partir d’un modèle d’apprentissage automatique constitue un domaine de recherche à part entière qui fait l’objet de plusieurs méthodes d’attaques, respectivement connues sous le nom de model inversion attacks, membership inference attacks, ou encore GAN-based attacks, etc. Nous parlons bien sûr d’attaques uniquement lorsque les données sur lesquelles le modèle automatique a été entraîné ne sont pas des données publiques sous licence libres, car dans ce cas, mener une telle attaque sur un modèle peut révéler des données qui n’étaient pas censées l’être.

Le cas typique problématique est celui des corpus contenant des données privées, comme la plupart des corpus textuels issus des réseaux sociaux ou extraits du Web. Ce domaine de recherche comporte de nombreux travaux mettant en évidence la possibilité d’extraire des données privées à partir de la plupart des modèles d’apprentissage. Ainsi, (Fredrikson et al., 2014) montrent qu’il est possible d’extraire des informations personnelles sur les génomes à partir de classifieurs linéaires, ou encore de retrouver des informations sensibles à partir d’arbres de décision ou de réseaux neuronaux en exploitant les mesures de confiance, lorsqu’elles sont fournies en sortie du système (Fredrikson et al., 2015).
De même que la plupart des systèmes pouvant être attaqués, des mesures de défense ont été proposées, parmi lesquelles nous pouvons citer la differential privacy (Abadi et al., 2016), l’encryption homomorphique ou encore l’apprentissage fédéré, méthodes qui à leur tour sont le sujet de contre-attaques (Cheu et al., 2019), et ainsi de suite.

Une situation particulière est celle des modèles profonds génératifs, comme les modèles de langage, qui sont utilisés aujourd’hui dans quasiment tous les services de traitement automatique des langues, y compris la reconnaissance de la parole, la traduction automatique, les systèmes de question-réponse, de résumé automatique, d’agents conversationnels, de plongements contextuels de mots ou de phrase, etc. Ces modèles sont particulièrement sensibles car ils sont entraînés sur de grands corpus qui contiennent inévitablement des données personnelles, et sont largement diffusés ou accessibles aujourd’hui à un large public, soit directement, soit au travers de services, comme l’aide à la rédaction de SMS, la correction orthographique, et peuvent donc faire l’objet d’attaques en « boîte noire » ou non. Une publication jointe de chercheurs de Google et des Universités de Berkeley et de Singapour (Carlini et al., 2016) étudie ce problème particulier en proposant une approche pour quantifier les risques encourus de retrouver des données privées comme des numéros de carte de crédits dans de tels modèles. Ces travaux montrent que l’ajout de bruit modéré dans le processus d’apprentissage, comme préconisé par la méthode de differential privacy, constitue une parade efficace contre ce type d’attaques.
Toutefois, d’autres travaux (Leino & Fredrikson, 2019) proposent une nouvelle forme d’attaque par membership inference qui exploite les idiosyncrasies des données du corpus d’apprentissage. Or, il est également montré dans ces travaux que lorsque l’on réalise un apprentissage par (, δ)-differential privacy avec des valeurs relativement grandes (Jayaraman et al., 2019), malgré des pertes substantielles en taux de reconnaissance, le modèle reste sensible au type d’attaque proposé.

En conclusion, les attaques sur les modèles de deep learning et leurs défenses respectives constituent un champs de recherche très actif, et il n’existe pas de solution à l’heure actuelle permettant de garantir que des données privées dans les corpus d’apprentissage ne puissent pas être extraites des modèles.

Quel avenir pour la recherche « non reproductible » car réalisée sur des données non partageables?

La crise du COVID-19 a mis la recherche sous les projecteurs de l’actualité, en particulier sur le sujet de la reproductibilité. Ainsi, une étude publiée dans la prestigieuse revue médicale Lancet (Mehra et al. 2020) a fait l’objet d’une rétraction décrite ainsi dans la presse grand public:

« Coup sur coup, deux des plus grandes revues médicales mondiales ont procédé à la rétractation d’articles ayant trait au Covid-19, fondés sur des données fournies par une société américaine, Surgisphere, et à l’origine, désormais, plus que douteuse. »

Le Monde, 4 Juin 2020

Cependant, la lecture attentive de la mise en garde ayant conduit à la rétractation indique que les auteurs «n’ont pas été en mesure d’effectuer un audit indépendant des données qui sous-tendent leur analyse ». Cela signifie que des données médicales confidentielles n’ont pas pu être partagées hors de l’hôpital dans lequel les patients ont été pris en charge. Sans prendre position sur ce cas particulier que nous ne connaissons que par voie de presse, il nous semble mettre à jour une question intéressante concernant la recherche sur des données confidentielles.

Est-ce que pour autant, un travail réalisé sur des données non partageables (car confidentielles) mérite de ne pas être pas publié ? Selon nous, l’intérêt supérieur du patient et son droit à la confidentialité priment. Par ailleurs, refuser la publication de travaux réalisés sur des données non partageables implique pour les chercheurs de choisir entre 1/travailler sur des données non partageables et avoir de fortes contraintes de publication ou 2/ travailler sur des données partageables et être libre de publier. Dans le contexte de recherche actuel où la publication est l’un des moyens principaux de valoriser le travail de recherche, cela pousserait les chercheurs à se détourner de certains domaines de recherche. Ce problème est particulièrement prégnant pour le TAL clinique dans les langues autres que l’anglais, puisque les textes cliniques sont, par nature, impossibles à anonymiser au sens de la législation européenne.

Mazancourt et al. ont proposé la notion de « tiers de confiance » ou de « cercle garant », avec un exemple de mise en oeuvre sur un corpus de courriers électroniques (Mazancourt et al. 2014). Cependant, on peut se demander dans quelle mesure cette démarche est applicable pour un corpus clinique ?



Conclusion

Si les risques liés à la diffusion de modèles semblent pour l’instant limités et si les efforts de partage de données et de modèles reposent sur des intentions louables, il est important de rappeler que la diffusion de modèles n’est éthique et réglementaire qu’avec l’assurance que ceux-ci ne comprennent que des données libres.

Nous en sommes loin.

Pire, nos modes d’évaluation nous poussent dans la direction opposée : pour publier dans une conférence sélective, il faut beaucoup de données (ce n’est obligatoire, mais ça aide bien) et pour publier rapidement, on ne v|peut pas toujours vérifier les sources de ces données.

Pire encore, la tendance, positive, à fournir les moyens de répliquer l’expérience, pousse à publier des corpus pas toujours très « propres », pour faire de la recherche propre !

Dans un tel contexte, avec peu d’incitation pour une recherche plus lente, plus respectueuse des données, les individus qui font cet effort se retrouvent souvent moins bien évalués. C’est un cercle vicieux, un problème systémique que la création de comités d’éthique dans les conférences EMNLP 2020, puis NAACL 2021 ne règle pas totalement, puisque les lois ne sont pas les mêmes partout dans le monde (en particulier concernant le fair use).

On pourrait envisager la création d’un « label rouge » des modèles et des résultats état de l’art, mais encore faudrait-il en définir les critères et trouver des gens pour l’appliquer…

Aujourd’hui, les grosses compagnies entraînent leurs modèles sur le Web entier sans (trop) se poser de question. Mais est-ce que bigger data sera vraiment better data ? Est-ce qu’elles vont arriver à créer un modèle du monde ? Pour quelles langues ? Pour quels citoyens ? Quel rôle devons-nous jouer face à elles, avec elles ?

Ces questions nous concernent non seulement en tant que chercheurs, mais également (surtout) en tant que citoyens.

Karën Fort, Aurélie Névéol, Sophie Rosset et Christophe Cerisara

Références

A BADI M., CHU A., GOODFELLOW I., MC MAHAN H. B., MIRONOV I., T ALWAR K. & ZHANG L. (2016). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, p. 308–318.

CARLINI N., LIU C., ERLINGSSON Ú., KOS J. & SONG D. (2016). The secret sharer : Evaluating and testing unintended memorization in neural networks. In 28th {USENIX} Security Symposium ({USENIX} Security 19), p. 267–284, Santa Clara, CA, USA.

CHEU A., SMITH A. & ULLMAN J. (2019). Manipulation attacks in local differential privacy. arXiv preprint arXiv :1909.09630.

COHEN K. B., XIA J., ZWEIGENBAUM P., CALLAHAN T., HARGRAVES O., GOSS F., IDE N., NÉVÉOL A., GROUIN C. & H UNTER L. E. (2018). Three Dimensions of Reproducibility in Natural Language Processing. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).

DE MAZANCOURT H., COUILLAULT A., RECOURCÉ G. (2014). L’anonymisation, pierre d’achoppement pour le traitement automatique des courriels. Journée d’Etude ATALA Ethique et TAL, Nov 2014, Paris, France. http://www.schplaf.org/kf/pdf/mazancourt-couillault-recourceJEEthiqueTal.pdf

FREDRIKSON M., JHA S. & RISTENPART T. (2015). Model inversion attacks that exploit confidence information and basic countermeasures. In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, p. 1322–1333.

FREDRIKSON M., LANTZ E., JHA S., LIN S., PAGE D. & T. R. (2014). Privacy in pharmacogenetics : An end-to-end case study of personalized warfarin dosing. In USENIX Security Symposium, p. 17–32.

JAYARAMAN B. & EVANS D. (2019). Evaluating Differential Private Machine Learning in Practice. In USENIX Security Symposium, p. 1895-1912.

LEINO K. & FREDRIKSON M. (2019). Stolen memories : Leveraging model memorization for calibrated white-box membership inference. arXiv preprint arXiv :1906.11798.


MEHRA MR, DESAI SS, RUSCHITZKA F & PATEL AN. (2020). RETRACTED: Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19: a multinational registry analysis. Lancet. Published:May 22, 2020 DOI:https://doi.org/10.1016/S0140-6736(20)31180-6

WANG A., SINGH A., MICHAEL J., HILL F., LEVY O. & BOWMAN S. (2018). GLUE : A multitask benchmark and analysis platform for natural language understanding. In Proceedings of the 2018 EMNLP Workshop BlackboxNLP : Analyzing and Interpreting Neural Networks for NLP, p. 353–355, Brussels, Belgium : Association for Computational Linguistics. doi : 10.18653/v1/W18-5446.

Microtravail : au service de qui ?

Le nouveau média https://www.caracteres.media m’a interviewée sur le sujet du microtravail (microworking crowdsourcing).

La journaliste, Flora Cortès a fait du beau boulot et présente le sujet de manière pédagogique, mais complète.

C’est ici : https://www.caracteres.media/micro-travail-economie-du-clic-au-service-de-intelligence-artificielle/

Le générateur de texte d’OpenIA: nième tentative d’Elon Musk de nous faire peur

La presse nous apprend par un titre accrocheur le dernier avatar de la méchante intelligence artificielle qui va nous manger tout cru.
« Des chercheurs ont-ils développé une intelligence artificielle trop dangereuse pour être mise en service ? »
La forme interrogative est-elle le signe que les journalistes ont appris des précédentes annonces de production d’intelligences artificielles laissant apparaître des prémices d’une intelligence forte ? espérons-le.
Car cette annonce de la sortie d’un système de génération de texte est surtout un coup marketing. Ainsi, OpenIA, centre de recherche financé entre autres par Elon Musk, a produit un système de génération de texte qui, si on lui soumet une certain nombre de paragraphes initiaux, est capable de compléter le texte, en utilisant la connaissance extraite des textes présents sur le web. Les essais effectués sont particulièrement efficaces en ce qui concerne les textes journalistiques. Ceci  montre surtout la capacité de la plupart des journalistes de reproduire sous diverses formes le même article sur un sujet donné, puisque le système reproduit en fait ce qu’il trouve sur la toile.
Mais en quoi cette nouvelle intelligence artificielle serait-elle trop dangereuse pour être divulguée ? Elle se conforme effectivement à cette obligation mimétique de la plupart des journalistes, qui n’est plus à prouver, mais fera de toute façon moins bien que ses inspirateurs, les humains générant des textes sur le web et en particulier sur les réseaux sociaux. Les créateurs de GTP-2, c’est le nom du système, (ils ne se sont pas trop fatigués, peut-être devraient-ils créer une intelligence artificielle qui génère des noms accrocheurs et évocateurs…) auraient peur de sa faculté à générer des fake news qui ressemblent à des vraies. Mais évidemment, les textes permettant cette performance existent déjà sur le web, le système ne crée pas de fake news, il les répète bêtement.
Ce que le système remet en cause, c’est principalement le journalisme fast-food qui se contente de digérer un certain nombre de dépêches et les articles des collègues, pour produire un article sans intérêt ; sera-ce une perte ? J’en doute.
Mais en annonçant que les créateurs, tel Frankenstein, ont peur de leur machine, OpenIA rouvre la boîte à fantasmes du mythe de la singularité (défendu par le même Elon Musk) où l’on a surtout pu voir à l’œuvre les tentations transhumanistes et les motivations bassement mercantiles de nous vendre (à toutes les acceptions du terme) des intelligences ou des « améliorations » nous permettant de nous protéger de ces méchantes intelligences.
Il est bien sûr nécessaire de réguler l’IA, mais cela ne passera pas en mettant en avant de telles annonces catastrophes. Ce qu’il faut réguler, ce sont les industriels qui pompent les données en nous imposant des services soi-disant « gratuits », et les structures privées ou publiques qui vont également utiliser ces données pour des fins obscures, et pas ces pauvres intelligences générées par de vraies intelligences, pas forcément bienveillantes.

Ecriture inclusive et point médian : et si l’on causait science ?

InclusiveL’année qui vient de s’écouler a été le témoin de débats animés autour de l’écriture inclusive, cet ensemble de recommandations qui vise à écarter de la langue (le français en l’occurrence) toute forme linguistique pouvant véhiculer des stéréotypes de genre. Cette question n’est pas nouvelle. On se rappelle ainsi les cris d’orfraie de l’Académie Française et les clivages qui sont apparus dans la société française lorsqu’Yvettte Roudy, ministre des Droits de la Femme de François Mitterrand, avait promu en 1984 la féminisation des noms de métiers. Plus de trente ans plus tard, cette incitation linguistique à la parité en milieu professionnel est pourtant largement acceptée: même si linguistes et sociolinguistiques montrent que cette parité terminologique est encore loin d’être atteinte dans la pratique, les voix s’opposant à cette féminisation sont désormais rares et le sujet ne fait plus débat sur la place publique.

Cette fois, c’est une autre question qui agite les esprits : celle du point médian, ce petit signe typographique censé être utilisé pour remplacer les emplois du masculin générique (« je remercie les millions d’électeurs qui m’ont accordé leur confiance ») par une forme composée de l’emploi masculin suivi du suffixe de sa forme féminine (« les millions d’électeur·rice·s »). Deux évènements ont assuré la promotion de cette controverse au sein du grand public : la sortie d’un ouvrage scolaire rédigé en écriture inclusive chez les éditions Hatier et, à l’opposé, la circulaire du gouvernement appelant l’administration à ne pas utiliser cette écriture neutre [1]. Très rapidement, les querelles sur genre et langue ont repris avec une vigueur renouvelée et une fois encore, les passions semblent l'emporter sur la raison critique. Ainsi en est-il d’une France qui a toujours eu du mal à penser son rapport à sa langue, comme le montre par exemple Daniel Luzzati dans son ouvrage sur l’orthographe du français [Luzzati 2010]. Ajoutez le sujet explosif de l’évolution du français à celui de la parité, vous avez là tous les ingrédients pour un débat à la française, où les symboles l’emportent sur les faits.

Sur ce blog consacré aux enjeux éthiques de la recherche en TAL, il me semble nécessaire de se focaliser uniquement sur des faits scientifiques qui peuvent éclairer le débat. La linguistique le peut-elle sur une question qui la concerne au premier chef ? Assurément, si les scientifiques parviennent à écarter tout a priori idéologique de leur analyse. Or, cela semble être rarement le cas, sans doute parce qu’il nous est difficile d’écarter toute passion sur un objet culturel qui nous définit intimement.

Langue et société : qui est l’œuf et qui est la poule ?

Wikipedia_logo_eggPrenons la question de savoir si la langue n’est que le reflet de la réalité sociale et qu’il est donc illusoire de vouloir la réformer par décret [Hagège 2017], ou si elle créée et véhicule des symboles qu’il convient de réformer pour lutter contre les stéréotypes genrés [Butler 1997]. La linguistique diachronique (i.e. qui s’intéressse à l’évolution de la langue) a été mise à contribution dans ce débat. Les réformistes favorables à l’écriture inclusive affirment ainsi que la règle d’accord selon laquelle le masculin l’emporte sur le féminin au pluriel (« Pierre et Marie sont amis ») n’est pas naturelle : il s’agirait d’une construction imposée aux XVIII° par volonté de domination masculine, alors que le latin comme le français jusqu’aux classiques tels Racine privilégiaient l’accord par proximité (« Pierre et Marie sont amies », accord au féminin car Marie est plus proche de l’adjectif). De nombreux faits tangibles sont évoqués pour appuyer cette analyse. On cite ainsi le grammairien Dominique Bouhours, qui écrit en 1675 que « lorsque les genres se rencontrent il faut que le plus noble l’emporte », le « genre masculin étant réputé plus noble que le féminin » selon son influent collègue Nicolas Beauze.

La démonstration n’est plus à faire de l’influence qu’ont eu les grammairiens [2] sur l’évolution du français. Toutefois, nous avons une connaissance trop imparfaite de l’usage réel de l’accord de proximité en français classique pour que la linguistique tranche ce débat. Dans un article récent (Télérama 3545-3546, pp. 67-69), Alain Rey affirme que l’accord de proximité fut peu utilisé en pratique, mais il ne détaille pas la nature des données sur lesquelles il forge cette observation : se base-t-il par exemple sur des actes de la vie administrative ou juridique quotidienne ? Pour défendre à l’opposé la réalité de l’accord par proximité, Eliane Viennot s’appuie quant à elle avant tout sur des œuvres littéraires telles que celles de Ronsard (Viennot 2017).

Le point médian : une introduction anodine ou un vrai facteur de risque ?

Votes_For_WomenAinsi, les réflexions linguistiques qui sont échangées sur l’écriture inclusive relèvent le plus souvent de l’argument d’autorité. Lorsque le point médian arrive dans le débat, nous ne sommes plus très loin du café du commerce (c’est à ce niveau que je range les arguments de type « esthétiques » sur cette forme écrite) ou de postures purement idéologiques. Tâchons donc d’étudier le point médian d’un point de vue purement objectif, en répondant à la question suivante : le point médian constitue-t-il un facteur de risque pour les individus ou la société ?

Suivant une approche éthique conséquentialiste, le point médian est un facteur de risque s’il est la cause d’un effet non attendu par rapport aux objectifs de son introduction [Lefeuvre-Haltermeyer et al. 2016]. Le point médian a pour objectif de participer à la réduction des stéréotypes genrés. Quelle pourrait être son influence à d’autres points de vue ? La réponse qui a été le plus souvent évoquée est celle des difficultés de lecture et d’apprentissage qu’entraîne son usage. Que peut nous dire la science, loin de tout parti pris partisan, sur ce sujet ?

Notons tout d’abord que cette question de facilité de lecture n’est pas anodine. L’ergonomie cognitive a en effet montré de longue date que des modifications de présentation mineures d’un texte écrit pouvaient avoir un effet sensible sur la qualité de lecture. Des expériences ont ainsi montré que la longueur idéale d’une ligne d’affichage dans une langue utilisant l’alphabet latin était de 60 caractères, et que, par exemple, réduire cette longueur de 33% ralentissait de 25% la vitesse de lecture [Duchnicky & Kolers 1983]. Burns et ses collègues (1986) montrent de même que les options de formatage des textes affichés sur un écran ont un impact sensible sur les performances (vitesse, erreurs) de lecture. Il en est de même de l’utilisation d’une police d’affichage avec ou sans empattement, ou du choix de la couleur d’impression [Götz 1998].

Ces exemples de facteurs influençant les performances de lectures ne concernent que des choix d’affichage assez anodins, à la différence de l’intégration d’un signe typographique tel que le point médian au sein même des mots. Il est donc raisonnable de poser que le point médian constitue un facteur de risque sur les activités de lecture. Reste à étudier sa criticité, c’est-à-dire l’importance réelle de l’impact de son usage, pour pouvoir trancher la question de son introduction dans la langue par une analyse de type coût / bénéfice.

Risque lié à l’usage du point médian : la psycholinguistique silencieuse…

A ma connaissance, seule une expérience suisse a tenté de mesurer l’impact de l’usage du point médian (ou du tiret) : elle concernait le cas très précis des noms de métiers rédigés en écriture inclusive (par exemple : instituteur·rice) au sein de textes complets [Gygax & Gesto 2007]. Cette étude montre un effet d’habituation très rapide, puisque le ralentissement de la lecture ne concerne que la première rencontre avec le nom de métier concerné. Il serait toutefois dangereux d’en généraliser trop rapidement ses conclusions :

– l’étude ne portait que sur les noms de métier, et non pas sur l’ensemble des dénominations concernant des personnes,

– les noms de personnes sont majoritairement formés avec un nombre restreint de suffixes (-é, –eur, –iste…) et ne mobilisent donc qu’un ensemble assez réduit de formes de rédaction en écriture inclusive.

– les sujets ayant participé à l’expérience étaient des adultes en possession de toutes leurs compétences langagières : les questions de l’apprentissage de la lecture, du handicap, dépassent la portée de cette étude.

Risque lié à l’usage du point médian : intuitions neurocognitives

HearReadBrainPuisqu’aucune étude expérimentale n’a à ce jour quantifié globalement l’impact du point médian sur les activités de lecture, je propose de nous tourner vers les acquis des neurosciences cognitives. Les études sur les pathologies liées à la galaxie des troubles DYS (dyslexie, dysorthographie, etc.) nous éclairent sur les chemins cognitifs de la lecture [Crunelle 2008]. Deux voies cognitives de lectures parallèles (redondantes ou alternatives) sont mobilisées lors de l’activité de lecture :

– d’une part, une voie dite d’assemblage (ou phonologique), qui repose sur une segmentation graphémique suivie d’une conversion graphème-phonème : on passe de la lecture des caractères et de leur association à la reconnaissance des sons de base de la langue : les phonèmes puis les syllabes,

– d’autre part, une voie dite d’adressage (ou lexicale) qui consiste en un accès direct global aux mots écrits par accès à un lexique conservé en mémoire à long terme.

La voie lexicale est privilégiée pour la lecture des mots courants (mémorisés et facilement activables) ou à la prononciation irrégulière (comme pour people en anglais), puisque dans ce cas la conversion graphème-phonème est inopérante. La voie phonologique est-elle privilégiée lors de la découverte de nouveaux mots, puisqu’on tente alors de s’appuyer sur les règles de conversion graphème-phonème régulières de la langue. C’est donc la voie privilégiée de l’apprentissage de tous les mots à prononciation ordinaire.

Considérons la forme neutre du pronom pluriel ceux/celles telle que recommandée dans une écriture inclusive : ceux·lles. On voit immédiatement que le point médian casse complétement les possibilités de conversion graphème-phonème, puisque le suffixe ·lles qui est incomplet, n’est pas prononçable. Il en va de même d’une écriture moins compacte et pourtant guère plus prononçable ceux·elles. Bien entendu, par une gymnastique cérébrale peu naturelle, on doit pouvoir arriver à recomposer la bonne lecture du mot. A priori, la charge cognitive supplémentaire engendrée par cette opération ralentira la lecture. Ce calcul cognitif additionnel reste toutefois totalement inaccessible aux personnes atteintes d’une dyslexie phonologique. On peut imaginer également l’impact négatif de l’usage du point médian sur des jeunes en plein apprentissage de la lecture, puisque l’apprentissage privilégie cette voie cognitive en se basant sur des règles aussi régulières que possibles.

La seule alternative cognitive pour lire aisément la forme ceux·lles est d’en passer par la voie lexicale. Pour cela, il faut toutefois que la forme ceux·lles ait été intégrée dans le lexique phonologique. Donc que la personne ait déjà appris sa prononciation après forces lectures répétitives. Mis à part les mots grammaticaux très fréquents, cette solution n’est accessible qu’aux lecteurs et lectrices assidues. Du point de vue de l’apprentissage de la lecture, on risque donc de renforcer, par l’usage du point médian, les différenciations sociales entre personnes qui bénéficient d’un environnement favorisant la lecture et les autres. Les personnes qui souffrent de dyslexie de surface (atteinte de la voie d’adressage) ne peuvent par ailleurs se reposer sur cette solution.

Ces observations neuropsychologiques ne sont que des indications du risque lié à l’utilisation du point médian. Il conviendrait de mener des études expérimentales pour estimer précisément la criticité de cet impact négatif. Ces études semblent toutefois supporter l’idée qu’en cherchant à réduire les discriminations liées au genre dans la langue, on peut renforcer les discriminations d’accès à la lecture liées à des critères sociaux ou au handicap.

L’expérience de [Gygax & Gesto 2007] nous montre que, dans certains conditions favorables, l’écriture inclusive avec point médian ne gêne pas la lecture. Son usage dans certains écrits politiques, scientifiques ou professionnels, et sur certaines formes très régulières (é·e·s) pourrait être tolérée afin de rappeler à coût réduit l’importance de la question des stéréotypes genrés. Mais sa généralisation par décret me semble avoir un impact négatif trop important sur certaines populations fragiles pour être envisagée sans la mise en place d’études expérimentales préalables.

Ecriture inclusive : et si l’on quittait un débat franco-français ?

255px-Flag_of_Quebec.svgAlors, quelles solutions face aux discriminations de genre, mais aussi de classe sociale ou de handicap ? De mon point de vue, le problème est mal posé et le point médian n’est simplement pas le bon outil pour atteindre les objectifs énoncés par les réformistes favorables à l’écriture inclusive. Plutôt que de débattre stérilement comme jusqu’à présent, la France serait bien avisée de regarder du côté d’autres démarches amorcées depuis des décennies dans certains pays. L’article de Télérama déjà évoqué cite ainsi, en reprenant les propos du linguiste Wim Remysen (Université de Sherbrooke) l’exemple du Québec, qui a adopté sans remous des recommandations d’écriture à la fois moins genrées et fluides à la lecture. Plusieurs principes guident ces recommandations :

  • Favoriser l’utilisation de termes épicènes, c’est-à-dire qui peut être employé au masculin comme au féminin sans changer de forme, comme élève ou réformiste,
  • Ne pas utiliser le masculin générique,
  • Eviter la surabondance des formes masculines et féminines juxtaposées (les citoyens et les citoyennes),
  • Enfin, employer des termes neutres qui peuvent regrouper les deux genres (la communauté scientifique plutôt que les chercheurs et les chercheuses)

Ces recommandations vous paraissent trop lourdes et plus difficiles d’emploi que le point médian ? Relisez ce billet : il a été écrit en tentant de les respecter. Y avez-vous rencontré une difficulté de lecture, des lourdeurs terminologiques ou des stéréotypes genrés ? Non ? Dès lors, pourquoi recourir au point médian ? N’est-il pas le reflet d’une certaine paresse linguistique, là où outre-Atlantique, on joue avec sagacité avec le français pour le faire évoluer vers le reflet d’une société plus paritaire ?

[1] JO du 22 novembre 2017. Cette circulaire va au rebours des recommandations du Haut Conseil pour l’Egalité entre les Hommes et les Femmes

[2] Connaissez-vous des grammairiennes influentes ? Moi non, activité réservée à la gente masculine ?

References

Burns et al.  (1986) Formatting space-related displays to optimize expert and non-expert performance, SIGCHI’86 Human Factors in Computer Systems, ACM, N-York, 275-280

Butler J. (1997) Excitable speech: a politics of the performative. New York: Routledge.

Crunelle D. (2008) Les dys … dyslexies et autres troubles. Recherches n° 49, Troubles du langage et apprentissages, 2008-2

Duchnicky, J. L., & Kolers, P. A. (1983). Readability of text scrolled on visual display terminals as a function of window size. Human Factors, 25, 683-692

Götz V. (1998) Color and type for the screen. Grey Press & Rotovision, Berlin, RFA

Gygax P., Gesto N. (2007) Féminisation et lourdeur de texte. L’année psychologique, 107, pp. 239-255.

Hagège C. (2017) Ce n’est pas la langue qui est sexiste, mais les comportements sociaux. Le Monde, 26 décembre 2017.

Lefeuvre-Halftermeyer A., Govaere V., Antoine J.-Y., Allegre W. , Pouplin S., Departe J.-P., Slimani S., Spagnulo S. (2016) Typologie des risques pour une analyse éthique de l’impact des technologies du TAL. Traitement Automatique des Langues, TAL, vol. 57 n° 2. pp. 47-71

Mayhew D.J. (1992) Principles and guidelines in software user interface design. Prentice-Hall

Luzzati D. (2010) Le français et son orthographe. Didier, Paris. ISBN 978-2-278-05846-4.

Marshall, J. C.; Newcombe, F. (1973) Patterns of paralexia: a psycholinguistic approach. Journal of Psycholinguistic Research. 2 (3): 175–99.

Viennot E. (2017) Non, le masculin ne l'emporte pas sur le féminin ! Petite histoire des résistances de la langue franaise (2nde édition augmentée). Editions. iXe

 

Pour la valorisation de la diversité de notre communauté scientifique

Nous avons fait l’année dernière un état des lieux de la représentation des femmes dans les instances de la communauté TAL. Sans surprise, nous avions conclu à un déséquilibre: les femmes sont sous représentées, notamment dans des rôles à forte visibilité comme les conférences invitées ou les présidences diverses. Et s’il s’agissait au moins en partie d’une question de confiance?

Le décalage dans la confiance en soi des hommes et des femmes a des conséquences sur l’avancement de carrière des femmes [1]. Des études scientifiques montrent la différence de perception entre la compétence des femmes et des hommes par les individus concernés et par leurs pairs: à compétence égale, les femmes sont perçues comme moins compétentes que les hommes. Cet état d’esprit est une source d’auto-censure pour se présenter – et pour obtenir – une reconnaissance professionnelle sous forme de prix, de prime, d’avancement de carrière. Des données anecdotiques récentes abondent également dans ce sens: pour un prix national d’économie sélectionnant un lauréat.e parmi des candidat.e.s auto-proclamé.e.s, seuls 8 dossiers de candidature sur 42 (soit 19%)  ont été soumis par des femmes [2].

La bonne nouvelle, c’est qu’il ne tient qu’à nous de faire évoluer cette situation et d’être pro-actifs pour améliorer la diversité et l’égalité au sein de notre communauté.

L’association ELRA (European Language Resources Association) sollicite actuellement des nominations pour le prix Antonio Zampolli, qui récompense des travaux sur les ressources langagières et l’évaluation des technologies de la langue. La liste des lauréat.e.s comporte 9 collègues… dont 8 hommes  et 1 femme (en co-nomination). On peut également noter que 7 des lauréat.e.s sont rattachés à une institution américaine et 2 rattachés à une institution britannique.

La diversité des candidats examinés à chaque session en termes de géographie ou de genre n’est pas indiquée sur le site. Cependant, nous avons cette année l’opportunité  de faire en sorte que le comité puisse examiner des contributions reflétant la diversité de notre communauté.  Je vous invite donc à nominer et à faire nominer des collègues méritant.e.s. N’hésitez pas à laisser vos suggestions en commentaires si cela peut donner des idées à d’autres pour appuyer une nomination. La date limite de réception des candidatures par ELRA est le 1er février 2018.

Références:
[1] Kay K, Shipman C. The confidence Gap. The Atlantic. May 2014.
[2] La conférence des économistes. Le prix du meilleur jeune économiste 2017. Le Monde. 22 Mai 2017.

Relecture par les pairs : un état de l’art

Nous en discutons entre nous depuis presque un an, le sujet va et vient, la motivation pour écrire aussi… nous avons tant de choses à dire,
à contredire !

Je me lance, donc, en espérant de l’aide — Aurélie Névéol a répondu présente, ceci est donc un article à quatre mains — : quels sont les mécanismes possibles de relecture par les pairs ? ceux qui sont appliqués autour de nous ?  les options (auxquelles nous ne pensons même pas) ? leurs avantages ? leurs inconvénients ? y a-t-il des études menées sur le sujet ?
Bref, des données ! (#datalove)

Méthodes de relecture par les pairs

Il existe quatre principaux types de fonctionnement des relectures par les pairs, prenant en compte l’anonymat ou non des auteurs.trices et/ou des relecteurs.trices. On a ainsi :

  1. le double ouvert  : les auteurs.trices ne sont pas anonymes pour les relecteurs.trices et les relecteurs.trices signent leur relecture (les auteurs.trices savent qui les a relus). C’est le cas de certaines revues du groupe BMC, comme BMC Medical Informatics and Decision Making (qui comptait le 15/03/2017 186 articles publiés sur une thématique de TAL biomédical). Les revues signées ainsi que les réponses des auteurs.trices aux commentaires des relecteurs.trices sont disponibles publiquement dans la rubrique « pre-publication history » associée à chaque article publié.
  2. son pendant, le double aveugle : les auteurs.trices sont anonymisés lors de la soumission de l’article (les relecteurs.trices ne savent a priori pas qui ils/elles sont) et les relecteurs.trices ne signent pas leur relecture. C’est le cas pour TALN depuis quelques années, d’ACL, de COLING et de beaucoup d’autres conférences (il s’agit plus ou moins de la norme).
  3. le simple aveugle : les auteurs.trices ne sont pas anonymes, mais les relecteurs.trices oui. C’était le cas à TALN avant (quand ?) et c’est toujours le cas à LREC, et dans certaines revues comme BMC Bioinformatics (qui comptait le 16/03/2017 905 articles publiés sur une thématique de TAL biomédical).
  4. le cas, très rare et qui n’a pas de nom (si ?), où les auteurs.trices sont anonymes mais pas les relecteurs.trices. La revue DISCOURS, qui permet aux relecteurs.trices de signer leur relecture, permet ce cas de figure, puisque les auteurs.trices sont anonymes.

Enjeux de la méthode de relecture

Avant de rentrer dans le détail des avantages et inconvénients de chacune, il est important de noter qu’au-delà du choix principal, de nombreuses options existent, qui modifient plus ou moins la donne et qui sont tout aussi importantes.
C’est en particulier le cas des interactions entre relecteurs.trices, voire avec les auteurs.trices. Ainsi, dans la plupart des conférences, les relecteurs.trices peuvent voir leurs relectures respectives (une fois la leur entrée), voire leur nom (c’était le cas à TALN il y a quelques années, ce n’est plus possible aujourd’hui), voire, comme pour ACL, disposent de temps pour communiquer entre eux/elles et éventuellement modifier leur relecture et leur évaluation de l’article.

Par ailleurs, ACL propose une période (courte) de rebutal, pendant laquelle les auteurs.trices peuvent répondre aux remarques des relecteurs.trices, qui pourront être amenés à corriger leur évaluation. Cet échange entre auteurs.trices et relecteurs.trices est courant dans les revues, moins dans les conférences. Vue l’importance prise par les conférences dans le domaine du traitement automatique des langues, il semble logique que leur fonctionnement se rapproche de celui d’une revue.

Il faut ajouter à ces éléments le fait de savoir ou non qui est responsable de la track/area : si le processus est totalement décrit pour ACL (en particulier cette année, principalement via le blog des responsables), il ne l’est pas pour TALN. Les revues adoptent également des fonctionnements différents. Dans certains cas, l’éditeur.trice scientifique associé.e à un article ou un numéro sera clairement identifié.e auprès des auteurs.trices pendant la phase de relecture (c’est le cas pour les revues TAL ou BMC Bioinformatics, mais pas pour JAMIA) et cette information sera publiquement visible une fois l’article publié (c’est le cas pour la revue TAL, mais pas pour BMC Bioinformatics).

Pourquoi est-ce que tous ces points sont importants ? Tout simplement pour (tenter de) limiter les biais, les conflits d’intérêts et les relectures de mauvaise qualité. Un processus ouvert permet à plus d’yeux de vérifier si les auteurs.trices ne sont pas en conflit d’intérêt avec les relecteurs.trices (encore faut-il définir ce qu’est un conflit d’intérêt, là encore, ACL fournit des bases de réflexion). Il permet également de dénoncer les mauvaises relectures : un.e responsable de track/area est censé.e lire toutes les relectures, mais il est courant qu’il/elle passe à côté de certains problèmes, par ailleurs, des critiques émises par les co-relecteurs ET par le/la responsable ont un poids d’autant plus important.

Inciter les relecteurs.trices à écrire de bonnes relectures (constructives et respectueuses) peut également passer par des actions positives, comme le prix du/de la meilleur.e relecteur.trice (attribué à LTC ou à l’AMIA), ou la mise en valeur de leur travail par le biais d’un post de blog.

Avantages et inconvénients des méthodes de relecture par les pairs

Le principe de la relecture par les pairs est de permettre une évaluation scientifique des articles publiés, qui soit également indépendante des auteurs.trices.  Les différentes méthodes de relectures proposées ont donc pour but de maximiser les paramètres suivants :

garantie d’indépendance des relectures : l’anonymat des relecteurs.trices a été introduit pour s’assurer qu’ils puissent s’exprimer librement et indépendamment de leur rapport futur avec les auteurs.trices. De même, l’anonymat des auteurs.trices a été introduit afin de les protéger de tout biais (notamment genré) ou préjugé associé à leur identité (par exemple l’institution d’origine) et de focaliser la relecture sur le travail réalisé.

garantie de qualité des relectures : le principe de relecture ouverte est de s’assurer que les relecteurs.trices endossent bien la responsabilité de leur relectures. Il s’accompagne d’une hausse globale de la qualité des relectures [1] mais également d’une baisse de la sincérité des relecteurs.trices par crainte d’éventuelles futures représailles [2].

et, accessoirement :

facilité de gestion des relectures par l’éditeur de la revue : besoin éventuel de « caviarder » des relectures anonymes injurieuses [3], facilité de recrutement des relecteurs.trices (15 % de refus en plus pour le système ouvert d’après une comparaison des chiffres de deux revues d’informatique biomédicale ayant adopté un système différent : BMC Bioinformatics et BMC Biomedical Informatics and Decision Making [Daniel Shanahan communication personnelle]), facilité de mise en œuvre dans le cadre d’un comité éditorial [l’expérience de la revue TAL montre que le double aveugle induit des difficultés logistiques pour procéder à l’affectation des relecteurs.trices en préservant l’anonymat tout en gérant les conflits d’intérêt].

La gestion des revues par des systèmes informatisés permet de collecter un grand nombre d’informations sur les différentes étapes du processus, qui peuvent maintenant être exploitées pour prendre du recul et étudier l’influence des différents paramètres en jeu. Une étude réalisée avec les données issues de 14 conférences en informatique montre par exemple l’importance du dialogue entre relecteurs.trices et du facteur « chance » par rapport à d’autres leviers comme la réponse des auteurs.trices pour permettre la sélection d’articles de qualité [4].

ConclusionS

La transparence des processus génère (beaucoup) plus de travail, donc de temps, pour les organisateurs (y compris area/track chairs) et pour les relecteurs.trices (qui doivent être plus attentifs lors de l’écriture de leur relecture). Mais n’est-ce pas le prix à payer pour la qualité ?

J'(Karën Fort)étais personnellement pour le double ouvert, avant que je lise des papiers qui montrent les biais genrés [5], envers les institutions prestigieuses [6] et les auteurs.trices connus [7], bien que ces effets ne soient pas toujours constatés [8]. Je favoriserais maintenant davantage un système hybride de double aveugle dans un premier temps (avant relecture), puis d’ouverture : les relecteurs.trices voient leurs relectures (et leurs noms), les discutent entre eux, et les auteurs.trices voient les relectures, y répondent, et lorsque tout est terminé, tout le monde voit les noms de tout le monde.

En ce qui concerne l’anonymat ou non des relecteurs.trices (qui ne représente que la partie émergée de l’iceberg, vous l’aurez compris), une possibilité intermédiaire serait de donner le choix aux relecteurs.trices de signer ou non leur relecture (comme dans le cas de la revue DISCOURS). Cela aurait l’avantage de ne forcer personne et de permettre aux relecteurs.trices de s’habituer et de se tester dans cet « exercice ». Mon expérience personnelle est qu’il est beaucoup plus facile de signer une relecture positive ou dans sa langue maternelle qu’une négative ou en anglais (du fait de la finesse de vocabulaire nécessaire).

Je (Aurélie) pense qu’il faut certainement plus d’études comme [4] pour bien réfléchir aux avantages et inconvénients des différents systèmes, et ne pas sous-estimer la part de l’aléatoire qui ne peut être éliminée du processus d’évaluation.

Et vous, vous en pensez quoi (si vous avez des références, nous sommes preneuses) ?

Karën Fort et Aurélie Névéol

Références

[1] Kowalczuk, M. K., Dudbridge, F., Nanda, S., Harriman, S. L., & Moylan, E. C. (2013). A comparison of the quality of reviewer reports from author-suggested reviewers and editor-suggested reviewers in journals operating on open or closed peer review models. F1000 Posters, 4, 1252.

[2] Khan K. Is open peer review the fairest system? No. BMJ. 2010;341:c6425. doi: 10.1136/bmj.c6425.
[3] Groves T. Is open peer review the fairest system? Yes. BMJ. 2010;341:c6424. doi: 10.1136/bmj.c6424.
[4] Zhu J, Fung G, Wong WH, Li Z, Xu C. Evaluating the Pros and Cons of Different Peer Review Policies via Simulation. Sci Eng Ethics. 2016 Aug;22(4):1073-94.
[5] Kaatz A, Gutierrez B, Carnes M. Threats to objectivity in peer review: the case of gender. Trends in pharmacological sciences. 2014;35(8):371-373.
[6] Tomkins A, Zhang M, Heavlin W. Single vs. Double Blind Reviewing at WSDM,  https://arxiv.org/pdf/1702.00502.pdf
[7] Okike K, Hug KT, Kocher MS, Leopold SS. Single-blind vs Double-blind Peer Review in the Setting of Author Prestige. JAMA. 2016 Sep 27;316(12):1315-6.
[8] van Rooyen S, Godlee F, Evans S, Smith R, Black N. Effect of blinding and unmasking on the quality of peer review: a randomized trial. JAMA. 1998 Jul
15;280(3):234-7.

Note de lecture : « le temps des algorithmes »

La revue sur la culture scientifique en ligne Interstices a publié une note de lecture sur Le Temps des algorithmes (editions du Pommier), ouvrage que viennent de publier Abiteboul et Dowek sur les questions et débats éthiques que soulève le développement de notre société numérique :

https://interstices.info/jcms/p_92826/regard-sur-le-temps-des-algorithmes

Note de lecture intéressante qui vous incitera peut-être à aborder l’ouvrage lui-même…

Après le ministère de l’économie, la CNIL débat sur les algorithmes

La question des algorithmes est désormais bien présente au sein du débat politique français : après le rapport sur le sujet du ministère de l’Economie, c’est la CNIL qui lance un débat ce jour. Pour faire la part entre le fantasme et les questionnements éthiques légitimes. Des tables rondes sont à écouter dès ce lundi 23 janvier :

https://www.cnil.fr/fr/ethique-et-numerique-les-algorithmes-en-debat-0

Le ministère de l’économie s’intéresse aux algorithmes !

2016_05_13_rapport_algorithmes1Maintenant que le traitement de l’information a une valeur économique, le ministère de l’économie se doit d’en proposer une régulation. Un rapport intitulé « Modalités de régulation des algorithmes de traitement des contenus », dont les auteurs sont Jacques SERRIS et Ilarion PAVEL, est paru le 15 décembre (vous le trouverez ici).

Le document d’une cinquantaine de page, plus des annexes, revient sur l’importance croissante des algorithmes dans l’économie et il formule cinq recommandations.

Pour arriver à ce résultat, les auteurs ont rencontré différents acteurs institutionnels comme les directions générales des entreprises, du trésor, de la concurrence, ou encore l’agence du numérique, mais également des représentants des industriels, de Google au groupement français des industries de l’informatique, en passant par des acteurs de la recherche publique comme Inria ou l’ENS. On peut reconnaître que les auteurs ont eu a cœur d’ouvrir le paysage de leur investigation.

Les auteurs ont cherché à rendre compte d’une réflexion générale, en y associant régulièrement des exemples précis. Ainsi on retrouve des encadrés qui font un focus concret qui illustrent bien le propos. Ils proposent plusieurs scénari de développement du monde du numérique et mettent en face des questions pour la régulation. Dans une partie suivante, ils reviennent sur différentes pratiques de la régulation, des actions de la Commission Européenne ou de l’exemple américain.

La partie la plus pertinente est probablement la dernière. Les auteurs s’intéressent à ouvrir des pistes d’action pour la régulation. L’une des propositions est de mettre en place une plateforme, et donc un service (public ?) associé ayant pour mission de tester les algorithmes. Il s’agit d’une part de certification, mais surtout de travailler à construire une relation constructive et apaisée entre citoyens et informatique. Un enjeu que l’on ne peut que souhaiter voir prendre de l’essor.

Cette proposition a l’intérêt d’acter l’importance d’interroger notre relation aux algorithmes. Ainsi, il ne s’agit pas de savoir si nous sommes d’accord avec le résultat d’un algorithme, mais bien de se demander comment s’assurer qu’un algorithme fait ce qu’il prétend faire et pas autre chose. On parle alors de croyance dans les algorithmes.

Mais cela pose une question difficile. Accepte-t-on de déléguer à une autorité étatique la validation de nos croyances ou doit-on espérer une auto-organisation citoyenne capable de faire ce travail ? Nous sommes probablement à un moment où la compétence existe, par exemple dans les EPST (établissements publics scientifiques et techniques), voire dans certaines communautés. Mais il est très peu probable qu’une auto-organisation se produise. Et ne rien faire participe à dégrader notre confiance dans le numérique.

C’est à ce point que le problème de l’économique se pose à nouveau. Si notre modèle est un transfert vers des algorithmes, il est nécessaire que nous (citoyens) ayons une confiance minimale en eux. D’où l’idée de les valider. C’est un enjeu autant pour l’état que pour les entreprises. Il ne s’agit pas d’avancer ici une solution, mais simplement de rappeler que quelque soit l’organisation choisie, il est nécessaire d’en assurer tout autant son indépendance que sa capacité de travail, et cela en investissant sur cette mission.

 

 

On trouvera à la suite la liste des recommandations extraites du rapport.

Recommandation n° 1. Créer une plateforme collaborative scientifique, destinée à favoriser le développement d’outils logiciels et de méthodes de test d’algorithmes, ainsi que de promouvoir l’utilisation de ces outils et méthodes. Cette plateforme permettrait de faire appel à des équipes de recherche, des enseignants, des étudiants ou des experts, publics ou privés.

Recommandation n° 2. Créer une cellule de contrôle spécialisée « bureau des technologies de contrôle de l’économie numérique», pour l’ensemble des pouvoirs publics, implantée au sein de la DGCCRF.

Recommandation n° 3. Communiquer sur le fonctionnement des algorithmes. Quand un algorithme est affiché explicitement, ou perceptible pour l’utilisateur, identifier l’équipe où la personne responsable de son fonctionnement (« chief algorithm officer ») et communiquer au nom de cette équipe, pour rendre visible l’action humaine qui est aux commandes derrière l’algorithme.

Recommandation n° 4. Développer, dans les secteurs de l’emploi, de la santé, de la finance et de l’assurance, les réflexions avec les parties prenantes pour identifier de nouveaux services utilisant des algorithmes de traitement des contenus. Pour ces « services algorithmiques », identifier un pilote chargé de réunir un forum pour établir et promouvoir au niveau international des règles de bonnes pratiques.

Recommandation n° 5. Lancer un programme de formation à l’attention des agents opérant un service public utilisant un algorithme, pour les former au respect des obligations de transparence et de communication inscrites dans la loi République numérique.

La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf