Pour la valorisation de la diversité de notre communauté scientifique

Nous avons fait l’année dernière un état des lieux de la représentation des femmes dans les instances de la communauté TAL. Sans surprise, nous avions conclu à un déséquilibre: les femmes sont sous représentées, notamment dans des rôles à forte visibilité comme les conférences invitées ou les présidences diverses. Et s’il s’agissait au moins en partie d’une question de confiance?

Le décalage dans la confiance en soi des hommes et des femmes a des conséquences sur l’avancement de carrière des femmes [1]. Des études scientifiques montrent la différence de perception entre la compétence des femmes et des hommes par les individus concernés et par leurs pairs: à compétence égale, les femmes sont perçues comme moins compétentes que les hommes. Cet état d’esprit est une source d’auto-censure pour se présenter – et pour obtenir – une reconnaissance professionnelle sous forme de prix, de prime, d’avancement de carrière. Des données anecdotiques récentes abondent également dans ce sens: pour un prix national d’économie sélectionnant un lauréat.e parmi des candidat.e.s auto-proclamé.e.s, seuls 8 dossiers de candidature sur 42 (soit 19%)  ont été soumis par des femmes [2].

La bonne nouvelle, c’est qu’il ne tient qu’à nous de faire évoluer cette situation et d’être pro-actifs pour améliorer la diversité et l’égalité au sein de notre communauté.

L’association ELRA (European Language Resources Association) sollicite actuellement des nominations pour le prix Antonio Zampolli, qui récompense des travaux sur les ressources langagières et l’évaluation des technologies de la langue. La liste des lauréat.e.s comporte 9 collègues… dont 8 hommes  et 1 femme (en co-nomination). On peut également noter que 7 des lauréat.e.s sont rattachés à une institution américaine et 2 rattachés à une institution britannique.

La diversité des candidats examinés à chaque session en termes de géographie ou de genre n’est pas indiquée sur le site. Cependant, nous avons cette année l’opportunité  de faire en sorte que le comité puisse examiner des contributions reflétant la diversité de notre communauté.  Je vous invite donc à nominer et à faire nominer des collègues méritant.e.s. N’hésitez pas à laisser vos suggestions en commentaires si cela peut donner des idées à d’autres pour appuyer une nomination. La date limite de réception des candidatures par ELRA est le 1er février 2018.

Références:
[1] Kay K, Shipman C. The confidence Gap. The Atlantic. May 2014.
[2] La conférence des économistes. Le prix du meilleur jeune économiste 2017. Le Monde. 22 Mai 2017.

Relecture par les pairs : un état de l’art

Nous en discutons entre nous depuis presque un an, le sujet va et vient, la motivation pour écrire aussi… nous avons tant de choses à dire,
à contredire !

Je me lance, donc, en espérant de l’aide — Aurélie Névéol a répondu présente, ceci est donc un article à quatre mains — : quels sont les mécanismes possibles de relecture par les pairs ? ceux qui sont appliqués autour de nous ?  les options (auxquelles nous ne pensons même pas) ? leurs avantages ? leurs inconvénients ? y a-t-il des études menées sur le sujet ?
Bref, des données ! (#datalove)

Méthodes de relecture par les pairs

Il existe quatre principaux types de fonctionnement des relectures par les pairs, prenant en compte l’anonymat ou non des auteurs.trices et/ou des relecteurs.trices. On a ainsi :

  1. le double ouvert  : les auteurs.trices ne sont pas anonymes pour les relecteurs.trices et les relecteurs.trices signent leur relecture (les auteurs.trices savent qui les a relus). C’est le cas de certaines revues du groupe BMC, comme BMC Medical Informatics and Decision Making (qui comptait le 15/03/2017 186 articles publiés sur une thématique de TAL biomédical). Les revues signées ainsi que les réponses des auteurs.trices aux commentaires des relecteurs.trices sont disponibles publiquement dans la rubrique « pre-publication history » associée à chaque article publié.
  2. son pendant, le double aveugle : les auteurs.trices sont anonymisés lors de la soumission de l’article (les relecteurs.trices ne savent a priori pas qui ils/elles sont) et les relecteurs.trices ne signent pas leur relecture. C’est le cas pour TALN depuis quelques années, d’ACL, de COLING et de beaucoup d’autres conférences (il s’agit plus ou moins de la norme).
  3. le simple aveugle : les auteurs.trices ne sont pas anonymes, mais les relecteurs.trices oui. C’était le cas à TALN avant (quand ?) et c’est toujours le cas à LREC, et dans certaines revues comme BMC Bioinformatics (qui comptait le 16/03/2017 905 articles publiés sur une thématique de TAL biomédical).
  4. le cas, très rare et qui n’a pas de nom (si ?), où les auteurs.trices sont anonymes mais pas les relecteurs.trices. La revue DISCOURS, qui permet aux relecteurs.trices de signer leur relecture, permet ce cas de figure, puisque les auteurs.trices sont anonymes.

Enjeux de la méthode de relecture

Avant de rentrer dans le détail des avantages et inconvénients de chacune, il est important de noter qu’au-delà du choix principal, de nombreuses options existent, qui modifient plus ou moins la donne et qui sont tout aussi importantes.
C’est en particulier le cas des interactions entre relecteurs.trices, voire avec les auteurs.trices. Ainsi, dans la plupart des conférences, les relecteurs.trices peuvent voir leurs relectures respectives (une fois la leur entrée), voire leur nom (c’était le cas à TALN il y a quelques années, ce n’est plus possible aujourd’hui), voire, comme pour ACL, disposent de temps pour communiquer entre eux/elles et éventuellement modifier leur relecture et leur évaluation de l’article.

Par ailleurs, ACL propose une période (courte) de rebutal, pendant laquelle les auteurs.trices peuvent répondre aux remarques des relecteurs.trices, qui pourront être amenés à corriger leur évaluation. Cet échange entre auteurs.trices et relecteurs.trices est courant dans les revues, moins dans les conférences. Vue l’importance prise par les conférences dans le domaine du traitement automatique des langues, il semble logique que leur fonctionnement se rapproche de celui d’une revue.

Il faut ajouter à ces éléments le fait de savoir ou non qui est responsable de la track/area : si le processus est totalement décrit pour ACL (en particulier cette année, principalement via le blog des responsables), il ne l’est pas pour TALN. Les revues adoptent également des fonctionnements différents. Dans certains cas, l’éditeur.trice scientifique associé.e à un article ou un numéro sera clairement identifié.e auprès des auteurs.trices pendant la phase de relecture (c’est le cas pour les revues TAL ou BMC Bioinformatics, mais pas pour JAMIA) et cette information sera publiquement visible une fois l’article publié (c’est le cas pour la revue TAL, mais pas pour BMC Bioinformatics).

Pourquoi est-ce que tous ces points sont importants ? Tout simplement pour (tenter de) limiter les biais, les conflits d’intérêts et les relectures de mauvaise qualité. Un processus ouvert permet à plus d’yeux de vérifier si les auteurs.trices ne sont pas en conflit d’intérêt avec les relecteurs.trices (encore faut-il définir ce qu’est un conflit d’intérêt, là encore, ACL fournit des bases de réflexion). Il permet également de dénoncer les mauvaises relectures : un.e responsable de track/area est censé.e lire toutes les relectures, mais il est courant qu’il/elle passe à côté de certains problèmes, par ailleurs, des critiques émises par les co-relecteurs ET par le/la responsable ont un poids d’autant plus important.

Inciter les relecteurs.trices à écrire de bonnes relectures (constructives et respectueuses) peut également passer par des actions positives, comme le prix du/de la meilleur.e relecteur.trice (attribué à LTC ou à l’AMIA), ou la mise en valeur de leur travail par le biais d’un post de blog.

Avantages et inconvénients des méthodes de relecture par les pairs

Le principe de la relecture par les pairs est de permettre une évaluation scientifique des articles publiés, qui soit également indépendante des auteurs.trices.  Les différentes méthodes de relectures proposées ont donc pour but de maximiser les paramètres suivants :

garantie d’indépendance des relectures : l’anonymat des relecteurs.trices a été introduit pour s’assurer qu’ils puissent s’exprimer librement et indépendamment de leur rapport futur avec les auteurs.trices. De même, l’anonymat des auteurs.trices a été introduit afin de les protéger de tout biais (notamment genré) ou préjugé associé à leur identité (par exemple l’institution d’origine) et de focaliser la relecture sur le travail réalisé.

garantie de qualité des relectures : le principe de relecture ouverte est de s’assurer que les relecteurs.trices endossent bien la responsabilité de leur relectures. Il s’accompagne d’une hausse globale de la qualité des relectures [1] mais également d’une baisse de la sincérité des relecteurs.trices par crainte d’éventuelles futures représailles [2].

et, accessoirement :

facilité de gestion des relectures par l’éditeur de la revue : besoin éventuel de « caviarder » des relectures anonymes injurieuses [3], facilité de recrutement des relecteurs.trices (15 % de refus en plus pour le système ouvert d’après une comparaison des chiffres de deux revues d’informatique biomédicale ayant adopté un système différent : BMC Bioinformatics et BMC Biomedical Informatics and Decision Making [Daniel Shanahan communication personnelle]), facilité de mise en œuvre dans le cadre d’un comité éditorial [l’expérience de la revue TAL montre que le double aveugle induit des difficultés logistiques pour procéder à l’affectation des relecteurs.trices en préservant l’anonymat tout en gérant les conflits d’intérêt].

La gestion des revues par des systèmes informatisés permet de collecter un grand nombre d’informations sur les différentes étapes du processus, qui peuvent maintenant être exploitées pour prendre du recul et étudier l’influence des différents paramètres en jeu. Une étude réalisée avec les données issues de 14 conférences en informatique montre par exemple l’importance du dialogue entre relecteurs.trices et du facteur « chance » par rapport à d’autres leviers comme la réponse des auteurs.trices pour permettre la sélection d’articles de qualité [4].

ConclusionS

La transparence des processus génère (beaucoup) plus de travail, donc de temps, pour les organisateurs (y compris area/track chairs) et pour les relecteurs.trices (qui doivent être plus attentifs lors de l’écriture de leur relecture). Mais n’est-ce pas le prix à payer pour la qualité ?

J'(Karën Fort)étais personnellement pour le double ouvert, avant que je lise des papiers qui montrent les biais genrés [5], envers les institutions prestigieuses [6] et les auteurs.trices connus [7], bien que ces effets ne soient pas toujours constatés [8]. Je favoriserais maintenant davantage un système hybride de double aveugle dans un premier temps (avant relecture), puis d’ouverture : les relecteurs.trices voient leurs relectures (et leurs noms), les discutent entre eux, et les auteurs.trices voient les relectures, y répondent, et lorsque tout est terminé, tout le monde voit les noms de tout le monde.

En ce qui concerne l’anonymat ou non des relecteurs.trices (qui ne représente que la partie émergée de l’iceberg, vous l’aurez compris), une possibilité intermédiaire serait de donner le choix aux relecteurs.trices de signer ou non leur relecture (comme dans le cas de la revue DISCOURS). Cela aurait l’avantage de ne forcer personne et de permettre aux relecteurs.trices de s’habituer et de se tester dans cet « exercice ». Mon expérience personnelle est qu’il est beaucoup plus facile de signer une relecture positive ou dans sa langue maternelle qu’une négative ou en anglais (du fait de la finesse de vocabulaire nécessaire).

Je (Aurélie) pense qu’il faut certainement plus d’études comme [4] pour bien réfléchir aux avantages et inconvénients des différents systèmes, et ne pas sous-estimer la part de l’aléatoire qui ne peut être éliminée du processus d’évaluation.

Et vous, vous en pensez quoi (si vous avez des références, nous sommes preneuses) ?

Karën Fort et Aurélie Névéol

Références

[1] Kowalczuk, M. K., Dudbridge, F., Nanda, S., Harriman, S. L., & Moylan, E. C. (2013). A comparison of the quality of reviewer reports from author-suggested reviewers and editor-suggested reviewers in journals operating on open or closed peer review models. F1000 Posters, 4, 1252.

[2] Khan K. Is open peer review the fairest system? No. BMJ. 2010;341:c6425. doi: 10.1136/bmj.c6425.
[3] Groves T. Is open peer review the fairest system? Yes. BMJ. 2010;341:c6424. doi: 10.1136/bmj.c6424.
[4] Zhu J, Fung G, Wong WH, Li Z, Xu C. Evaluating the Pros and Cons of Different Peer Review Policies via Simulation. Sci Eng Ethics. 2016 Aug;22(4):1073-94.
[5] Kaatz A, Gutierrez B, Carnes M. Threats to objectivity in peer review: the case of gender. Trends in pharmacological sciences. 2014;35(8):371-373.
[6] Tomkins A, Zhang M, Heavlin W. Single vs. Double Blind Reviewing at WSDM,  https://arxiv.org/pdf/1702.00502.pdf
[7] Okike K, Hug KT, Kocher MS, Leopold SS. Single-blind vs Double-blind Peer Review in the Setting of Author Prestige. JAMA. 2016 Sep 27;316(12):1315-6.
[8] van Rooyen S, Godlee F, Evans S, Smith R, Black N. Effect of blinding and unmasking on the quality of peer review: a randomized trial. JAMA. 1998 Jul
15;280(3):234-7.

Note de lecture : « le temps des algorithmes »

La revue sur la culture scientifique en ligne Interstices a publié une note de lecture sur Le Temps des algorithmes (editions du Pommier), ouvrage que viennent de publier Abiteboul et Dowek sur les questions et débats éthiques que soulève le développement de notre société numérique :

https://interstices.info/jcms/p_92826/regard-sur-le-temps-des-algorithmes

Note de lecture intéressante qui vous incitera peut-être à aborder l’ouvrage lui-même…

Après le ministère de l’économie, la CNIL débat sur les algorithmes

La question des algorithmes est désormais bien présente au sein du débat politique français : après le rapport sur le sujet du ministère de l’Economie, c’est la CNIL qui lance un débat ce jour. Pour faire la part entre le fantasme et les questionnements éthiques légitimes. Des tables rondes sont à écouter dès ce lundi 23 janvier :

https://www.cnil.fr/fr/ethique-et-numerique-les-algorithmes-en-debat-0

Le ministère de l’économie s’intéresse aux algorithmes !

2016_05_13_rapport_algorithmes1Maintenant que le traitement de l’information a une valeur économique, le ministère de l’économie se doit d’en proposer une régulation. Un rapport intitulé « Modalités de régulation des algorithmes de traitement des contenus », dont les auteurs sont Jacques SERRIS et Ilarion PAVEL, est paru le 15 décembre (vous le trouverez ici).

Le document d’une cinquantaine de page, plus des annexes, revient sur l’importance croissante des algorithmes dans l’économie et il formule cinq recommandations.

Pour arriver à ce résultat, les auteurs ont rencontré différents acteurs institutionnels comme les directions générales des entreprises, du trésor, de la concurrence, ou encore l’agence du numérique, mais également des représentants des industriels, de Google au groupement français des industries de l’informatique, en passant par des acteurs de la recherche publique comme Inria ou l’ENS. On peut reconnaître que les auteurs ont eu a cœur d’ouvrir le paysage de leur investigation.

Les auteurs ont cherché à rendre compte d’une réflexion générale, en y associant régulièrement des exemples précis. Ainsi on retrouve des encadrés qui font un focus concret qui illustrent bien le propos. Ils proposent plusieurs scénari de développement du monde du numérique et mettent en face des questions pour la régulation. Dans une partie suivante, ils reviennent sur différentes pratiques de la régulation, des actions de la Commission Européenne ou de l’exemple américain.

La partie la plus pertinente est probablement la dernière. Les auteurs s’intéressent à ouvrir des pistes d’action pour la régulation. L’une des propositions est de mettre en place une plateforme, et donc un service (public ?) associé ayant pour mission de tester les algorithmes. Il s’agit d’une part de certification, mais surtout de travailler à construire une relation constructive et apaisée entre citoyens et informatique. Un enjeu que l’on ne peut que souhaiter voir prendre de l’essor.

Cette proposition a l’intérêt d’acter l’importance d’interroger notre relation aux algorithmes. Ainsi, il ne s’agit pas de savoir si nous sommes d’accord avec le résultat d’un algorithme, mais bien de se demander comment s’assurer qu’un algorithme fait ce qu’il prétend faire et pas autre chose. On parle alors de croyance dans les algorithmes.

Mais cela pose une question difficile. Accepte-t-on de déléguer à une autorité étatique la validation de nos croyances ou doit-on espérer une auto-organisation citoyenne capable de faire ce travail ? Nous sommes probablement à un moment où la compétence existe, par exemple dans les EPST (établissements publics scientifiques et techniques), voire dans certaines communautés. Mais il est très peu probable qu’une auto-organisation se produise. Et ne rien faire participe à dégrader notre confiance dans le numérique.

C’est à ce point que le problème de l’économique se pose à nouveau. Si notre modèle est un transfert vers des algorithmes, il est nécessaire que nous (citoyens) ayons une confiance minimale en eux. D’où l’idée de les valider. C’est un enjeu autant pour l’état que pour les entreprises. Il ne s’agit pas d’avancer ici une solution, mais simplement de rappeler que quelque soit l’organisation choisie, il est nécessaire d’en assurer tout autant son indépendance que sa capacité de travail, et cela en investissant sur cette mission.

 

 

On trouvera à la suite la liste des recommandations extraites du rapport.

Recommandation n° 1. Créer une plateforme collaborative scientifique, destinée à favoriser le développement d’outils logiciels et de méthodes de test d’algorithmes, ainsi que de promouvoir l’utilisation de ces outils et méthodes. Cette plateforme permettrait de faire appel à des équipes de recherche, des enseignants, des étudiants ou des experts, publics ou privés.

Recommandation n° 2. Créer une cellule de contrôle spécialisée « bureau des technologies de contrôle de l’économie numérique», pour l’ensemble des pouvoirs publics, implantée au sein de la DGCCRF.

Recommandation n° 3. Communiquer sur le fonctionnement des algorithmes. Quand un algorithme est affiché explicitement, ou perceptible pour l’utilisateur, identifier l’équipe où la personne responsable de son fonctionnement (« chief algorithm officer ») et communiquer au nom de cette équipe, pour rendre visible l’action humaine qui est aux commandes derrière l’algorithme.

Recommandation n° 4. Développer, dans les secteurs de l’emploi, de la santé, de la finance et de l’assurance, les réflexions avec les parties prenantes pour identifier de nouveaux services utilisant des algorithmes de traitement des contenus. Pour ces « services algorithmiques », identifier un pilote chargé de réunir un forum pour établir et promouvoir au niveau international des règles de bonnes pratiques.

Recommandation n° 5. Lancer un programme de formation à l’attention des agents opérant un service public utilisant un algorithme, pour les former au respect des obligations de transparence et de communication inscrites dans la loi République numérique.

La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf

Évaluation en Traitement Automatique des Langues : rigueur scientifique, course d’un jour ou aveuglement collectif ?

pasteur
Albert EDELFELT, Louis Pasteur, en 1885.

En matière de recherche, s’il est un sujet où scientifiques et doxa populaire se rejoignent, c’est bien celui d’une élaboration continue de la connaissance par validation (ou réfutation) expérimentale des hypothèses. De nombreuses études en sociologie des sciences ont montré que cette vision objectiviste contenait une part de mythe (Latour &Woolgar 1979), fondé avant tout par les sciences dures expérimentales (Bensaude-Vincent 2013). Il n’en reste pas moins que la puissance opérative de cette vision de l’activité scientifique reste prédominante dans la pratique du chercheur, en sciences expérimentales du moins.

Situé à l’interface entre les sciences humaines et les sciences expérimentales, le TALN (Traitement Automatique des Langues Naturelles) est un domaine de recherche idéal pour observer l’influence de ce paradigme objectiviste. Pendant de nombreuses années (où, avouons-le, les applications opérationnelles étaient encore rares), l’évaluation de la production scientifique faisait la part belle au côté stimulant et originel des idées proposées. Le TALN semblait avant tout relever de la République des Idées chère aux sciences humaines. Depuis près de trois décennies, le TALN a désormais pris résolument le parti d’une évaluation supposée objective de ses travaux, en particulier sous la forme de campagnes d’évaluation compétitives (shared tasks).

L’affaire se déroule ainsi : une tâche particulière est définie, un jeu de données commun est constitué pour permettre le développement des systèmes participant à la compétition, et, au bout d’une période fixée, ces derniers sont testés sur une base de test que l’on suppose être représentative de la tâche. On obtient alors un classement des systèmes participants. A titre d’exemple, la figure ci-dessous résume les résultats de la dernière campagne d’évaluation sur l’identification de relations de discours (Shallow Discourse Parsing shared task) de la conférence CoNLL’2015 (Xue et al. 2015) . Nous n’allons pas expliquer ici en détail ces résultats. Disons simplement, que pour trois sous-tâches données (Argument, Connective, Parser), les participants sont classés (O = official) suivant une métrique (F = F-mesure, qui combine deux mesures de Précision P et de Rappel R) calculée une fois pour toute sur le corpus de test. Le classement final résultant d’une combinaison entre les scores obtenus sur les trois sous-tâches.

img_conllCes campagnes compétitives ont toujours un fort impact au sein de la communauté scientifique. Aussi, lorsque notre laboratoire LI a remporté la campagne ETAPE d’évaluation des systèmes de détection automatique des entités nommées sur le français parlé (Nouvel 2013), nous ne nous sommes pas privés de mettre en exergue ce résultat.

Pourtant, pourtant… que représentent vraiment ces classements ? Récemment, j’ai invité une amie qui venait de terminer une thèse en modélisation cognitive computationnelle, et qui à ce titre a l’habitude des travaux en psychologie expérimentale, à assister à un atelier en TALN. Sa réaction face à nos présentations fut immédiate : « vous ne comparez que des résultats bruts, ne calculez-vous jamais la pertinence statistique de vos observations pour fonder votre analyse critique ? ». Gêne de ma part, car que répondre à cet évident manque de rigueur de nos procédures d’évaluation ? Eh oui, l’East China Normal University a peut-être remporté la sous-tâche Argument de la shared task de CoNNL avec une F-mesure de 46,37, mais aucune étude ne nous montre que ce résultat est statistiquement supérieur au 41,31 de l’UIUC ! Pour pouvoir répondre à cette question, il aura fallu diviser la base de test en sous-corpus, regarder la variabilité des résultats obtenus et procéder à des tests de significativité statistique (test paramétrique de Student, test U de Wilconxon-Mann-Withney, par exemple) pour pouvoir vraiment décerner une première place incontestable. Ces tests, que l’on rencontre très rarement dans nos campagnes d’évaluation, sont pourtant enseignés dès la licence à des étudiants en en statistique et analyse de données !

olympic_games_1908_london
Affiche jeux Olympiques 1908 Londres

Les classements de nos campagnes d’évaluation ont ainsi autant de valeur qu’une épreuve de saut à la perche aux Jeux Olympiques où le meilleur athlète de la discipline peut se retrouver dans un mauvais jour. Dans le cas présent, l’UIUC a peut-être eu simplement la malchance d’être confrontée à un jeu de données qui lui convenait moins bien…

Les chercheurs en TALN acceptent cet état de fait car ils s’en remettent à un autre mythe de la discipline : celui du corpus représentatif. Ce mythe, si cela en est un, est lourd de conséquences, car les techniques d’apprentissage automatique que nous utilisons majoritairement n’ont qu’un but : non pas de résoudre un problème qui pourrait donner lieu à des applications réelles, mais de s’adapter au mieux à un jeu de données extrait du problème. On imagine aisément les travers d’un tel choix de paradigme si la représentativité de nos corpus n’était pas au rendez-vous.

Or, cette représentativité n’a rien de garantie. J’en veux pour preuve les résultats d’un stage de Master que j’ai encadré récemment. Je vous explique. Lucie Dupin, la stagiaire, avait pour tâche de développer un système de détection automatique des noms d’auteurs dans des blogs, ceci sur des données fournies par l’entreprise (Elokenz – Cicero Labs) qui finançait le stage. Sans être très difficile, cette tâche est plus complexe qu’on peut l’imaginer à prime abord si on veut atteindre une généricité de traitement. Chaque blog a en effet une manière qui lui est propre de présenter l’auteur d’un post, et comme plusieurs noms propres peuvent figurer sur une page de blog, détecter la bonne entité nommée n’est pas trivial. Pour s’assurer de la représentativité des données, Elokenz a opéré une extraction sur une très grande diversité de blogs. Nous avons entraîné un classifieur SVM sur ces données d’apprentissage, en réservant classiquement un dixième du corpus pour le test du système (et en procédant à une technique dite de validation croisée qui nous assure que le système n’apprend pas par coeur mais tente de généraliser à partir de ses données d’entrainement). Les résultats furent très satisfaisants, avec un taux de bonne détection (Accuracy) de 91 % (Dupin et al., 2016). Lucie ayant bien avancé durant son stage, il nous restait une semaine à occuper avant sa soutenance. Elokenz nous a alors fourni un nouveau corpus de test, tout aussi varié que le précédent, mais extrait d’autres blogs. Patatras, l’évaluation (sans nouvel entraînement) du système nous a donné une robustesse déclinant à 66 % ! Certains choix faits au cours du stage ont confirmé leur intérêt sur cette seconde évaluation : le travail de Lucie n’était donc heureusement pas remis en cause. Mais il était clair que nous avions développé un système sur un corpus jugé représentatif de tous, et qui ne l’était pas. Au final, nous n’avions fait qu’adapter notre classifieur aux données, sans avoir l’assurance que sa robustesse sur tout type blog serait suffisante dans un cadre industriel.

Je pose donc la question : quand nous sommes nous interrogés sur la pertinence des corpus sur lesquels nous développons nos systèmes ? Et qui parmi nous ne passe pas des semaines à adapter (tuning) son système pour qu’il colle au mieux aux données d’apprentissage, afin d’obtenir un bon classement, plutôt que de réfléchir au développement d’approches originales ?

Vous savez quoi, je commence à douter de notre première place lors de la campagne Etape. Bon, à dire vrai, j’en doutais depuis longtemps…

Jean-Yves Antoine

Repères bibliographiques

  • Bernadette Bensaude-Vincent (2013) L’opinion publique et la science : à chacun son ignorance, La Découverte, Paris.
  • Lucie Dupin, Nicolas Labroche, Jean-Yves Antoine, Jean-Christophe Lavocat, Agata Savary (2016) Author name extraction in blog web pages: a machine learning approach. Actes JADT’2016. Nice, France
  • Bruno Latour et Steve Woolgar (1979) Laboratory life : the social construction of scientific facts. Sage, London. Trad. Fr. La vie scientifique : la production des faits scientifiques, La Découverte, Paris, 1988.
  • Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Rashmi Prasad, Christopher Bryant, Attapol T. Rutherfort (2015). The CoNLL-2015 Shared Task on Shallow Discourse Parsing. Proc. CoNLL’2015, Pekin.

 

Ethique et technologie de la langue : réagir ou contourner ?

Les promoteurs de ce blog ont remarqué le peu d’entrain de la communauté scientifique à s’attaquer au sujet Ethique et TAL, que ce soit dans ce blog ou dans d’autres initiatives. Or, nous voyons après enquête (voir Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole) que beaucoup de gens sont conscients de la gravité du sujet, et pensent qu’il faut faire quelque chose. Cela souligne l’écart entre les déclarations et les faits.

Je voudrais ici creuser ce sujet de l’éthique pour le TAL qui provoque à la fois une mobilisation d’un très petit nombre, une méfiance sourde de la part de certains, mais surtout un immense silence de la part de la quasi-totalité de la communauté. Comment analyser ces réactions : petit nombre se déclarant pour ou contre, et immense majorité ne se prononçant pas. Le phénomène n’est pas nouveau, on le retrouve dans beaucoup de domaines, sur de très nombreux sujets, mais je pense qu’il est intéressant de l’analyser précisément pour le cas particulier de l’éthique en TAL, car cela peut permettre de faire évoluer les lignes. Explorons l’arbre des possibilités, pour un chercheur en sciences du langage impliqué dans le traitement automatique de la langue.

  1.  je ne suis pas conscient que mon activité peut impliquer des problèmes éthiques. Ce cas est plus fréquent qu’on peut ne l’imaginer (et ne vous concerne pas, puisque vous êtes en train de lire un post sur un blog qui s’appelle Ethique et TAL !) ; en effet, nous sommes dans un domaine où les atteintes à l’éthique ne sont pas évidentes, mis à part certains cas comme par exemple les dossiers patients dans le domaine du biomédical ou l’identification de la voix dans un contexte judiciaire, ou des problèmes de plagiat ou de bidonnage de résultats. Les affichages des instances (le COMETS, la CERNA ) ont une faible implication pratique. De plus, rien (ou presque) n’est fait dans la formation du chercheur pour le sensibiliser aux problèmes éthiques : l’enseignement de l’éthique pour les futurs professionnels de la recherche est .. étique ! Cela est peut-être aussi renforcé par la course aux publications, qui laisse peu de temps aux jeunes chercheurs pour se poser des questions ; ensuite, le pli est pris.
  2.  je suis conscient que mon activité peut impliquer des problèmes éthiques, et :

a.  Je réagis positivement, et j’essaye de contribuer à la résolution des problèmes éthiques. Le nombre de personnes étant petit, la tâche est rude pour convaincre la communauté scientifique. Elle implique souvent de consacrer une partie de sa recherche à ce sujet, afin de pouvoir intervenir dans le cadre naturel du chercheur, c’est-à-dire les congrès, les journaux. Cela prend donc pas mal de temps, et cela réclame un certain courage, mais est-ce que ça vaut vraiment le coup ? C’est la démarche des lanceurs d’alerte, qui apparaît comme militante, et souvent suspecte d’arrière-pensées politiques. Elle peut être vue également comme une attitude rétrograde vis-à-vis de la technologie de manière générale : une telle attitude est stigmatisée, comme la soit-disant « peur du train » qui aurait eu cours au XIXe siècles chez certains docteurs hygiénistes1.

b. Je réagis négativement contre ces initiatives. Cette attitude est rare, mais finalement pas beaucoup plus que l’attitude précédente. Les motivations peuvent être diverses, mais de mes observations, la motivation principale est la suivante : Je vois les gains potentiels en particulier pour moi (ma carrière, mon business) et je décide d’ignorer les risques éthiques, bien que j’en sois conscient. Cette attitude est souvent le résultat de la réflexion que de toute façon, l’avènement des « progrès » technologiques qui posent des problèmes éthiques est inévitable, et que donc, si des dégâts arrivent, autant essayer d’être dans la minorité qui sera « du bon côté du manche ». Si l’on est conscient des risques éthiques, cette attitude requiert également du courage. Il faut être prêt à défendre son point de vue, vis-à-vis de ses collègues et amis ; de plus, rien ne dit qu’une telle attitude ne sera encore plus ostracisée, si le grand public et/ou les décideurs viennent finalement à être sensibilisés au problème. On a là une application tout à fait pragmatique et faussée d’une éthique utilitariste à l’anglo-saxonne : je fais de la science, la science est bonne, je peux faire plus de science en utilisant des techniques que certaines personnes considèrent comme non-éthiques, alors que les risques ne sont que potentiels ; je considère donc que la balance est positive, donc ce que je fais est éthique !

c. Je reste neutre. Je suis conscient, mais je ne vois pas comment m’impliquer. Comme pour d’autres problèmes d’ampleur (réchauffement climatique, guerre, ressources limitées), une initiative locale et individuelle paraît complètement disproportionnée et inefficace, face à l’inertie des décideurs politiques ou ici institutionnels. Si je suis amené(e) dans mon activité à me confronter directement à un problème d’éthique, alors soit je vais infléchir celle-ci de façon à contourner le problème, soit j’adopte le point de vue de mon labo, ou de ma tutelle, ou de mon directeur de thèse. Si mon activité ne touche pas directement un problème d’éthique, je me limite à des déclarations d’intérêt, en me reposant sur les instances dites « supérieures ». Là, pas de problèmes vis-à-vis de la communauté, de ses collègues, au prix cependant de devoir peut-être orienter différemment sa recherche.

On voit donc que l’attitude « intelligente », celle qui préserve à la fois la bonne image qu’on peut avoir de soi, et le respect de ses pairs et collègues, est l’attitude neutre.

J’ai observé un cas pratique de ce phénomène, lorsque nous avons soulevé, avec certain(e)s, les problèmes liés à l’utilisation de la plateforme de crowsourcing payant Amazon Mechanical Turk (AMT). Nous avons alors fait face à cette attitude dans la communauté du TAL et de la parole. La plupart des gens interpellés admettent les risques, quelques rares personnes défendent le modèle, mais en pratique très peu font de manière explicite quelque chose (article, conférence, système alternatif) pour essayer de pallier les défauts du système. Aujourd’hui, dans la pratique, nous ne pouvons pas dire que la communauté n’utilise plus AMT, loin de là, mais nous n’observons pas l’explosion du nombre de papiers utilisant le crowdsourcing en faisant la course à l’échalote de celui qui arriverait à produire le plus pour le moins cher, tel que nous l’avons vu il y a quelques années. Est-ce, comme pour ces personnes qui sont venus me dire dans des conférences qu’elles me me remerciaient de publier sur le sujet, car elles pouvaient ainsi opposer des articles scientifiques à leur hiérarchie qui les enjoignait d’utiliser AMT, que les chercheurs ont évité l’utilisation, sans ostentation, que ce soit par peur de la polémique ou par conviction ? Je ne sais pas, mais j’ai l’impression que les personnes utilisant la myriadisation du travail parcellisé ont intégré cette dimension de risque éthique, et soit s’abstiennent, soit l’intègrent de manière minimale dans leur travail (au niveau de la rémunération, du choix du site, de la méthode d’exclusion des travailleurs non fiables, etc).

Pour résumer, en s’appuyant sur l’exemple d’AMT, on voit donc qu’une mobilisation pour mettre en lumière des problèmes éthiques peut aboutir au fait qu’un certain nombre de chercheurs devenus conscients, orienteront différemment leurs recherches, mais sans bruit. Il ne faut pas forcément se polariser sur les deux populations qui sont prêtes à polémiquer, ceux qui se lèvent pour dire oui ou non ; ces deux attitudes ont un coût qui peut s’avérer trop lourd, en particulier pour de jeunes chercheurs. Dans ces conditions, ne nous désespérons pas d’être peu nombreux à nous mobiliser, mais regardons pragmatiquement l’impact sur le domaine.


1. Cette « peur du train » est un mythe, et n’a jamais vraiment existé, voir Jean-Baptiste Fressoz, L’apocalypse joyeuse, une histoire du risque technologique, éd. Du Seuil, 2012.

L’effet petits poneys roses, (ou de l’intérêt d’aborder les questions éthiques dans la conférence principale…)

Je suis allée présenter les résultats des enquêtes éthique et TAL (on en parlait ici, l’article complet est ici) à une conférence bien connue du domaine, LREC (Language Resources and Evaluation Conference), en Slovénie.
J’avais en outre un papier accepté dans un atelier périphérique à la conférence centré sur l’éthique, ETHI-CA², qui a eu lieu le mardi précédent la conférence principale. L’ordre de succession de ces deux événements a son importance.

L’atelier était très intéressant, non seulement dans la variété des contenus présentés mais également du fait de la riche discussion qui a suivi. Les questions posées par le public de chercheurs étaient constructives et l’ambiance détendue. Nous nous sommes rencontrés, avons échangé des idées, des suggestions. Je suis sortie revigorée, pleine de beaux projets, des jolis petits poneys roses pleins les yeux.

La conférence principale, LREC, est immense, avec trois ou quatre sessions en parallèle, des posters dans tous les coins et plusieurs centaines de participants. La salle qui était dévolue à notre session était très grande et devait contenir plus d’une cinquantaine de personnes lors de ma présentation. L’ambiance n’était pas hostile, mais pas particulièrement intéressée non plus : la session n’était pas spécifiquement dédiée à l’éthique, mais plutôt à des thématiques générales (Language Resource Policies).

J’avais beaucoup préparé ma présentation (trop ?), voulant donner le plus de résultats dans les 15 minutes octroyées. Au final, je n’ai pas été formidable, et j’ai fini en avance. J’étais contente d’avoir plus de temps pour les questions. J’avais encore les petits poneys roses de l’atelier ETHICA² plein la tête.

Je m’étais préparée à répondre à des questions difficiles, mais j’avoue que la première m’a désarçonnée : « peux-tu nous citer un outil de TAL qui pose un problème éthique ? Je n’en vois pas » ….
J’ai évidemment tout de suite donné un exemple (le moteur de recherche de Google), mais pas le plus percutant. Puis j’ai donné celui des aides à la communication qui font régresser les utilisateurs (voir Anaïs Lefeuvre et al., dont la présentation est ici). Je n’ai cependant pas l’impression d’avoir convaincu.

Le deuxième intervenant a dit quelque chose que je n’ai pas pu bien entendre, mais qui tournait apparemment autour de l’affirmation que l’éthique était du domaine du citoyen et pas du chercheur. A ce moment-là, il n’y avait plus vraiment de temps pour répondre et j’ai dit quelque chose autour du fait qu’il fallait en discuter, mais mon temps était terminé.

Moralité : pas de petit poney rose dans la conférence principale !

Je suis sortie déçue de ma prestation, avec l’impression d’être passée à côté de quelque chose. Et pourtant… c’est bien à ces questions qu’il faut répondre pour faire avancer la prise de conscience, c’est bien à ces chercheurs, qui ne sont pas convaincus de l’intérêt de l’éthique dans le TAL, qu’il faut parler.
Aussi.

C’est pour éviter l’effet petits poneys qu’il faut aborder l’éthique dans la conférence principale, et pas seulement dans des ateliers, même si ceux-ci sont indispensables (ne serait-ce que pour ne pas sombrer dans l’alcool en sortant d’une telle session !).

Au final, j’ai obtenu suite à cette présentation que l’appel général de la prochaine conférence LREC, en 2018, contienne un paragraphe sur l’éthique. Cette fois je serai prête et je laisserai les petits poneys au vestiaire ! Et si vous envoyez un papier sur le sujet, je serai là, dans le public, et je vous poserai une question, promis.

Le TAL, ça marche pas

C’est un truisme d’écrire que les systèmes de TAL ne sont pas fiables à 100%, qu’ils répondent rarement à tous les fantasmes qu’on leur fait porter. Parce qu’au bout du compte, il ne s’agit que de faire répéter à un tas de ferraille et de silicium les choses qu’on lui a tant bien que mal apprises et pourtant… pourtant c’est un message souvent bien compliqué à faire entendre.

Je prends un exemple personnel : la société dans laquelle je travaille commercialise (entre autres) des analyseurs de Curriculum Vitae. Il s’agit de programmes auxquels on soumet des CVs dans des formats divers (office, pdf, voire image) et qui en produisent une belle représentation structurée avec toutes les informations : nom, prénom, adresse, liste des postes occupés avec fonction, employeur, période de temps, etc. tout ça dans un joli XML bien propret. Ca sert pour automatiser les systèmes de recrutement, en ligne ou non, et et ça vous évite d’avoir à remplir des formulaires kilométriques lorsque vous postulez à un poste sur Internet.

Pourtant, parfois, malgré tout le mal que se sont donné nos linguistes et nos développeurs, les informations ne sont pas correctement restituées. Et là, le dialogue avec le client devient très complexe (il y a un client parce que oui, au bout du compte, on essaye de les vendre, ces analyseurs). Et j’ai fréquemment des réactions du type : « ben pourquoi il ressort pas le nom ? On le voit bien, là, c’est écrit en gras ! Il marche pas, votre système ». Le dialogue qui s’ensuit est souvent difficile. Je commence par expliquer que le gars du CV s’appelant Marin Martin, il a un prénom qui pourrait être un nom de fonction et un patronyme qui pourrait être un prénom, alors c’est compliqué pour une machine, que le gras est souvent signe de… n’importe quoi dans un CV, à tel point que les infolinguistes ont décidé, comme première étape du traitement de supprimer toutes les marques de mise en page, vu qu’on ne peut rien en déduire de fiable. Enfin que la mise en page de ce CV (en PDF, qui plus est !) est on ne peut plus pénible à décortiquer. Et là, j’aboutis à la réaction : « ah bon ? Vous transformez en texte et vous comparez à des listes ? Ben moi aussi je pourrais le faire ! ». La magie est cassée.

Pourtant non, je ne fais pas de la magie noire, je vends un programme informatique qui a été programmé par des humains, un programme qui rend des services et qui a ses faiblesses, comme tout autre système automatique. Et, oui, vous pourriez le faire, moyennant un peu de formation (quand même). C’est de la programmation, c’est tout.

Maintenant imaginons un cas de figure légèrement différent où le nom serait reconnu correctement mais tronqué. Je pourrais expliquer que c’est normal vu que le champ est limité à 15 caractères et j’aurais très probablement en retour la réaction « Ah ben oui, c’est normal, il y a une limite ». Les limites de l’outil informatique sont intégrées, il faut faire avec. Mais dès que l’on aborde un comportement anthropomorphe, comme le fait un système de TAL, les attentes deviennent démesurées. Et les désillusions de même. A mon sens pour une raison simple, c’est que chacun est expert de la tâche (ici la langue), puisqu’il la pratique en continu. Donc il peut sans effort projeter un humain à la place de la machine. Il voit bien qu’il pourrait tancer vertement un stagiaire qui remplirait des fiches au stylo-bille pour n’avoir pas trouvé le nom sur le CV (pourtant, il est écrit en gras) alors qu’il lui pardonnerait sans problème de ne pouvoir écrire ce nom en entier sur cette fiche bristol qui ne comporte que 15 cases pour ce faire.

Plus le système vise à remplacer un humain, moins il a droit à l’erreur, alors que la tâche n’en devient nécessairement que plus complexe. Et les gains en temps, en productivité que fournit l’outil sont vite masqués par cette « qualité perçue » qui n’est pas au rendez-vous. Même si 99% des CVs sont bien traités, celui-là ne l’est pas. Dès lors, c’est le seul qui compte, c’est la marque d’infamie qui révèle au grand jour ma tentative de vendre un produit qui ne marche pas alors que, quand même, c’est écrit en gras.

C’est dire la grande misère des vendeurs de produit de TAL. Mais au bout du compte, et même si ça ne facilite pas l’acte de vente, je ne suis pas mécontent qu’on se pose ces questions. Pourquoi le système ne marche pas dans ce cas-là ? Qu’est-ce qu’on pourrait faire pour qu’il marche mieux ? Ce sont des questions saines. Simplement, par souci d’équité, j’aimerais aussi qu’on se pose un peu plus souvent la question de savoir pourquoi « c’est la faute à l’informatique », pourquoi on ne peut pas avoir un patronyme de 16 caractères, qui a décidé ça, de quel droit et pour quelle raison on devrait s’y soumettre.

Si on considère la critique des systèmes de TAL comme l’embryon salutaire d’un regard critique envers la technologie en général, elle me fera moins mal, à moi, modeste artisan du TAL.

Alors qu’on se le dise, le TAL, ça ne marche pas. Mais ni plus, ni moins que n’importe quel système informatique. Les systèmes de TAL ont des limites qu’il faut connaître pour pouvoir décider en pleine conscience de les accepter ou de les refuser. Comme les autres.