La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf

Évaluation en Traitement Automatique des Langues : rigueur scientifique, course d’un jour ou aveuglement collectif ?

pasteur
Albert EDELFELT, Louis Pasteur, en 1885.

En matière de recherche, s’il est un sujet où scientifiques et doxa populaire se rejoignent, c’est bien celui d’une élaboration continue de la connaissance par validation (ou réfutation) expérimentale des hypothèses. De nombreuses études en sociologie des sciences ont montré que cette vision objectiviste contenait une part de mythe (Latour &Woolgar 1979), fondé avant tout par les sciences dures expérimentales (Bensaude-Vincent 2013). Il n’en reste pas moins que la puissance opérative de cette vision de l’activité scientifique reste prédominante dans la pratique du chercheur, en sciences expérimentales du moins.

Situé à l’interface entre les sciences humaines et les sciences expérimentales, le TALN (Traitement Automatique des Langues Naturelles) est un domaine de recherche idéal pour observer l’influence de ce paradigme objectiviste. Pendant de nombreuses années (où, avouons-le, les applications opérationnelles étaient encore rares), l’évaluation de la production scientifique faisait la part belle au côté stimulant et originel des idées proposées. Le TALN semblait avant tout relever de la République des Idées chère aux sciences humaines. Depuis près de trois décennies, le TALN a désormais pris résolument le parti d’une évaluation supposée objective de ses travaux, en particulier sous la forme de campagnes d’évaluation compétitives (shared tasks).

L’affaire se déroule ainsi : une tâche particulière est définie, un jeu de données commun est constitué pour permettre le développement des systèmes participant à la compétition, et, au bout d’une période fixée, ces derniers sont testés sur une base de test que l’on suppose être représentative de la tâche. On obtient alors un classement des systèmes participants. A titre d’exemple, la figure ci-dessous résume les résultats de la dernière campagne d’évaluation sur l’identification de relations de discours (Shallow Discourse Parsing shared task) de la conférence CoNLL’2015 (Xue et al. 2015) . Nous n’allons pas expliquer ici en détail ces résultats. Disons simplement, que pour trois sous-tâches données (Argument, Connective, Parser), les participants sont classés (O = official) suivant une métrique (F = F-mesure, qui combine deux mesures de Précision P et de Rappel R) calculée une fois pour toute sur le corpus de test. Le classement final résultant d’une combinaison entre les scores obtenus sur les trois sous-tâches.

img_conllCes campagnes compétitives ont toujours un fort impact au sein de la communauté scientifique. Aussi, lorsque notre laboratoire LI a remporté la campagne ETAPE d’évaluation des systèmes de détection automatique des entités nommées sur le français parlé (Nouvel 2013), nous ne nous sommes pas privés de mettre en exergue ce résultat.

Pourtant, pourtant… que représentent vraiment ces classements ? Récemment, j’ai invité une amie qui venait de terminer une thèse en modélisation cognitive computationnelle, et qui à ce titre a l’habitude des travaux en psychologie expérimentale, à assister à un atelier en TALN. Sa réaction face à nos présentations fut immédiate : « vous ne comparez que des résultats bruts, ne calculez-vous jamais la pertinence statistique de vos observations pour fonder votre analyse critique ? ». Gêne de ma part, car que répondre à cet évident manque de rigueur de nos procédures d’évaluation ? Eh oui, l’East China Normal University a peut-être remporté la sous-tâche Argument de la shared task de CoNNL avec une F-mesure de 46,37, mais aucune étude ne nous montre que ce résultat est statistiquement supérieur au 41,31 de l’UIUC ! Pour pouvoir répondre à cette question, il aura fallu diviser la base de test en sous-corpus, regarder la variabilité des résultats obtenus et procéder à des tests de significativité statistique (test paramétrique de Student, test U de Wilconxon-Mann-Withney, par exemple) pour pouvoir vraiment décerner une première place incontestable. Ces tests, que l’on rencontre très rarement dans nos campagnes d’évaluation, sont pourtant enseignés dès la licence à des étudiants en en statistique et analyse de données !

olympic_games_1908_london
Affiche jeux Olympiques 1908 Londres

Les classements de nos campagnes d’évaluation ont ainsi autant de valeur qu’une épreuve de saut à la perche aux Jeux Olympiques où le meilleur athlète de la discipline peut se retrouver dans un mauvais jour. Dans le cas présent, l’UIUC a peut-être eu simplement la malchance d’être confrontée à un jeu de données qui lui convenait moins bien…

Les chercheurs en TALN acceptent cet état de fait car ils s’en remettent à un autre mythe de la discipline : celui du corpus représentatif. Ce mythe, si cela en est un, est lourd de conséquences, car les techniques d’apprentissage automatique que nous utilisons majoritairement n’ont qu’un but : non pas de résoudre un problème qui pourrait donner lieu à des applications réelles, mais de s’adapter au mieux à un jeu de données extrait du problème. On imagine aisément les travers d’un tel choix de paradigme si la représentativité de nos corpus n’était pas au rendez-vous.

Or, cette représentativité n’a rien de garantie. J’en veux pour preuve les résultats d’un stage de Master que j’ai encadré récemment. Je vous explique. Lucie Dupin, la stagiaire, avait pour tâche de développer un système de détection automatique des noms d’auteurs dans des blogs, ceci sur des données fournies par l’entreprise (Elokenz – Cicero Labs) qui finançait le stage. Sans être très difficile, cette tâche est plus complexe qu’on peut l’imaginer à prime abord si on veut atteindre une généricité de traitement. Chaque blog a en effet une manière qui lui est propre de présenter l’auteur d’un post, et comme plusieurs noms propres peuvent figurer sur une page de blog, détecter la bonne entité nommée n’est pas trivial. Pour s’assurer de la représentativité des données, Elokenz a opéré une extraction sur une très grande diversité de blogs. Nous avons entraîné un classifieur SVM sur ces données d’apprentissage, en réservant classiquement un dixième du corpus pour le test du système (et en procédant à une technique dite de validation croisée qui nous assure que le système n’apprend pas par coeur mais tente de généraliser à partir de ses données d’entrainement). Les résultats furent très satisfaisants, avec un taux de bonne détection (Accuracy) de 91 % (Dupin et al., 2016). Lucie ayant bien avancé durant son stage, il nous restait une semaine à occuper avant sa soutenance. Elokenz nous a alors fourni un nouveau corpus de test, tout aussi varié que le précédent, mais extrait d’autres blogs. Patatras, l’évaluation (sans nouvel entraînement) du système nous a donné une robustesse déclinant à 66 % ! Certains choix faits au cours du stage ont confirmé leur intérêt sur cette seconde évaluation : le travail de Lucie n’était donc heureusement pas remis en cause. Mais il était clair que nous avions développé un système sur un corpus jugé représentatif de tous, et qui ne l’était pas. Au final, nous n’avions fait qu’adapter notre classifieur aux données, sans avoir l’assurance que sa robustesse sur tout type blog serait suffisante dans un cadre industriel.

Je pose donc la question : quand nous sommes nous interrogés sur la pertinence des corpus sur lesquels nous développons nos systèmes ? Et qui parmi nous ne passe pas des semaines à adapter (tuning) son système pour qu’il colle au mieux aux données d’apprentissage, afin d’obtenir un bon classement, plutôt que de réfléchir au développement d’approches originales ?

Vous savez quoi, je commence à douter de notre première place lors de la campagne Etape. Bon, à dire vrai, j’en doutais depuis longtemps…

Jean-Yves Antoine

Repères bibliographiques

  • Bernadette Bensaude-Vincent (2013) L’opinion publique et la science : à chacun son ignorance, La Découverte, Paris.
  • Lucie Dupin, Nicolas Labroche, Jean-Yves Antoine, Jean-Christophe Lavocat, Agata Savary (2016) Author name extraction in blog web pages: a machine learning approach. Actes JADT’2016. Nice, France
  • Bruno Latour et Steve Woolgar (1979) Laboratory life : the social construction of scientific facts. Sage, London. Trad. Fr. La vie scientifique : la production des faits scientifiques, La Découverte, Paris, 1988.
  • Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Rashmi Prasad, Christopher Bryant, Attapol T. Rutherfort (2015). The CoNLL-2015 Shared Task on Shallow Discourse Parsing. Proc. CoNLL’2015, Pekin.

 

Ethique et technologie de la langue : réagir ou contourner ?

Les promoteurs de ce blog ont remarqué le peu d’entrain de la communauté scientifique à s’attaquer au sujet Ethique et TAL, que ce soit dans ce blog ou dans d’autres initiatives. Or, nous voyons après enquête (voir Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole) que beaucoup de gens sont conscients de la gravité du sujet, et pensent qu’il faut faire quelque chose. Cela souligne l’écart entre les déclarations et les faits.

Je voudrais ici creuser ce sujet de l’éthique pour le TAL qui provoque à la fois une mobilisation d’un très petit nombre, une méfiance sourde de la part de certains, mais surtout un immense silence de la part de la quasi-totalité de la communauté. Comment analyser ces réactions : petit nombre se déclarant pour ou contre, et immense majorité ne se prononçant pas. Le phénomène n’est pas nouveau, on le retrouve dans beaucoup de domaines, sur de très nombreux sujets, mais je pense qu’il est intéressant de l’analyser précisément pour le cas particulier de l’éthique en TAL, car cela peut permettre de faire évoluer les lignes. Explorons l’arbre des possibilités, pour un chercheur en sciences du langage impliqué dans le traitement automatique de la langue.

  1.  je ne suis pas conscient que mon activité peut impliquer des problèmes éthiques. Ce cas est plus fréquent qu’on peut ne l’imaginer (et ne vous concerne pas, puisque vous êtes en train de lire un post sur un blog qui s’appelle Ethique et TAL !) ; en effet, nous sommes dans un domaine où les atteintes à l’éthique ne sont pas évidentes, mis à part certains cas comme par exemple les dossiers patients dans le domaine du biomédical ou l’identification de la voix dans un contexte judiciaire, ou des problèmes de plagiat ou de bidonnage de résultats. Les affichages des instances (le COMETS, la CERNA ) ont une faible implication pratique. De plus, rien (ou presque) n’est fait dans la formation du chercheur pour le sensibiliser aux problèmes éthiques : l’enseignement de l’éthique pour les futurs professionnels de la recherche est .. étique ! Cela est peut-être aussi renforcé par la course aux publications, qui laisse peu de temps aux jeunes chercheurs pour se poser des questions ; ensuite, le pli est pris.
  2.  je suis conscient que mon activité peut impliquer des problèmes éthiques, et :

a.  Je réagis positivement, et j’essaye de contribuer à la résolution des problèmes éthiques. Le nombre de personnes étant petit, la tâche est rude pour convaincre la communauté scientifique. Elle implique souvent de consacrer une partie de sa recherche à ce sujet, afin de pouvoir intervenir dans le cadre naturel du chercheur, c’est-à-dire les congrès, les journaux. Cela prend donc pas mal de temps, et cela réclame un certain courage, mais est-ce que ça vaut vraiment le coup ? C’est la démarche des lanceurs d’alerte, qui apparaît comme militante, et souvent suspecte d’arrière-pensées politiques. Elle peut être vue également comme une attitude rétrograde vis-à-vis de la technologie de manière générale : une telle attitude est stigmatisée, comme la soit-disant « peur du train » qui aurait eu cours au XIXe siècles chez certains docteurs hygiénistes1.

b. Je réagis négativement contre ces initiatives. Cette attitude est rare, mais finalement pas beaucoup plus que l’attitude précédente. Les motivations peuvent être diverses, mais de mes observations, la motivation principale est la suivante : Je vois les gains potentiels en particulier pour moi (ma carrière, mon business) et je décide d’ignorer les risques éthiques, bien que j’en sois conscient. Cette attitude est souvent le résultat de la réflexion que de toute façon, l’avènement des « progrès » technologiques qui posent des problèmes éthiques est inévitable, et que donc, si des dégâts arrivent, autant essayer d’être dans la minorité qui sera « du bon côté du manche ». Si l’on est conscient des risques éthiques, cette attitude requiert également du courage. Il faut être prêt à défendre son point de vue, vis-à-vis de ses collègues et amis ; de plus, rien ne dit qu’une telle attitude ne sera encore plus ostracisée, si le grand public et/ou les décideurs viennent finalement à être sensibilisés au problème. On a là une application tout à fait pragmatique et faussée d’une éthique utilitariste à l’anglo-saxonne : je fais de la science, la science est bonne, je peux faire plus de science en utilisant des techniques que certaines personnes considèrent comme non-éthiques, alors que les risques ne sont que potentiels ; je considère donc que la balance est positive, donc ce que je fais est éthique !

c. Je reste neutre. Je suis conscient, mais je ne vois pas comment m’impliquer. Comme pour d’autres problèmes d’ampleur (réchauffement climatique, guerre, ressources limitées), une initiative locale et individuelle paraît complètement disproportionnée et inefficace, face à l’inertie des décideurs politiques ou ici institutionnels. Si je suis amené(e) dans mon activité à me confronter directement à un problème d’éthique, alors soit je vais infléchir celle-ci de façon à contourner le problème, soit j’adopte le point de vue de mon labo, ou de ma tutelle, ou de mon directeur de thèse. Si mon activité ne touche pas directement un problème d’éthique, je me limite à des déclarations d’intérêt, en me reposant sur les instances dites « supérieures ». Là, pas de problèmes vis-à-vis de la communauté, de ses collègues, au prix cependant de devoir peut-être orienter différemment sa recherche.

On voit donc que l’attitude « intelligente », celle qui préserve à la fois la bonne image qu’on peut avoir de soi, et le respect de ses pairs et collègues, est l’attitude neutre.

J’ai observé un cas pratique de ce phénomène, lorsque nous avons soulevé, avec certain(e)s, les problèmes liés à l’utilisation de la plateforme de crowsourcing payant Amazon Mechanical Turk (AMT). Nous avons alors fait face à cette attitude dans la communauté du TAL et de la parole. La plupart des gens interpellés admettent les risques, quelques rares personnes défendent le modèle, mais en pratique très peu font de manière explicite quelque chose (article, conférence, système alternatif) pour essayer de pallier les défauts du système. Aujourd’hui, dans la pratique, nous ne pouvons pas dire que la communauté n’utilise plus AMT, loin de là, mais nous n’observons pas l’explosion du nombre de papiers utilisant le crowdsourcing en faisant la course à l’échalote de celui qui arriverait à produire le plus pour le moins cher, tel que nous l’avons vu il y a quelques années. Est-ce, comme pour ces personnes qui sont venus me dire dans des conférences qu’elles me me remerciaient de publier sur le sujet, car elles pouvaient ainsi opposer des articles scientifiques à leur hiérarchie qui les enjoignait d’utiliser AMT, que les chercheurs ont évité l’utilisation, sans ostentation, que ce soit par peur de la polémique ou par conviction ? Je ne sais pas, mais j’ai l’impression que les personnes utilisant la myriadisation du travail parcellisé ont intégré cette dimension de risque éthique, et soit s’abstiennent, soit l’intègrent de manière minimale dans leur travail (au niveau de la rémunération, du choix du site, de la méthode d’exclusion des travailleurs non fiables, etc).

Pour résumer, en s’appuyant sur l’exemple d’AMT, on voit donc qu’une mobilisation pour mettre en lumière des problèmes éthiques peut aboutir au fait qu’un certain nombre de chercheurs devenus conscients, orienteront différemment leurs recherches, mais sans bruit. Il ne faut pas forcément se polariser sur les deux populations qui sont prêtes à polémiquer, ceux qui se lèvent pour dire oui ou non ; ces deux attitudes ont un coût qui peut s’avérer trop lourd, en particulier pour de jeunes chercheurs. Dans ces conditions, ne nous désespérons pas d’être peu nombreux à nous mobiliser, mais regardons pragmatiquement l’impact sur le domaine.


1. Cette « peur du train » est un mythe, et n’a jamais vraiment existé, voir Jean-Baptiste Fressoz, L’apocalypse joyeuse, une histoire du risque technologique, éd. Du Seuil, 2012.

Merci Microsoft

Qui aurait dit que moi, Unixien d’avant Linux à tendance Apple-maniac, je dirais un jour merci à Microsoft ? Et ce sans arrière-pensée (enfin presque). Ce que je veux évoquer, c’est ce qui s’est passé avec le « chatbot » Tay de Microsoft.

Note en passant : si vous n’avez pas encore entendu parler de chatbot, mettez-vous y, c’est le buzzword de l’année et ça va bien être bien plus qu’un buzzword. En revanche, si vous n’avez pas entendu parler de Tay, c’est possible car, comme me le faisait remarquer un ami journaliste, les news ont été assez largement nettoyées depuis l’événement.

Tay, c’est quoi ?

Tay, donc, pour ceux qui ont raté l’épisode, c’est un chatbot mis en ligne par Microsoft sur Twitter fin mars. Un robot entraîné à raconter « des choses » en réponse aux messages qu’il reçoit. Sans plus de but : avoir des conversations en ligne, c’est tout. Conceptuellement, on peut s’imaginer le système comme suit et ce n’est pas bien complexe : il s’agit d’une part d’un générateur de phrases (on est sur Twitter, donc on dépasse rarement deux phrases) et d’autre part d’un système d’évaluation des réactions. Là où on dépasse un peu la génération de textes traditionnelle, c’est que le système assemble des mots (ou suites de mots) trouvés sur Twitter, principalement dans les choses qu’on lui écrit et en fait des phrases. Les modèles de langages sont tels que les phrases ressemblent à des phrases bien construites et pas à des mots jetés au hasard.

Le modèle s’affine « en marchant » avec l’analyse des réactions qui suivent ces phrases. Si les gens répondent positivement (« yeah, trop cool »), alors l’exemple est à suivre ; si les réactions sont négatives, le système tâchera de ne plus produire cette phrase.

Conception simple a priori, même si la mise en œuvre implique des techniques très avancées, tournant autour de l’apprentissage profond (aussi appelé « deep learning », ce billet fait le plein de buzzwords). On appelle ça désormais de l’intelligence artificielle.

Vu de loin, ce n’est pas loin de la façon dont un enfant apprend à parler. Il raconte des choses, si vous avez l’air content, il continuera à les dire ; sinon il essaiera autre chose.

Microsoft avait tenté le coup voilà plusieurs mois en Chine et l’expérience avait été très concluante. Ils ont donc mis le robot en ligne le 23 mars, le présentant comme conçu pour dialoguer avec des adolescents. Mais, après quelques heures d’existence, Tay a été débranchée, car il/elle tenait des propos sexistes, pro-nazis, conspirationnistes et autres ignominies.

CeSpN6BWAAA0oEZ.jpg-largeNota: le 30 Mars, Tay a été remis en ligne et re-débranché le même jour, suite à des comportements incohérents – des bugs quoi…

Qu’est-ce qui s’est passé ?

La cause de ces dérapages est due à une équipe de néo-nazis, suprémacistes et autres branques qui s’expriment sur le réseau 4chan (canal /pol) et qui avaient eu vent de l’opération. Ils ont donc gavé le robot avec leurs discours.

Tay a été de ce point de vue une parfaite réussite technique : un propos révisionniste salué d’un bravo, et hop ! voilà un exemple positif. On continue, on en rajoute, et voilà un chatbot qui dit haïr les juifs, approuver Hitler, détester les féministes et vouloir gazer les mexicains.

Si on regarde comment est fait Tay (du moins ce que j’ai pu en reconstituer), cela était parfaitement prévisible. Pourtant, Microsoft ne s’y attendait pas. Pourquoi ? Parce que l’expérience précédente (en Chine) n’a pas eu ce travers, et pour cause: les chinois ne se laissent pas aller à ce genre de débordements sur des forums publics. Culture ou surveillance du Net, les deux causes sont convergentes et difficiles à mesurer. Quoi qu’il en soit, le terrain d’expérimentation était bien différent de ce que nous connaissons d’Internet.

Qu’en conclure ?

Une conclusion simple serait de dire que des techniciens ont laissé une liberté à une créature sans penser aux conséquences, que science sans conscience n’étant que ruine de l’âme, il aurait mieux valu réfléchir avant de lancer ce projet.

Je ne veux pas dénigrer la citation de Rabelais et elle s’applique bien ici, dans les faits, que s’est-il réellement passé ? C’est pour moi comme si on avait appris à dire « prout » à un perroquet. Il suffit d’y passer un peu de temps, d’avoir suffisamment de friandises à lui offrir. Assez rapidement, le perroquet pourra répéter l’interjection. Et alors ? Et alors rien. Son propriétaire apprendra à dire autre chose au perroquet ou le revendra. Pour un chatbot, c’est plus facile, il suffit de le couper. Si on reprend le parallèle de l’enfant qui apprend à parler, on en est au stade où l’enfant parle « pour parler », pas pour se faire comprendre. C’est un comportement récurrent chez l’enfant, mais qui se développe en pour étayer la finalité première du langage : se faire comprendre.

L’intelligence artificielle telle qu’elle se développe sous nos yeux est bien plus proche du perroquet que du HAL-9000 de 2001 l’Odyssée de l’Espace (et même clairement en deçà du perroquet). Tay n’avait pas de message à transmettre parce que son seul but était de produire des textes, pas de parler. La grande erreur ne vient pas des techniciens mais de ceux qui – sciemment ou non – veulent nous faire croire qu’il en est autrement, que les machines peuvent créer de l’information par la magie des Algorithmes (dernier buzzword). Ces algorithmes dont le but, comme le dit Gérard Berry, est d’évacuer la pensée du calcul afin de le rendre exécutable par une machine numérique. Des recettes de cuisine, quoi.

C’est pourquoi on peut dire merci à Microsoft de nous avoir rappelé quel est le niveau de l’IA aujourd’hui et de l’avoir clamé bien fort pour nous permettre de nous méfier de ceux qui font passer des recettes de cuisine pour l’expression d’une pensée philosophique ou politique.

L’effet petits poneys roses, (ou de l’intérêt d’aborder les questions éthiques dans la conférence principale…)

Je suis allée présenter les résultats des enquêtes éthique et TAL (on en parlait ici, l’article complet est ici) à une conférence bien connue du domaine, LREC (Language Resources and Evaluation Conference), en Slovénie.
J’avais en outre un papier accepté dans un atelier périphérique à la conférence centré sur l’éthique, ETHI-CA², qui a eu lieu le mardi précédent la conférence principale. L’ordre de succession de ces deux événements a son importance.

L’atelier était très intéressant, non seulement dans la variété des contenus présentés mais également du fait de la riche discussion qui a suivi. Les questions posées par le public de chercheurs étaient constructives et l’ambiance détendue. Nous nous sommes rencontrés, avons échangé des idées, des suggestions. Je suis sortie revigorée, pleine de beaux projets, des jolis petits poneys roses pleins les yeux.

La conférence principale, LREC, est immense, avec trois ou quatre sessions en parallèle, des posters dans tous les coins et plusieurs centaines de participants. La salle qui était dévolue à notre session était très grande et devait contenir plus d’une cinquantaine de personnes lors de ma présentation. L’ambiance n’était pas hostile, mais pas particulièrement intéressée non plus : la session n’était pas spécifiquement dédiée à l’éthique, mais plutôt à des thématiques générales (Language Resource Policies).

J’avais beaucoup préparé ma présentation (trop ?), voulant donner le plus de résultats dans les 15 minutes octroyées. Au final, je n’ai pas été formidable, et j’ai fini en avance. J’étais contente d’avoir plus de temps pour les questions. J’avais encore les petits poneys roses de l’atelier ETHICA² plein la tête.

Je m’étais préparée à répondre à des questions difficiles, mais j’avoue que la première m’a désarçonnée : « peux-tu nous citer un outil de TAL qui pose un problème éthique ? Je n’en vois pas » ….
J’ai évidemment tout de suite donné un exemple (le moteur de recherche de Google), mais pas le plus percutant. Puis j’ai donné celui des aides à la communication qui font régresser les utilisateurs (voir Anaïs Lefeuvre et al., dont la présentation est ici). Je n’ai cependant pas l’impression d’avoir convaincu.

Le deuxième intervenant a dit quelque chose que je n’ai pas pu bien entendre, mais qui tournait apparemment autour de l’affirmation que l’éthique était du domaine du citoyen et pas du chercheur. A ce moment-là, il n’y avait plus vraiment de temps pour répondre et j’ai dit quelque chose autour du fait qu’il fallait en discuter, mais mon temps était terminé.

Moralité : pas de petit poney rose dans la conférence principale !

Je suis sortie déçue de ma prestation, avec l’impression d’être passée à côté de quelque chose. Et pourtant… c’est bien à ces questions qu’il faut répondre pour faire avancer la prise de conscience, c’est bien à ces chercheurs, qui ne sont pas convaincus de l’intérêt de l’éthique dans le TAL, qu’il faut parler.
Aussi.

C’est pour éviter l’effet petits poneys qu’il faut aborder l’éthique dans la conférence principale, et pas seulement dans des ateliers, même si ceux-ci sont indispensables (ne serait-ce que pour ne pas sombrer dans l’alcool en sortant d’une telle session !).

Au final, j’ai obtenu suite à cette présentation que l’appel général de la prochaine conférence LREC, en 2018, contienne un paragraphe sur l’éthique. Cette fois je serai prête et je laisserai les petits poneys au vestiaire ! Et si vous envoyez un papier sur le sujet, je serai là, dans le public, et je vous poserai une question, promis.

Apprentissage et Intelligence Artificielle: les vraies questions éthiques

La CERNA (Commission de Réflexion sur l’Ethique de la Recherche en sciences et technologies du numériques) de l’alliance Allistene, organise le 13 juin 2016 (INRIA Paris) une journée sur le thème « apprentissage et intelligence artificielle ». Un sujet qui concerne directement le TAL, du fait de l’omniprésence du machine learning dans les recherches du domaine.

Pour en savoir plus : plaquette de présentation [PDF]

Les inscriptions sont ouvertes…

Ecole jeunes chercheurs sur l’éthique du numérique

La CERNA (Commission de réflexion sur l’Ethique de la Recherche en sciences et technologies du Numérique de l’alliance Allistene) se penche sur la question de la formation à l’éthique des chercheurs dès leur entrée en doctorat.

Elle organise une école jeunes chercheurs sur l’éthique du numérique à Arcachon, entre le 26 et le 30 septembre 2016. Inscriptions avant le 15 avril.

Pour en savoir plus: http://cerna-ethics-allistene.org/

Le TAL, ça marche pas

C’est un truisme d’écrire que les systèmes de TAL ne sont pas fiables à 100%, qu’ils répondent rarement à tous les fantasmes qu’on leur fait porter. Parce qu’au bout du compte, il ne s’agit que de faire répéter à un tas de ferraille et de silicium les choses qu’on lui a tant bien que mal apprises et pourtant… pourtant c’est un message souvent bien compliqué à faire entendre.

Je prends un exemple personnel : la société dans laquelle je travaille commercialise (entre autres) des analyseurs de Curriculum Vitae. Il s’agit de programmes auxquels on soumet des CVs dans des formats divers (office, pdf, voire image) et qui en produisent une belle représentation structurée avec toutes les informations : nom, prénom, adresse, liste des postes occupés avec fonction, employeur, période de temps, etc. tout ça dans un joli XML bien propret. Ca sert pour automatiser les systèmes de recrutement, en ligne ou non, et et ça vous évite d’avoir à remplir des formulaires kilométriques lorsque vous postulez à un poste sur Internet.

Pourtant, parfois, malgré tout le mal que se sont donné nos linguistes et nos développeurs, les informations ne sont pas correctement restituées. Et là, le dialogue avec le client devient très complexe (il y a un client parce que oui, au bout du compte, on essaye de les vendre, ces analyseurs). Et j’ai fréquemment des réactions du type : « ben pourquoi il ressort pas le nom ? On le voit bien, là, c’est écrit en gras ! Il marche pas, votre système ». Le dialogue qui s’ensuit est souvent difficile. Je commence par expliquer que le gars du CV s’appelant Marin Martin, il a un prénom qui pourrait être un nom de fonction et un patronyme qui pourrait être un prénom, alors c’est compliqué pour une machine, que le gras est souvent signe de… n’importe quoi dans un CV, à tel point que les infolinguistes ont décidé, comme première étape du traitement de supprimer toutes les marques de mise en page, vu qu’on ne peut rien en déduire de fiable. Enfin que la mise en page de ce CV (en PDF, qui plus est !) est on ne peut plus pénible à décortiquer. Et là, j’aboutis à la réaction : « ah bon ? Vous transformez en texte et vous comparez à des listes ? Ben moi aussi je pourrais le faire ! ». La magie est cassée.

Pourtant non, je ne fais pas de la magie noire, je vends un programme informatique qui a été programmé par des humains, un programme qui rend des services et qui a ses faiblesses, comme tout autre système automatique. Et, oui, vous pourriez le faire, moyennant un peu de formation (quand même). C’est de la programmation, c’est tout.

Maintenant imaginons un cas de figure légèrement différent où le nom serait reconnu correctement mais tronqué. Je pourrais expliquer que c’est normal vu que le champ est limité à 15 caractères et j’aurais très probablement en retour la réaction « Ah ben oui, c’est normal, il y a une limite ». Les limites de l’outil informatique sont intégrées, il faut faire avec. Mais dès que l’on aborde un comportement anthropomorphe, comme le fait un système de TAL, les attentes deviennent démesurées. Et les désillusions de même. A mon sens pour une raison simple, c’est que chacun est expert de la tâche (ici la langue), puisqu’il la pratique en continu. Donc il peut sans effort projeter un humain à la place de la machine. Il voit bien qu’il pourrait tancer vertement un stagiaire qui remplirait des fiches au stylo-bille pour n’avoir pas trouvé le nom sur le CV (pourtant, il est écrit en gras) alors qu’il lui pardonnerait sans problème de ne pouvoir écrire ce nom en entier sur cette fiche bristol qui ne comporte que 15 cases pour ce faire.

Plus le système vise à remplacer un humain, moins il a droit à l’erreur, alors que la tâche n’en devient nécessairement que plus complexe. Et les gains en temps, en productivité que fournit l’outil sont vite masqués par cette « qualité perçue » qui n’est pas au rendez-vous. Même si 99% des CVs sont bien traités, celui-là ne l’est pas. Dès lors, c’est le seul qui compte, c’est la marque d’infamie qui révèle au grand jour ma tentative de vendre un produit qui ne marche pas alors que, quand même, c’est écrit en gras.

C’est dire la grande misère des vendeurs de produit de TAL. Mais au bout du compte, et même si ça ne facilite pas l’acte de vente, je ne suis pas mécontent qu’on se pose ces questions. Pourquoi le système ne marche pas dans ce cas-là ? Qu’est-ce qu’on pourrait faire pour qu’il marche mieux ? Ce sont des questions saines. Simplement, par souci d’équité, j’aimerais aussi qu’on se pose un peu plus souvent la question de savoir pourquoi « c’est la faute à l’informatique », pourquoi on ne peut pas avoir un patronyme de 16 caractères, qui a décidé ça, de quel droit et pour quelle raison on devrait s’y soumettre.

Si on considère la critique des systèmes de TAL comme l’embryon salutaire d’un regard critique envers la technologie en général, elle me fera moins mal, à moi, modeste artisan du TAL.

Alors qu’on se le dise, le TAL, ça ne marche pas. Mais ni plus, ni moins que n’importe quel système informatique. Les systèmes de TAL ont des limites qu’il faut connaître pour pouvoir décider en pleine conscience de les accepter ou de les refuser. Comme les autres.

The Hitchhiker’s Guide to Ethics in NLP


L’article ci-dessous a été refusé à la conférence The Ethics of Data Science: The Landscape for the Alan Turing Institute organisé par The Alan Turing Institute, nous avons toutefois souhaité le partager avec vous. Bonne lecture !


The Hitchhiker’s Guide to Ethics:

the Journey towards Raising Awareness in Natural Language Processing

Alain Couillault, Karën Fort, Gilles Adda, Maxime Amblard, Jean-Yves Antoine, Hugues de Mazancourt

Ethics, NLP and Everything

Natural Language Processing (NLP), like any other science, is confronted to ethical issues, both regarding the way science is conducted (plagiarism, reproducibility, transparency) and regarding the effects of its results on society. Some issues are specific to the very nature of NLP: the building, transformation or annotation of the (sometimes huge) language resources (corpora or dictionaries) NLP (sometimes heavily) relies on implies to set up and drive large scale projects which involve human resources. NLP techniques are also often used to analyze documents which, by their nature or their content, require thoughtful considerations regarding ethics. Just think of Email corpora (De Mazancourt et al., 2014), medical corpora (Grouin et al., 2015), schizophrenics’ speech corpora (Amblard et al., 2015) or suicide letters (Bretonnel Cohen et al., 2015). NLP is also called for when it comes to providing tools for ethics, for anonymizing documents or discovering plagiarism. This article describes the various actions we conducted to raise awareness for ethics within the NLP community.

Thanks for all the Answers

It all started with a position paper (Fort et al., 2011) on the growing use of the Amazon Mechanical Turk platform, stating that such platforms are not ethical with regards to the way Turkers (i.e. task workers) are paid, underpaid, or even not paid. We then broadened our standpoint and enlarged our group by involving private and public bodies in the writing of an Ethics and Big Data Charter  (Couillault et al., 2014), which aim was to document as much as possible the building of language resources. The Ethics and Big Data Charter is a form split into three sections respectively dedicated to traceability, legal and licensing issues, and specific requirements (i.e. related to the very nature of the resource content). While the Charter has seldom been used for what it had been designed for (i.e. document language resources), we found out that talking and publishing about it and, hence, about ethics, rose interest, if not awareness, among researchers. It was then decided to push further and organize dedicated workshops in France, in November 2014  and June 2015. These workshops gave the opportunity to cover a large scope of the ethical issues pertaining to NLP, and were attended by a rather large audience. During one of the workshops, the idea arose to create a blog  to share ethics-related standpoints and to address a larger audience. A poll was also conducted, partly to collect information on the NLP researchers’ viewpoint to NLP and, we must admit, rhetorically to raise awareness. More than 100 people answered the poll (which, with regards to the French speaking NLP community is a reasonably large number) and, among them, more than thirty people volunteered to get involved in ethics-related actions. We will present the main lessons drawn from this consultation, concerning various issues such as researchers ethical responsibility, data privacy and perpetuity, data producers payment etc.

And another Thing…

We have witnessed a motivating growing interest in the NLP community for ethics, and we are eager to take more actions to further raise awareness and create momentum.
The poll on Ethics and NLP has been translated into English and addressed to a large, international audience. It is under way and, as of September 2015, more than 260 people have participated. We plan to publish the results at an international conference and journal to enlarge even further the number of people interested. We have also worked on a second version of the Ethics and Big Data Charter to extend to other domains requiring data sets (such as medicine or European projects). The next TALN conference (organized by ATALA, the French association for NLP), will include a thread on ethics, and a special issue of the international TAL journal will be dedicated to ethics and NLP. Hopefully, all these efforts will help designing standards and solutions for ethics in NLP.

This paper, including section headers and footnotes, was 42 lines long in the original paper.

References

Amblard, M., Fort, K., Demily, C., Franck, N., and Musiol, M. (2015). Analyse lexicale outillée de la parole transcrite de patients schizophrènes. Traitement Automatique des Langues, 55(3):25, August.

Bretonnel Cohen, K., Pestian, J. P., and Fort, K. (2015). Annotating suicide notes : ethical issues at a glance. In ETeRNAL (Ethique et Traitement Automatique des Langues), Caen, France, June.

Couillault, A., Fort, K., Adda, G., and De Mazancourt, H. (2014). Evaluating Corpora Documentation with regards to the Ethics and Big Data Charter. In International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland, May.

De Mazancourt, H., Couillault, A., and Recourcé, G. (2014). L’anonymisation, pierre d’achoppement pour le traitement automatique des courriels. In Journée d’Etude ATALA Ethique et TAL, Paris, France, November.

Fort, K., Adda, G., and Cohen, K. B. (2011). Amazon Mechanical Turk: Gold mine or coal mine? Computational Linguistics (editorial), 37(2):413–420.

Grouin, C., Griffon, N., and Névéol, A. (2015). Étude des risques de réidentification des patients a partir d’un corpus désidentifié de comptes-rendus cliniques en francais. In Proc. of the TALN workshop ETeRNAL, pages 12–24, Caen, France, June.