La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf

Évaluation en Traitement Automatique des Langues : rigueur scientifique, course d’un jour ou aveuglement collectif ?

pasteur
Albert EDELFELT, Louis Pasteur, en 1885.

En matière de recherche, s’il est un sujet où scientifiques et doxa populaire se rejoignent, c’est bien celui d’une élaboration continue de la connaissance par validation (ou réfutation) expérimentale des hypothèses. De nombreuses études en sociologie des sciences ont montré que cette vision objectiviste contenait une part de mythe (Latour &Woolgar 1979), fondé avant tout par les sciences dures expérimentales (Bensaude-Vincent 2013). Il n’en reste pas moins que la puissance opérative de cette vision de l’activité scientifique reste prédominante dans la pratique du chercheur, en sciences expérimentales du moins.

Situé à l’interface entre les sciences humaines et les sciences expérimentales, le TALN (Traitement Automatique des Langues Naturelles) est un domaine de recherche idéal pour observer l’influence de ce paradigme objectiviste. Pendant de nombreuses années (où, avouons-le, les applications opérationnelles étaient encore rares), l’évaluation de la production scientifique faisait la part belle au côté stimulant et originel des idées proposées. Le TALN semblait avant tout relever de la République des Idées chère aux sciences humaines. Depuis près de trois décennies, le TALN a désormais pris résolument le parti d’une évaluation supposée objective de ses travaux, en particulier sous la forme de campagnes d’évaluation compétitives (shared tasks).

L’affaire se déroule ainsi : une tâche particulière est définie, un jeu de données commun est constitué pour permettre le développement des systèmes participant à la compétition, et, au bout d’une période fixée, ces derniers sont testés sur une base de test que l’on suppose être représentative de la tâche. On obtient alors un classement des systèmes participants. A titre d’exemple, la figure ci-dessous résume les résultats de la dernière campagne d’évaluation sur l’identification de relations de discours (Shallow Discourse Parsing shared task) de la conférence CoNLL’2015 (Xue et al. 2015) . Nous n’allons pas expliquer ici en détail ces résultats. Disons simplement, que pour trois sous-tâches données (Argument, Connective, Parser), les participants sont classés (O = official) suivant une métrique (F = F-mesure, qui combine deux mesures de Précision P et de Rappel R) calculée une fois pour toute sur le corpus de test. Le classement final résultant d’une combinaison entre les scores obtenus sur les trois sous-tâches.

img_conllCes campagnes compétitives ont toujours un fort impact au sein de la communauté scientifique. Aussi, lorsque notre laboratoire LI a remporté la campagne ETAPE d’évaluation des systèmes de détection automatique des entités nommées sur le français parlé (Nouvel 2013), nous ne nous sommes pas privés de mettre en exergue ce résultat.

Pourtant, pourtant… que représentent vraiment ces classements ? Récemment, j’ai invité une amie qui venait de terminer une thèse en modélisation cognitive computationnelle, et qui à ce titre a l’habitude des travaux en psychologie expérimentale, à assister à un atelier en TALN. Sa réaction face à nos présentations fut immédiate : « vous ne comparez que des résultats bruts, ne calculez-vous jamais la pertinence statistique de vos observations pour fonder votre analyse critique ? ». Gêne de ma part, car que répondre à cet évident manque de rigueur de nos procédures d’évaluation ? Eh oui, l’East China Normal University a peut-être remporté la sous-tâche Argument de la shared task de CoNNL avec une F-mesure de 46,37, mais aucune étude ne nous montre que ce résultat est statistiquement supérieur au 41,31 de l’UIUC ! Pour pouvoir répondre à cette question, il aura fallu diviser la base de test en sous-corpus, regarder la variabilité des résultats obtenus et procéder à des tests de significativité statistique (test paramétrique de Student, test U de Wilconxon-Mann-Withney, par exemple) pour pouvoir vraiment décerner une première place incontestable. Ces tests, que l’on rencontre très rarement dans nos campagnes d’évaluation, sont pourtant enseignés dès la licence à des étudiants en en statistique et analyse de données !

olympic_games_1908_london
Affiche jeux Olympiques 1908 Londres

Les classements de nos campagnes d’évaluation ont ainsi autant de valeur qu’une épreuve de saut à la perche aux Jeux Olympiques où le meilleur athlète de la discipline peut se retrouver dans un mauvais jour. Dans le cas présent, l’UIUC a peut-être eu simplement la malchance d’être confrontée à un jeu de données qui lui convenait moins bien…

Les chercheurs en TALN acceptent cet état de fait car ils s’en remettent à un autre mythe de la discipline : celui du corpus représentatif. Ce mythe, si cela en est un, est lourd de conséquences, car les techniques d’apprentissage automatique que nous utilisons majoritairement n’ont qu’un but : non pas de résoudre un problème qui pourrait donner lieu à des applications réelles, mais de s’adapter au mieux à un jeu de données extrait du problème. On imagine aisément les travers d’un tel choix de paradigme si la représentativité de nos corpus n’était pas au rendez-vous.

Or, cette représentativité n’a rien de garantie. J’en veux pour preuve les résultats d’un stage de Master que j’ai encadré récemment. Je vous explique. Lucie Dupin, la stagiaire, avait pour tâche de développer un système de détection automatique des noms d’auteurs dans des blogs, ceci sur des données fournies par l’entreprise (Elokenz – Cicero Labs) qui finançait le stage. Sans être très difficile, cette tâche est plus complexe qu’on peut l’imaginer à prime abord si on veut atteindre une généricité de traitement. Chaque blog a en effet une manière qui lui est propre de présenter l’auteur d’un post, et comme plusieurs noms propres peuvent figurer sur une page de blog, détecter la bonne entité nommée n’est pas trivial. Pour s’assurer de la représentativité des données, Elokenz a opéré une extraction sur une très grande diversité de blogs. Nous avons entraîné un classifieur SVM sur ces données d’apprentissage, en réservant classiquement un dixième du corpus pour le test du système (et en procédant à une technique dite de validation croisée qui nous assure que le système n’apprend pas par coeur mais tente de généraliser à partir de ses données d’entrainement). Les résultats furent très satisfaisants, avec un taux de bonne détection (Accuracy) de 91 % (Dupin et al., 2016). Lucie ayant bien avancé durant son stage, il nous restait une semaine à occuper avant sa soutenance. Elokenz nous a alors fourni un nouveau corpus de test, tout aussi varié que le précédent, mais extrait d’autres blogs. Patatras, l’évaluation (sans nouvel entraînement) du système nous a donné une robustesse déclinant à 66 % ! Certains choix faits au cours du stage ont confirmé leur intérêt sur cette seconde évaluation : le travail de Lucie n’était donc heureusement pas remis en cause. Mais il était clair que nous avions développé un système sur un corpus jugé représentatif de tous, et qui ne l’était pas. Au final, nous n’avions fait qu’adapter notre classifieur aux données, sans avoir l’assurance que sa robustesse sur tout type blog serait suffisante dans un cadre industriel.

Je pose donc la question : quand nous sommes nous interrogés sur la pertinence des corpus sur lesquels nous développons nos systèmes ? Et qui parmi nous ne passe pas des semaines à adapter (tuning) son système pour qu’il colle au mieux aux données d’apprentissage, afin d’obtenir un bon classement, plutôt que de réfléchir au développement d’approches originales ?

Vous savez quoi, je commence à douter de notre première place lors de la campagne Etape. Bon, à dire vrai, j’en doutais depuis longtemps…

Jean-Yves Antoine

Repères bibliographiques

  • Bernadette Bensaude-Vincent (2013) L’opinion publique et la science : à chacun son ignorance, La Découverte, Paris.
  • Lucie Dupin, Nicolas Labroche, Jean-Yves Antoine, Jean-Christophe Lavocat, Agata Savary (2016) Author name extraction in blog web pages: a machine learning approach. Actes JADT’2016. Nice, France
  • Bruno Latour et Steve Woolgar (1979) Laboratory life : the social construction of scientific facts. Sage, London. Trad. Fr. La vie scientifique : la production des faits scientifiques, La Découverte, Paris, 1988.
  • Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Rashmi Prasad, Christopher Bryant, Attapol T. Rutherfort (2015). The CoNLL-2015 Shared Task on Shallow Discourse Parsing. Proc. CoNLL’2015, Pekin.

 

Ethique et technologie de la langue : réagir ou contourner ?

Les promoteurs de ce blog ont remarqué le peu d’entrain de la communauté scientifique à s’attaquer au sujet Ethique et TAL, que ce soit dans ce blog ou dans d’autres initiatives. Or, nous voyons après enquête (voir Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole) que beaucoup de gens sont conscients de la gravité du sujet, et pensent qu’il faut faire quelque chose. Cela souligne l’écart entre les déclarations et les faits.

Je voudrais ici creuser ce sujet de l’éthique pour le TAL qui provoque à la fois une mobilisation d’un très petit nombre, une méfiance sourde de la part de certains, mais surtout un immense silence de la part de la quasi-totalité de la communauté. Comment analyser ces réactions : petit nombre se déclarant pour ou contre, et immense majorité ne se prononçant pas. Le phénomène n’est pas nouveau, on le retrouve dans beaucoup de domaines, sur de très nombreux sujets, mais je pense qu’il est intéressant de l’analyser précisément pour le cas particulier de l’éthique en TAL, car cela peut permettre de faire évoluer les lignes. Explorons l’arbre des possibilités, pour un chercheur en sciences du langage impliqué dans le traitement automatique de la langue.

  1.  je ne suis pas conscient que mon activité peut impliquer des problèmes éthiques. Ce cas est plus fréquent qu’on peut ne l’imaginer (et ne vous concerne pas, puisque vous êtes en train de lire un post sur un blog qui s’appelle Ethique et TAL !) ; en effet, nous sommes dans un domaine où les atteintes à l’éthique ne sont pas évidentes, mis à part certains cas comme par exemple les dossiers patients dans le domaine du biomédical ou l’identification de la voix dans un contexte judiciaire, ou des problèmes de plagiat ou de bidonnage de résultats. Les affichages des instances (le COMETS, la CERNA ) ont une faible implication pratique. De plus, rien (ou presque) n’est fait dans la formation du chercheur pour le sensibiliser aux problèmes éthiques : l’enseignement de l’éthique pour les futurs professionnels de la recherche est .. étique ! Cela est peut-être aussi renforcé par la course aux publications, qui laisse peu de temps aux jeunes chercheurs pour se poser des questions ; ensuite, le pli est pris.
  2.  je suis conscient que mon activité peut impliquer des problèmes éthiques, et :

a.  Je réagis positivement, et j’essaye de contribuer à la résolution des problèmes éthiques. Le nombre de personnes étant petit, la tâche est rude pour convaincre la communauté scientifique. Elle implique souvent de consacrer une partie de sa recherche à ce sujet, afin de pouvoir intervenir dans le cadre naturel du chercheur, c’est-à-dire les congrès, les journaux. Cela prend donc pas mal de temps, et cela réclame un certain courage, mais est-ce que ça vaut vraiment le coup ? C’est la démarche des lanceurs d’alerte, qui apparaît comme militante, et souvent suspecte d’arrière-pensées politiques. Elle peut être vue également comme une attitude rétrograde vis-à-vis de la technologie de manière générale : une telle attitude est stigmatisée, comme la soit-disant « peur du train » qui aurait eu cours au XIXe siècles chez certains docteurs hygiénistes1.

b. Je réagis négativement contre ces initiatives. Cette attitude est rare, mais finalement pas beaucoup plus que l’attitude précédente. Les motivations peuvent être diverses, mais de mes observations, la motivation principale est la suivante : Je vois les gains potentiels en particulier pour moi (ma carrière, mon business) et je décide d’ignorer les risques éthiques, bien que j’en sois conscient. Cette attitude est souvent le résultat de la réflexion que de toute façon, l’avènement des « progrès » technologiques qui posent des problèmes éthiques est inévitable, et que donc, si des dégâts arrivent, autant essayer d’être dans la minorité qui sera « du bon côté du manche ». Si l’on est conscient des risques éthiques, cette attitude requiert également du courage. Il faut être prêt à défendre son point de vue, vis-à-vis de ses collègues et amis ; de plus, rien ne dit qu’une telle attitude ne sera encore plus ostracisée, si le grand public et/ou les décideurs viennent finalement à être sensibilisés au problème. On a là une application tout à fait pragmatique et faussée d’une éthique utilitariste à l’anglo-saxonne : je fais de la science, la science est bonne, je peux faire plus de science en utilisant des techniques que certaines personnes considèrent comme non-éthiques, alors que les risques ne sont que potentiels ; je considère donc que la balance est positive, donc ce que je fais est éthique !

c. Je reste neutre. Je suis conscient, mais je ne vois pas comment m’impliquer. Comme pour d’autres problèmes d’ampleur (réchauffement climatique, guerre, ressources limitées), une initiative locale et individuelle paraît complètement disproportionnée et inefficace, face à l’inertie des décideurs politiques ou ici institutionnels. Si je suis amené(e) dans mon activité à me confronter directement à un problème d’éthique, alors soit je vais infléchir celle-ci de façon à contourner le problème, soit j’adopte le point de vue de mon labo, ou de ma tutelle, ou de mon directeur de thèse. Si mon activité ne touche pas directement un problème d’éthique, je me limite à des déclarations d’intérêt, en me reposant sur les instances dites « supérieures ». Là, pas de problèmes vis-à-vis de la communauté, de ses collègues, au prix cependant de devoir peut-être orienter différemment sa recherche.

On voit donc que l’attitude « intelligente », celle qui préserve à la fois la bonne image qu’on peut avoir de soi, et le respect de ses pairs et collègues, est l’attitude neutre.

J’ai observé un cas pratique de ce phénomène, lorsque nous avons soulevé, avec certain(e)s, les problèmes liés à l’utilisation de la plateforme de crowsourcing payant Amazon Mechanical Turk (AMT). Nous avons alors fait face à cette attitude dans la communauté du TAL et de la parole. La plupart des gens interpellés admettent les risques, quelques rares personnes défendent le modèle, mais en pratique très peu font de manière explicite quelque chose (article, conférence, système alternatif) pour essayer de pallier les défauts du système. Aujourd’hui, dans la pratique, nous ne pouvons pas dire que la communauté n’utilise plus AMT, loin de là, mais nous n’observons pas l’explosion du nombre de papiers utilisant le crowdsourcing en faisant la course à l’échalote de celui qui arriverait à produire le plus pour le moins cher, tel que nous l’avons vu il y a quelques années. Est-ce, comme pour ces personnes qui sont venus me dire dans des conférences qu’elles me me remerciaient de publier sur le sujet, car elles pouvaient ainsi opposer des articles scientifiques à leur hiérarchie qui les enjoignait d’utiliser AMT, que les chercheurs ont évité l’utilisation, sans ostentation, que ce soit par peur de la polémique ou par conviction ? Je ne sais pas, mais j’ai l’impression que les personnes utilisant la myriadisation du travail parcellisé ont intégré cette dimension de risque éthique, et soit s’abstiennent, soit l’intègrent de manière minimale dans leur travail (au niveau de la rémunération, du choix du site, de la méthode d’exclusion des travailleurs non fiables, etc).

Pour résumer, en s’appuyant sur l’exemple d’AMT, on voit donc qu’une mobilisation pour mettre en lumière des problèmes éthiques peut aboutir au fait qu’un certain nombre de chercheurs devenus conscients, orienteront différemment leurs recherches, mais sans bruit. Il ne faut pas forcément se polariser sur les deux populations qui sont prêtes à polémiquer, ceux qui se lèvent pour dire oui ou non ; ces deux attitudes ont un coût qui peut s’avérer trop lourd, en particulier pour de jeunes chercheurs. Dans ces conditions, ne nous désespérons pas d’être peu nombreux à nous mobiliser, mais regardons pragmatiquement l’impact sur le domaine.


1. Cette « peur du train » est un mythe, et n’a jamais vraiment existé, voir Jean-Baptiste Fressoz, L’apocalypse joyeuse, une histoire du risque technologique, éd. Du Seuil, 2012.

L’effet petits poneys roses, (ou de l’intérêt d’aborder les questions éthiques dans la conférence principale…)

Je suis allée présenter les résultats des enquêtes éthique et TAL (on en parlait ici, l’article complet est ici) à une conférence bien connue du domaine, LREC (Language Resources and Evaluation Conference), en Slovénie.
J’avais en outre un papier accepté dans un atelier périphérique à la conférence centré sur l’éthique, ETHI-CA², qui a eu lieu le mardi précédent la conférence principale. L’ordre de succession de ces deux événements a son importance.

L’atelier était très intéressant, non seulement dans la variété des contenus présentés mais également du fait de la riche discussion qui a suivi. Les questions posées par le public de chercheurs étaient constructives et l’ambiance détendue. Nous nous sommes rencontrés, avons échangé des idées, des suggestions. Je suis sortie revigorée, pleine de beaux projets, des jolis petits poneys roses pleins les yeux.

La conférence principale, LREC, est immense, avec trois ou quatre sessions en parallèle, des posters dans tous les coins et plusieurs centaines de participants. La salle qui était dévolue à notre session était très grande et devait contenir plus d’une cinquantaine de personnes lors de ma présentation. L’ambiance n’était pas hostile, mais pas particulièrement intéressée non plus : la session n’était pas spécifiquement dédiée à l’éthique, mais plutôt à des thématiques générales (Language Resource Policies).

J’avais beaucoup préparé ma présentation (trop ?), voulant donner le plus de résultats dans les 15 minutes octroyées. Au final, je n’ai pas été formidable, et j’ai fini en avance. J’étais contente d’avoir plus de temps pour les questions. J’avais encore les petits poneys roses de l’atelier ETHICA² plein la tête.

Je m’étais préparée à répondre à des questions difficiles, mais j’avoue que la première m’a désarçonnée : « peux-tu nous citer un outil de TAL qui pose un problème éthique ? Je n’en vois pas » ….
J’ai évidemment tout de suite donné un exemple (le moteur de recherche de Google), mais pas le plus percutant. Puis j’ai donné celui des aides à la communication qui font régresser les utilisateurs (voir Anaïs Lefeuvre et al., dont la présentation est ici). Je n’ai cependant pas l’impression d’avoir convaincu.

Le deuxième intervenant a dit quelque chose que je n’ai pas pu bien entendre, mais qui tournait apparemment autour de l’affirmation que l’éthique était du domaine du citoyen et pas du chercheur. A ce moment-là, il n’y avait plus vraiment de temps pour répondre et j’ai dit quelque chose autour du fait qu’il fallait en discuter, mais mon temps était terminé.

Moralité : pas de petit poney rose dans la conférence principale !

Je suis sortie déçue de ma prestation, avec l’impression d’être passée à côté de quelque chose. Et pourtant… c’est bien à ces questions qu’il faut répondre pour faire avancer la prise de conscience, c’est bien à ces chercheurs, qui ne sont pas convaincus de l’intérêt de l’éthique dans le TAL, qu’il faut parler.
Aussi.

C’est pour éviter l’effet petits poneys qu’il faut aborder l’éthique dans la conférence principale, et pas seulement dans des ateliers, même si ceux-ci sont indispensables (ne serait-ce que pour ne pas sombrer dans l’alcool en sortant d’une telle session !).

Au final, j’ai obtenu suite à cette présentation que l’appel général de la prochaine conférence LREC, en 2018, contienne un paragraphe sur l’éthique. Cette fois je serai prête et je laisserai les petits poneys au vestiaire ! Et si vous envoyez un papier sur le sujet, je serai là, dans le public, et je vous poserai une question, promis.

Le TAL, ça marche pas

C’est un truisme d’écrire que les systèmes de TAL ne sont pas fiables à 100%, qu’ils répondent rarement à tous les fantasmes qu’on leur fait porter. Parce qu’au bout du compte, il ne s’agit que de faire répéter à un tas de ferraille et de silicium les choses qu’on lui a tant bien que mal apprises et pourtant… pourtant c’est un message souvent bien compliqué à faire entendre.

Je prends un exemple personnel : la société dans laquelle je travaille commercialise (entre autres) des analyseurs de Curriculum Vitae. Il s’agit de programmes auxquels on soumet des CVs dans des formats divers (office, pdf, voire image) et qui en produisent une belle représentation structurée avec toutes les informations : nom, prénom, adresse, liste des postes occupés avec fonction, employeur, période de temps, etc. tout ça dans un joli XML bien propret. Ca sert pour automatiser les systèmes de recrutement, en ligne ou non, et et ça vous évite d’avoir à remplir des formulaires kilométriques lorsque vous postulez à un poste sur Internet.

Pourtant, parfois, malgré tout le mal que se sont donné nos linguistes et nos développeurs, les informations ne sont pas correctement restituées. Et là, le dialogue avec le client devient très complexe (il y a un client parce que oui, au bout du compte, on essaye de les vendre, ces analyseurs). Et j’ai fréquemment des réactions du type : « ben pourquoi il ressort pas le nom ? On le voit bien, là, c’est écrit en gras ! Il marche pas, votre système ». Le dialogue qui s’ensuit est souvent difficile. Je commence par expliquer que le gars du CV s’appelant Marin Martin, il a un prénom qui pourrait être un nom de fonction et un patronyme qui pourrait être un prénom, alors c’est compliqué pour une machine, que le gras est souvent signe de… n’importe quoi dans un CV, à tel point que les infolinguistes ont décidé, comme première étape du traitement de supprimer toutes les marques de mise en page, vu qu’on ne peut rien en déduire de fiable. Enfin que la mise en page de ce CV (en PDF, qui plus est !) est on ne peut plus pénible à décortiquer. Et là, j’aboutis à la réaction : « ah bon ? Vous transformez en texte et vous comparez à des listes ? Ben moi aussi je pourrais le faire ! ». La magie est cassée.

Pourtant non, je ne fais pas de la magie noire, je vends un programme informatique qui a été programmé par des humains, un programme qui rend des services et qui a ses faiblesses, comme tout autre système automatique. Et, oui, vous pourriez le faire, moyennant un peu de formation (quand même). C’est de la programmation, c’est tout.

Maintenant imaginons un cas de figure légèrement différent où le nom serait reconnu correctement mais tronqué. Je pourrais expliquer que c’est normal vu que le champ est limité à 15 caractères et j’aurais très probablement en retour la réaction « Ah ben oui, c’est normal, il y a une limite ». Les limites de l’outil informatique sont intégrées, il faut faire avec. Mais dès que l’on aborde un comportement anthropomorphe, comme le fait un système de TAL, les attentes deviennent démesurées. Et les désillusions de même. A mon sens pour une raison simple, c’est que chacun est expert de la tâche (ici la langue), puisqu’il la pratique en continu. Donc il peut sans effort projeter un humain à la place de la machine. Il voit bien qu’il pourrait tancer vertement un stagiaire qui remplirait des fiches au stylo-bille pour n’avoir pas trouvé le nom sur le CV (pourtant, il est écrit en gras) alors qu’il lui pardonnerait sans problème de ne pouvoir écrire ce nom en entier sur cette fiche bristol qui ne comporte que 15 cases pour ce faire.

Plus le système vise à remplacer un humain, moins il a droit à l’erreur, alors que la tâche n’en devient nécessairement que plus complexe. Et les gains en temps, en productivité que fournit l’outil sont vite masqués par cette « qualité perçue » qui n’est pas au rendez-vous. Même si 99% des CVs sont bien traités, celui-là ne l’est pas. Dès lors, c’est le seul qui compte, c’est la marque d’infamie qui révèle au grand jour ma tentative de vendre un produit qui ne marche pas alors que, quand même, c’est écrit en gras.

C’est dire la grande misère des vendeurs de produit de TAL. Mais au bout du compte, et même si ça ne facilite pas l’acte de vente, je ne suis pas mécontent qu’on se pose ces questions. Pourquoi le système ne marche pas dans ce cas-là ? Qu’est-ce qu’on pourrait faire pour qu’il marche mieux ? Ce sont des questions saines. Simplement, par souci d’équité, j’aimerais aussi qu’on se pose un peu plus souvent la question de savoir pourquoi « c’est la faute à l’informatique », pourquoi on ne peut pas avoir un patronyme de 16 caractères, qui a décidé ça, de quel droit et pour quelle raison on devrait s’y soumettre.

Si on considère la critique des systèmes de TAL comme l’embryon salutaire d’un regard critique envers la technologie en général, elle me fera moins mal, à moi, modeste artisan du TAL.

Alors qu’on se le dise, le TAL, ça ne marche pas. Mais ni plus, ni moins que n’importe quel système informatique. Les systèmes de TAL ont des limites qu’il faut connaître pour pouvoir décider en pleine conscience de les accepter ou de les refuser. Comme les autres.

Vous avez dit progrès ?

Par : Jean-Yves Antoine

Drawing of an old Raschel machine - Source: Josef Worm: Die Wirkerei und Strickerei. 2. Aufl. Leipzig, 1920

Il y a quelques semaines, le responsable de formation que je suis a été sollicité par un étudiant en Master Entrepreneuriat. En relation avec une entreprise dite innovante, il désirait que je diffuse auprès de mes étudiants un questionnaire sur leurs attentes en matière d’objets connectés. Vous savez, ces smartwatch qui vous permettent de suivre vos déplacements quotidiens, vos paramètres physiologiques et enregistrer sur le cloud ces informations pour votre confort. Ayant refusé poliment de donner suite à sa demande pour des raisons éthiques, un débat s’est amorcé sur la portée de ces dispositifs mobiles. Mon interlocuteur n’avait aucune notion d’éthique, qui semblait se rapprocher d’un jugement négatif sur les profits de sa future entreprise dans son esprit. Après quelques échanges la conclusion est tombée, cinglante : « oui je comprends vos réserves, mais je ne suis pas comme vous, je suis pour le progrès ».

Ah cher Progrès, que ne justifie-t-on en ton nom ! L’Etat, la société dans son ensemble, finance nos activités de recherche au motif que nous devons être moteurs d’innovation et de progrès techniques. Chercheurs en technologies langagières, nous travaillons ainsi sous une injonction permanente de contribuer au mouvement perpétuel du progrès. Nous nous en réclamons d’ailleurs le plus souvent. Mais nous interrogeons-nous sur ce qu’est le progrès ?

La question peut étonner tant progrès rime avec civilisation dans l’inconscient collectif. Pourtant, le concept de progrès n’est pas toujours allé de soi. Tout en développant un corpus scientifique conséquent, mais aussi une technologie trop ignorée, la Grèce antique n’associait pas une idée de progrès linéaire à sa recherche de connaissance : le monde grec apparaissait comme indépassable, simplement contraint par des limites religieuses qu’il convenait de ne pas enfreindre. Au Moyen-Age, Chine, Inde et Europe ont également développé un savoir technique de plus en plus poussé. En Europe, ces innovations étaient pourtant adoptées avec prudence, la société médiévale prenant le temps de jauger leur utilité globale. Refusant une notion de progrès utilitariste au profit du maintien d’un équilibre entre Terre et Ciel, la Chine laissa de son côté d’autres civilisations profiter de son inventivité technique. La Renaissance, pourtant avide de connaissance, ne changea rien à cette situation et un Louis XIV pouvait encore à l’aube du XVIII° siècle interdire tout simplement par décret la dissémination d’une nouvelle technologie menaçant l’équilibre du système corporatiste de l’Ancien Régime. Ainsi, en dépit d’un indéniable esprit d’innovation, ces siècles ne se vivaient pas comme participant à la grande marche d’une évolution humaine guidée par le progrès techniques.

A la suite de la révolution mécaniste amorcée par Descartes, ce n’est qu’avec les Lumières que le «Progrès » se construisit comme parfait symbole de l’action bénéfique humaine. Avec la révolution industrielle, il allait rapidement tenir lieu de gloire et phare de l’humanité. Presque deux siècles plus tard, le piédestal du progrès technique vacille quelque peu à l’aune du réchauffement climatique, mais cette construction intellectuelle reste solide. Notre jeune étudiant peut ainsi justifier sa démarche : le Progrès est le moteur perpétuel de l’évolution humaine, rien ne saurait le remettre en question.

Dans cette affaire, le progrès technique auquel nous participons comme chercheurs se pare de toutes les vertus : témoignage de l’esprit d’inventivité d’homo sapiens sapiens, il n’influe pas sur une civilisation humaine dont il n’est que le produit. On parle ainsi de neutralité de la technologie comme on parlerait de neutralité du net : lorsqu’une technologie pose souci, ce sont uniquement ses mésusages qui sont discutables.

Neutralité du progrès technique ? Voire… A l’heure où les émissions carbonées menacent la planète, j’aime à citer l’exemple du moteur à explosion, extrait du livre très éclairant de François Jarrige, Technocritiques (Jarrige, 2014). Devenu fiable au début du XX° siècle, le moteur à explosion permit l’apparition de véhicules individuels, mais aussi d’utilitaires robustes. Il est très éclairant d’observer comment cette innovation fut adoptée par les populations occidentales. L’adhésion pour le camion fut immédiate : d’une puissance de traction bien supérieure, il pouvait suppléer utilement au cheval dont la présence dans les villes posait par ailleurs des problèmes d’hygiène de plus en plus importants. A l’opposé, l’utilité de la voiture individuelle fut tout de suite questionnée. Face aux premiers accidents routiers, de multiples arrêtés ont été pris par des municipalités pour limiter la vitesse des automobiles, au grand dam de leurs promoteurs : le président de l’Automobile Club de France clame ainsi que « le progrès réclame des victimes » ! Les défenseurs de l’automobile caricaturent alors la position de leurs opposants en mettant en exergue une résistance passéiste au Progrès. Pourtant, ces critiques étaient justifiées dans la société de l’époque : la mobilité des populations était faible et assurée efficacement par le chemin de fer. La famille et les amis habitant dans un environnement proche, les congés payés n’existant pas encore, l’objet technique « automobile » n’était d’aucune utilité, à l’opposé de l’objet technique « camion », mu pourtant par le même dispositif thermique. De fait, l’automobile ne répondait qu’au désir d’autonomie individuelle de la société aisée des Années Folles, qui pesa de tout son poids pour une acclimatation sociale de cette nouvelle technologie. Ce ne sera qu’au tournant des années 1960 que la démocratisation de l’automobile sera acquise, avec les conséquences que l’on connait sur nos modes de vie quotidiens.

Voiturette Renault - domaine public

Ainsi, l’invention du moteur à explosion était une innovation technique qui avait une utilité tout de suite perçue par ses contemporains. Mais l’automobile individuelle par elle-même ne répondait pas aux besoins de la société de l’époque. Peut-on dès lors parler de progrès inéluctable à l’arrivée d’une Renault Type A en 1898 ? Je me permets d’en douter. On ne peut de même nier que les automobiles furent de tout temps utilisées pour ce à quoi elles sont été conçues (je ne parle pas ici des courses de Rallye-Cross avec 2CV démolies au milieu de champs boueux). La pollution automobile ne peut donc être considérée comme un mésusage du moteur à explosion. Non, simplement, la technologie automobile, comme toute technologie, n’est pas neutre. Et ses opposants s’interrogeaient simplement sur le sens du progrès, en se demandant quelles technologies étaient vraiment bénéfiques en termes de bien-être. Est-ce là une attitude passéiste que de prendre le temps d’une telle réflexion ? En tous cas, nous sommes loin ici de notre jeune étudiant obéissant à la loi supérieure du Progrès. Ce qui ne veut pas dire que nous le refusons…

Que peut enseigner ce retour historique sur nos activités de chercheurs en TALN ? Comme Louis Renault, nous sommes des créateurs de nouvelles technologies. Comme lui, nous participons à la marche d’un progrès technique qui est questionnable de par ses impacts. Les technologies numériques telles que le TALN revêtent une dimension virtuelle qui les rend plus propres, plus acceptables a priori aux yeux du public. Pourtant, leur impact n’en est pas moins réel. Il peut même être physique ! Pour le montrer, je vais prendre un exemple que j’aime beaucoup car il est inattendu mais parfaitement documenté. Il s’agit de l’utilisation des technologies vocales par les préparateurs de commande des grands centres logistiques tels que ceux d’Amazon. Afin de permettre un travail mains libres, les préparateurs de commande sont guidés dans leur mission grâce à un dialogue oral homme-machine : dès qu’un produit a été récupéré, le système de dialogue envoie immédiatement une commande vocale guidant le préparateur vers un nouveau produit commandé. Ce mode de gestion entraîne une densification du travail intéressante en termes de productivité. Il se trouve que l’Institut National de Recherche et Sécurité a monté que ce mode de gestion du travail par une technologie langagière peut entraîner une augmentation des lombalgies ou des troubles musculo-squelettiques de par la surcharge de travail qu’elle induit (INRS 2009). Voilà un bel exemple à mes yeux : l’utilisation d’une commande vocale à la place d’une bête fiche papier de mission est-elle vraiment un progrès portant la marque du génie humain ? Le choix d’une augmentation de la productivité au mépris de la santé de l’employé n’est-il pas plutôt un exemple de choix sociétal permis par le progrès technique ?

Cet exemple peut paraître isolé, caricatural du point de vue du TALN. Il n’en est rien. De nombreuses études en sociologie du travail ont montré que l’automatisation des tâches permises par les machines, puis les robots automates ont successivement profondément changé les conditions de travail tout d’abord des ouvriers et artisans, puis des professions intermédiaires (cols blancs). Les technologies numériques intelligentes, parmi lesquelles se trouvent le TALN, s’intéressent désormais à des activités complexes relevant de professions intellectuelles supérieures : les analystes financiers sont désormais remplacés par des algorithmes, de même que Google lance des «Google Award for Computational Journalism» où les technologies langagières vont suppléer au travail d’investigation du journalisme ? Au vu de ces exemples, l’impact de nos recherches ne peut être nié…

Dès lors quelle attitude pour le chercheur en traitement automatique des langues, mais aussi le citoyen intéressé par l’émergence des technologies langagières dans un contexte big data ? Doit-on refuser tout progrès technique ? Doit-on devenir schizophrène et créer de nouveaux systèmes tout en étant persuadés de leurs effets néfastes ? La question n’est jamais facile à trancher, mais avoir un regard lucide sur nos activités serait déjà utile : ne pas penser que le progrès technique est un Moloch aveugle auquel on doit se plier, se dire que chaque innovation est l’occasion d’un choix de société qui nous permet de réfléchir au sens de nos actions et aux priorités que l’on se donne dans nos modes de vie. Et lorsque des choix ont été faits, consciemment ou non, par la société, être toujours aux aguets sur leurs conséquences éventuellement néfastes.

Ma grand-mère pensait que les systèmes de dialogue homme-machine que je concevais allaient mettre des employés au chômage. Si elle savait qu’en plus, ces derniers iraient chercher leurs allocations avec une lombalgie…

Pour aller plus loin

INRS (2009) Fiche pratique de sécurité ED 135. Préparation de commande guidée par reconnaissance vocale.

JARRIGE F. (2014) Technocritiques : du refus des machines à la contestation des technosciences. La Découverte.