Note de lecture : « le temps des algorithmes »

La revue sur la culture scientifique en ligne Interstices a publié une note de lecture sur Le Temps des algorithmes (editions du Pommier), ouvrage que viennent de publier Abiteboul et Dowek sur les questions et débats éthiques que soulève le développement de notre société numérique :

https://interstices.info/jcms/p_92826/regard-sur-le-temps-des-algorithmes

Note de lecture intéressante qui vous incitera peut-être à aborder l’ouvrage lui-même…

Après le ministère de l’économie, la CNIL débat sur les algorithmes

La question des algorithmes est désormais bien présente au sein du débat politique français : après le rapport sur le sujet du ministère de l’Economie, c’est la CNIL qui lance un débat ce jour. Pour faire la part entre le fantasme et les questionnements éthiques légitimes. Des tables rondes sont à écouter dès ce lundi 23 janvier :

https://www.cnil.fr/fr/ethique-et-numerique-les-algorithmes-en-debat-0

Le ministère de l’économie s’intéresse aux algorithmes !

2016_05_13_rapport_algorithmes1Maintenant que le traitement de l’information a une valeur économique, le ministère de l’économie se doit d’en proposer une régulation. Un rapport intitulé « Modalités de régulation des algorithmes de traitement des contenus », dont les auteurs sont Jacques SERRIS et Ilarion PAVEL, est paru le 15 décembre (vous le trouverez ici).

Le document d’une cinquantaine de page, plus des annexes, revient sur l’importance croissante des algorithmes dans l’économie et il formule cinq recommandations.

Pour arriver à ce résultat, les auteurs ont rencontré différents acteurs institutionnels comme les directions générales des entreprises, du trésor, de la concurrence, ou encore l’agence du numérique, mais également des représentants des industriels, de Google au groupement français des industries de l’informatique, en passant par des acteurs de la recherche publique comme Inria ou l’ENS. On peut reconnaître que les auteurs ont eu a cœur d’ouvrir le paysage de leur investigation.

Les auteurs ont cherché à rendre compte d’une réflexion générale, en y associant régulièrement des exemples précis. Ainsi on retrouve des encadrés qui font un focus concret qui illustrent bien le propos. Ils proposent plusieurs scénari de développement du monde du numérique et mettent en face des questions pour la régulation. Dans une partie suivante, ils reviennent sur différentes pratiques de la régulation, des actions de la Commission Européenne ou de l’exemple américain.

La partie la plus pertinente est probablement la dernière. Les auteurs s’intéressent à ouvrir des pistes d’action pour la régulation. L’une des propositions est de mettre en place une plateforme, et donc un service (public ?) associé ayant pour mission de tester les algorithmes. Il s’agit d’une part de certification, mais surtout de travailler à construire une relation constructive et apaisée entre citoyens et informatique. Un enjeu que l’on ne peut que souhaiter voir prendre de l’essor.

Cette proposition a l’intérêt d’acter l’importance d’interroger notre relation aux algorithmes. Ainsi, il ne s’agit pas de savoir si nous sommes d’accord avec le résultat d’un algorithme, mais bien de se demander comment s’assurer qu’un algorithme fait ce qu’il prétend faire et pas autre chose. On parle alors de croyance dans les algorithmes.

Mais cela pose une question difficile. Accepte-t-on de déléguer à une autorité étatique la validation de nos croyances ou doit-on espérer une auto-organisation citoyenne capable de faire ce travail ? Nous sommes probablement à un moment où la compétence existe, par exemple dans les EPST (établissements publics scientifiques et techniques), voire dans certaines communautés. Mais il est très peu probable qu’une auto-organisation se produise. Et ne rien faire participe à dégrader notre confiance dans le numérique.

C’est à ce point que le problème de l’économique se pose à nouveau. Si notre modèle est un transfert vers des algorithmes, il est nécessaire que nous (citoyens) ayons une confiance minimale en eux. D’où l’idée de les valider. C’est un enjeu autant pour l’état que pour les entreprises. Il ne s’agit pas d’avancer ici une solution, mais simplement de rappeler que quelque soit l’organisation choisie, il est nécessaire d’en assurer tout autant son indépendance que sa capacité de travail, et cela en investissant sur cette mission.

 

 

On trouvera à la suite la liste des recommandations extraites du rapport.

Recommandation n° 1. Créer une plateforme collaborative scientifique, destinée à favoriser le développement d’outils logiciels et de méthodes de test d’algorithmes, ainsi que de promouvoir l’utilisation de ces outils et méthodes. Cette plateforme permettrait de faire appel à des équipes de recherche, des enseignants, des étudiants ou des experts, publics ou privés.

Recommandation n° 2. Créer une cellule de contrôle spécialisée « bureau des technologies de contrôle de l’économie numérique», pour l’ensemble des pouvoirs publics, implantée au sein de la DGCCRF.

Recommandation n° 3. Communiquer sur le fonctionnement des algorithmes. Quand un algorithme est affiché explicitement, ou perceptible pour l’utilisateur, identifier l’équipe où la personne responsable de son fonctionnement (« chief algorithm officer ») et communiquer au nom de cette équipe, pour rendre visible l’action humaine qui est aux commandes derrière l’algorithme.

Recommandation n° 4. Développer, dans les secteurs de l’emploi, de la santé, de la finance et de l’assurance, les réflexions avec les parties prenantes pour identifier de nouveaux services utilisant des algorithmes de traitement des contenus. Pour ces « services algorithmiques », identifier un pilote chargé de réunir un forum pour établir et promouvoir au niveau international des règles de bonnes pratiques.

Recommandation n° 5. Lancer un programme de formation à l’attention des agents opérant un service public utilisant un algorithme, pour les former au respect des obligations de transparence et de communication inscrites dans la loi République numérique.

Prendre le temps de célébrer : le numéro spécial de la revue TAL « TAL et éthique »

Nous passons notre temps à courir. D’une activité à l’autre, d’une vie à l’autre, d’un désir à l’autre. Nous célébrons peu, car les réalisations doivent se succéder, à un rythme de plus en plus soutenu. Pour obtenir un poste. Pour trouver un financement. Pour faire carrière. Pour ne pas avoir à penser trop à ce que nous faisons de nos vies.

En cette nouvelle année, je nous souhaite de trouver la volonté de prendre le temps. En particulier le temps de célébrer nos réussites, le résultat de nos efforts, si peu considérés, alors que nos échecs font si souvent l’objet de d’analyses, de relectures, de signalements. Bien entendu, il est sain de faire cette démarche et si naturel pour des scientifiques… Cependant, quelqu’un m’a fait remarquer il y a peu que fêter nos réussites est tout aussi important, pour entretenir l’envie et faire vivre les collectifs.

Je souhaite donc ici célébrer le numéro spécial de la revue TAL consacré à l’éthique, publié (en ligne, gratuitement) in extremis (encore une question de temps) juste avant Noël, après plus d’un an et demi de travail :

https://www.atala.org/IMG/pdf/Book_57-2-2.pdf

Revue TAL "TAL et éthique"Je suis fière de ce volume, sur le fonds, sur la forme, et sur ce qu’il dit de notre communauté de chercheurs/ses. C’est le premier numéro de revue centré sur le sujet, et il émane de la communauté francophone. Il a été construit grâce au travail d’un collectif très large, comprenant les rédacteurs en chef invités (Gilles Adda, K. Bretonnel Cohen et moi-même), l’un des rédacteurs en chef de la revue TAL (Jean-Luc Minel), les membres du comité de lecture (ceux listés ici et ceux du comité de rédaction de la revue TAL), les auteurs des papiers (soumis et acceptés), le comité de rédaction de la revue (CR) et la relectrice. J’ai été l’initiatrice du projet et j’en ai assuré le suivi, mais je n’étais pas seule et jamais je n’aurais pu le mener à bien sans l’aide, le conseil et l’énergie non seulement de mes co-rédacteurs en chef, mais également d’autres personnes autour (je pense en particulier aux membres du CR de ce blog).

Le résultat est très beau sur la forme, grâce au travail minutieux des auteurs, des relecteurs et de la relectrice (une véritable professionnelle, dont le travail d’harmonisation est indispensable).

Sur le fonds, je vous laisse juger par vous-même. Prenez le temps de lire les articles 😉
Quant à moi, j’ai beaucoup appris.

Contenu du numéro

Processus de création

Nous avons reçu sept propositions d’articles anonymisées (seuls JL Minel et moi-même pouvions voir les noms des auteurs et nous n’avons pas participé à la relecture). Nous avons dû rejeter l’une d’entre elles pour une question de forme (article trop court), sans relecture.

Le processus de relecture de la revue TAL comprend deux phases, au terme desquelles trois articles ont été sélectionnés.

Nous (les rédacteurs en chef invités) avons rédigé l’introduction, qui a été relue (cette fois-ci, c’est du double ouvert) par les rédacteurs en chef de la revue TAL (membres du CR), corrigée, puis de nouveau relue et corrigée (tout cela assez vite, car le temps – encore lui – pressait). J’ai également fait relire notre travail par les auteurs des articles du numéro de la revue, afin de vérifier que nous ne disions pas de bêtise concernant leurs articles.

Pour information, un numéro de la revue TAL ne peut contenir plus de cinq articles (y compris l’introduction, si elle est longue, ce qui était le cas ici).

Une fois acceptés, les articles sont dés-anonymisés puis confiés à une relectrice professionnelle, qui envoie ses remarques aux auteurs, qui doivent les prendre en compte pour la publication.

Tout cela est géré par les rédacteurs en chef invités et le CR de la revue TAL, c’est-à-dire par des membres co-optés de notre communauté, qui font ça bénévolement et de manière très « propre » (déontologiquement parlant) : non seulement les articles sont anonymes (et les relecteurs aussi, c’est du double aveugle), mais ils sont assignés (en l’occurrence, par moi, avec accord de JL Minel) à des relecteurs qui ne sont pas du même laboratoire (et a priori pour qui cela ne présente pas de conflit d’intérêt (couples, collaborateurs réguliers, etc)) et les membres du CR (et les invités) qui appartiennent aux laboratoires des auteurs sortent lors des discussions sur les articles.

Bien entendu, rien n’est parfait en ce monde et certains points sont identifiés et en cours d’amélioration (comme la plateforme, peu adaptée au processus de relecture spécifique de la revue), mais c’est notre revue et nous pouvons en être fiers : auto-gérée et en accès libre (vrai open access), c’est une revue dont la qualité est reconnue (je n’ai pas trouvé son classement officiel, mais il me semble qu’elle est classée A).

En ce 1er janvier 2017, je lève donc ma coupe (ma tasse de café, en fait, je me remets doucement…) à ce numéro spécial « TAL et éthique » de la revue TAL et à ceux qui l’ont créé !

Bonne année, éthique et TAL !

PS : certains articles sont déjà cités dans des cours : http://faculty.washington.edu/ebender/2017_575/

 

La question qu’on ne posait pas

Parmi les nouveautés cette année à ACL (la plus cotée des conférences du domaine du traitement automatique des langues), les présidents du comité de programme ont demandé, via leur blog, de proposer des présidents de domaines (area chairs) pour le comité de lecture. Ils ont ajouté quelques statistiques quant aux propositions reçues dans un post, où ils appellent à plus de diversité… et pour cause ! Entre autres déséquilibres (notamment une sur-représentation des Américains (56 %) et des Européens (32 %)), 78 % des proposés (par eux-mêmes ou par des tiers) sont des hommes (voir le carrousel des résultats).

Ils en profitent pour citer le rapport sur les procédures de nomination à ACL présenté lors d’ACL 2016. Ce rapport a été commandité par l’ACL suite à des remarques sur le manque de diversité dans les instances de l’association. Il détaille sept recommandations pour améliorer la situation, en particulier concernant les procédures de nomination des membres de différentes structures liées à l’ACL (par exemple, les area chairs de la conférence). Deux de ces recommandations (5 et 6, p. 3) visent à sensibiliser les membres des instances et plus largement de la communauté aux questions de diversité :

  • Members of the new nominating committee and conference coordinating committees should be strongly encouraged to take an online course in diversity training.
  • ACL should maintain and publish diversity statistics for the executive committee, the fellows program, the LTA award, and general and program chair positions.

Le problème a donc été reconnu, analysé et des (débuts de) solutions sont proposées. Mieux : les auteurs du rapport recommandent un suivi de la situation (via des statistiques sur le sujet) sur le long terme. Ils sont en effet conscients que pour que les choses changent, encore faut-il que le problème soit identifié et qu’un suivi régulier soit assuré.

Qu’en est-il en France ? Dans nos instances ? Dans nos conférences et revues ? Comment le savoir ?

A notre connaissance, il n’existe encore aucun équivalent de ce rapport (très récent) et nous ne disposons pas de statistiques facilement accessibles. Qu’à cela ne tienne : nous avons arpenté les sites Web des conférences TALN, de l’ATALA, de la revue TAL, nous avons demandé de l’aide, sur les réseaux sociaux et ailleurs, pour retrouver des informations désormais ensevelies dans les plis de la mémoire numérique… Voici un bref compte-rendu de ce que nous avons déterré et comptabilisé, manuellement (donc avec sans doute quelques erreurs, à la marge).

ATALA

L’association pour le traitement automatique des langues (ATALA), notre association savante, comprend deux instances de direction : le comité permanent (CPERM) et le conseil d’administration (CA).

Le CPERM, dont la composition varie constamment, du fait de la présence en son sein des organisateurs de la conférence TALN (n-1, n, n+1), comprend actuellement 9 hommes et 7 femmes (soit presque 44 % de femmes). Ce presque équilibre est une réussite remarquable. Il est particulièrement intéressant de noter que la parité est parfaite parmi les membres cooptés (ceux qui ont le mandat le plus long, 4 ans) : 2 hommes (Philippe Blache et Emmanuel Morin, son président) et 2 femmes (Sophie Rosset et Pascale Sébillot).

La situation est beaucoup moins équilibrée au CA, avec 5 femmes pour 15 hommes (25 % de femmes).

Notons également que les présidents des deux instances sont des hommes (Patrick Paroubek étant le président actuel de l’ATALA). En ce qui concerne la présidence de l’ATALA, cela n’a pas toujours été le cas (on se souvient en particulier des présidences de Frédérique Segond (2008 – 2012) et de Laurence Danlos (1995-1999)), mais restons modestes : deux présidentes sur 16 présidents, cela ne représente que 12,5 % de femmes.

 

Revue TAL

L’une des très grandes réussites de l’ATALA est sa revue, auto-gérée et open access, la revue TAL. Cette revue ne pourrait pas fonctionner sans son comité de relecture (CR), qui abat un travail énorme et méconnu afin de publier chaque année trois numéros, dont en général un varia (numéro non thématique, dont les rédacteurs en chef sont membres du CR) et deux numéros spéciaux (avec un rédacteur en chef membre du CR et des co-rédacteurs en chef invités).

A l’heure actuelle, le CR de la revue comprend 33 membres (et une secrétaire, Aurélie Névéol), dont 10 femmes (soit un peu plus de 30 % de femmes). Il est à noter que les membres du CR sont co-optés et non élus par la communauté ou le CA de l’ATALA.

Si l’on considère les numéros disponibles en ligne, ainsi que le numéro à venir, TAL et éthique (pub), hors varia (dont les rédacteurs en chef sont des membres du CR), on y trouve 15 femmes et 30 hommes comme rédacteurs en chef et seuls deux numéros (sur une vingtaine) n’ont que des femmes comme rédactrices en cheffe (à comparer aux 9 qui n’ont que des hommes comme rédacteurs en chef) :

  • 47:2 Discours et document : traitements automatiques
    Marie-Paule Péry-Woodley, Donia Scott
  • 54:2 Entités Nommées
    Sophia Ananiadou, Nathalie Friburger, Sophie Rosset

TALN

Une rapide analyse des comités d’organisation des différentes conférences TALN montre que :

  • Sur les 22 éditions, seules 2 ont été présidées par des femmes seules (2003, Béatrice Daille et 2005, Michèle Jardino).
  • Au total, on note 33 organisateurs hommes et seulement 7 femmes, soit 17,5 % (en comptant Iris Eshkol et Jean-Yves Antoine pour 2017).

En ce qui concerne les conférenciers invités, l’affaire est moins simple, car les données sont parfois difficiles à trouver. Nous avons pu obtenir les noms des invités pour tous les TALN entre 2005 et 2016 (sachant qu’il n’y en a pas eu en 2014 (hommage à Jean Véronis) et qu’il ne semble pas y en avoir eu en 2009 (50 ans de l’ATALA obligent ?)).  Nous avons identifié 27 intervenants, dont seulement 7 sont des femmes (soit à peu près 26 %), avec un pic de 3 (près de la moitié !) en 2008.

Les données concernant les prix TALN et RECITAL sont disponibles sur le site de l’ATALA pour les éditions 2008 à 2016 (inclus). Ainsi, parmi les auteurs des articles primés sur cette période, on compte 5 hommes et 5 femmes (soit 50 % de femmes) pour RECITAL, et 9 femmes et 22 hommes (soit 29 % de femmes) pour TALN. Il est intéressant de noter que sur les 13 articles primés à TALN sur cette période, 7 ont une femme comme première autrice (soit 54 %). Pour continuer dans les prix, le prix de thèse de l’ATALA a lui été attribué de manière totalement équilibrée : trois fois à un homme (2011, 2012, 2013) et trois fois à une femme (2014, 2015, 2016).

Les informations sont encore plus difficiles à excaver concernant les comités de chaque conférence, nos données sur le sujet sont relativement éparses et donc moins fiables. Le comité de programme (ou d’organisation) compte de 22 (2014) à 33 % (2005 et 2016) de femmes selon les années et le comité de lecture (ou scientifique) entre 25 et 30 %.

Lister les présidents de sessions (chairs) pour chaque conférence est une gageure, mais en 2014, les femmes étaient 3 (sur 12) et en 2016, elles étaient 5 (sur 13).

Quant à savoir qui était responsable de domaine (area chair), s’il y en avait, lors des différentes conférences TALN, c’est pratiquement impossible (à moins qu’il y ait une mémoire de ceci quelque part, mais on peut en douter).

Il est à noter que le choix des présidents de session, des relecteurs (comité de lecture) et des organisateurs se fait par cooptation. A notre connaissance, les conférenciers invités sont choisis par le CPERM à partir d’une liste proposée par les organisateurs de la conférence.

Combien de femmes, dans le TAL français ?

Tous ces chiffres n’ont cependant que peu d’intérêt pour l’analyse si l’on ne connaît pas la proportion de femmes actives dans le domaine. Une source d’information en la matière est la publication d’articles, en particulier à TALN. Or, la part des femmes parmi les auteurs des articles acceptés dans les conférences TALN a été présentée par Patrick Paroubek lors de l’assemblée générale de l’ATALA en 2014 à l’occasion des 20 ans de la conférence TALN. Les chiffres montrent une évolution modeste sur deux décennies, avec 24 % de femmes autrices en 1997 (pour 73 % d’hommes et 3 % d’auteurs au prénom mixte ou de genre inconnu) contre 29 % de femmes autrices en 2014 (pour 57 % d’hommes et 13 % d’auteurs au prénom mixte ou de genre inconnu). Le même travail réalisé par Paroubek (et al.) sur l’anthologie de la conférence LREC estime à 34 % la part des femmes dans les auteurs d’articles de notre domaine.

Le problème de ce type de source (outre les prénoms difficiles à classifier) est qu’il pourrait induire des biais en cascade : il n’est en effet pas impossible que les femmes voient leurs articles moins souvent acceptés que ceux des hommes (voir (Wenneras et Wold, 1997)). Mais en l’absence d’autre source d’information, nous étions prêtes à évaluer la part des femmes dans notre domaine, en France, à environ 30 %.

Damien Nouvel et Patrick Paroubek (merci à eux !) nous ont heureusement (et très rapidement) fourni l’information qu’il nous manquait : le sexe des adhérents ATALA.  Si l’on considère la totalité des adhérents de 2003 à 2016, on obtient 640 femmes, 696 hommes et 247 épicènes, soit un taux de 47 % de femmes en excluant les épicènes. 47 % ! Même si tous les épicènes étaient des hommes (943), on aurait plus de 40 % de femmes.

Soit les 13 % d’auteurs au prénom mixte ou de genre inconnu de TALN 2014 sont en  fait des femmes, soit les femmes publient moins (à TALN), soit elles s’inscrivent plus à l’ATALA…

ConclusionS

La première conclusion de cette étude est que malgré des efforts visibles, nous manquons de données publiées, en particulier en ce qui concerne les conférences TALN (y compris récentes) :

  • qui est area chair de quel domaine lors de la relecture ?
  • qui est chair de quelle session ?
  • combien d’inscrits ou de membres de l’ATALA (et parmi eux, combien de femmes) ? [fait, mais non encore publié (à part ici)]
  • combien d’articles refusés à TALN (F / H) ?

« Ce qui n’est pas compté ne compte pas »

La deuxième conclusion, peu surprenante, est qu’il y a bien un déséquilibre dans le TAL. Il est important de noter qu’il est plus marqué lorsqu’il s’agit de positions plus visibles (conférenciers invités, président, etc), ce qui correspond à l’observable dans la fonction publique (voir ici pour le CNRS et lire ceci pour l’ESR) et en général (effet « plafond de verre »).

On pourrait sans doute réduire assez rapidement l’écart en sensibilisant au problème les membres des différentes instances citées ici et en s’inspirant, pourquoi pas, des recommandations de l’ACL.

Nous espèrons que ce post de blog participera à ce mouvement, à sa mesure.

Karën Fort et Aurélie Névéol

PS : on me (Karën) souffle dans l’oreillette que le CR de ce blog ne comprend qu’une seule femme (moi) sur 6, et on a raison. Il est donc plus que temps Mesdames, de nous rejoindre ! Contactez-nous !

Références

Benoît Habert, « L’archivage numérique entre us et abus de la mémoire numérique », in JADT 2012 11èmes Journées internationales d’analyse statistique des données textuelles, Anne Dister, Dominique Longrée, Gérald Purnelle (resp.), Liège, Université de Liège – Facultés universitaires Saint-Louis Bruxelles, 13–15 juin 2012, p. 23–43.

Rediscovering 15 Years of Discoveries in Language Resources and Evaluation: The LREC Anthology Analysis, Joseph Mariani, Patrick Paroubek, Gil Francopoulo, Olivier Hamon, LREC 2014

Wenneras C, Wold A. Nepotism and sexism in peer-review. Nature. 1997 May 22;387(6631):341-3. http://www.cs.utexas.edu/users/mckinley/notes/ww-nature-1997.pdf

Évaluation en Traitement Automatique des Langues : rigueur scientifique, course d’un jour ou aveuglement collectif ?

pasteur
Albert EDELFELT, Louis Pasteur, en 1885.

En matière de recherche, s’il est un sujet où scientifiques et doxa populaire se rejoignent, c’est bien celui d’une élaboration continue de la connaissance par validation (ou réfutation) expérimentale des hypothèses. De nombreuses études en sociologie des sciences ont montré que cette vision objectiviste contenait une part de mythe (Latour &Woolgar 1979), fondé avant tout par les sciences dures expérimentales (Bensaude-Vincent 2013). Il n’en reste pas moins que la puissance opérative de cette vision de l’activité scientifique reste prédominante dans la pratique du chercheur, en sciences expérimentales du moins.

Situé à l’interface entre les sciences humaines et les sciences expérimentales, le TALN (Traitement Automatique des Langues Naturelles) est un domaine de recherche idéal pour observer l’influence de ce paradigme objectiviste. Pendant de nombreuses années (où, avouons-le, les applications opérationnelles étaient encore rares), l’évaluation de la production scientifique faisait la part belle au côté stimulant et originel des idées proposées. Le TALN semblait avant tout relever de la République des Idées chère aux sciences humaines. Depuis près de trois décennies, le TALN a désormais pris résolument le parti d’une évaluation supposée objective de ses travaux, en particulier sous la forme de campagnes d’évaluation compétitives (shared tasks).

L’affaire se déroule ainsi : une tâche particulière est définie, un jeu de données commun est constitué pour permettre le développement des systèmes participant à la compétition, et, au bout d’une période fixée, ces derniers sont testés sur une base de test que l’on suppose être représentative de la tâche. On obtient alors un classement des systèmes participants. A titre d’exemple, la figure ci-dessous résume les résultats de la dernière campagne d’évaluation sur l’identification de relations de discours (Shallow Discourse Parsing shared task) de la conférence CoNLL’2015 (Xue et al. 2015) . Nous n’allons pas expliquer ici en détail ces résultats. Disons simplement, que pour trois sous-tâches données (Argument, Connective, Parser), les participants sont classés (O = official) suivant une métrique (F = F-mesure, qui combine deux mesures de Précision P et de Rappel R) calculée une fois pour toute sur le corpus de test. Le classement final résultant d’une combinaison entre les scores obtenus sur les trois sous-tâches.

img_conllCes campagnes compétitives ont toujours un fort impact au sein de la communauté scientifique. Aussi, lorsque notre laboratoire LI a remporté la campagne ETAPE d’évaluation des systèmes de détection automatique des entités nommées sur le français parlé (Nouvel 2013), nous ne nous sommes pas privés de mettre en exergue ce résultat.

Pourtant, pourtant… que représentent vraiment ces classements ? Récemment, j’ai invité une amie qui venait de terminer une thèse en modélisation cognitive computationnelle, et qui à ce titre a l’habitude des travaux en psychologie expérimentale, à assister à un atelier en TALN. Sa réaction face à nos présentations fut immédiate : « vous ne comparez que des résultats bruts, ne calculez-vous jamais la pertinence statistique de vos observations pour fonder votre analyse critique ? ». Gêne de ma part, car que répondre à cet évident manque de rigueur de nos procédures d’évaluation ? Eh oui, l’East China Normal University a peut-être remporté la sous-tâche Argument de la shared task de CoNNL avec une F-mesure de 46,37, mais aucune étude ne nous montre que ce résultat est statistiquement supérieur au 41,31 de l’UIUC ! Pour pouvoir répondre à cette question, il aura fallu diviser la base de test en sous-corpus, regarder la variabilité des résultats obtenus et procéder à des tests de significativité statistique (test paramétrique de Student, test U de Wilconxon-Mann-Withney, par exemple) pour pouvoir vraiment décerner une première place incontestable. Ces tests, que l’on rencontre très rarement dans nos campagnes d’évaluation, sont pourtant enseignés dès la licence à des étudiants en en statistique et analyse de données !

olympic_games_1908_london
Affiche jeux Olympiques 1908 Londres

Les classements de nos campagnes d’évaluation ont ainsi autant de valeur qu’une épreuve de saut à la perche aux Jeux Olympiques où le meilleur athlète de la discipline peut se retrouver dans un mauvais jour. Dans le cas présent, l’UIUC a peut-être eu simplement la malchance d’être confrontée à un jeu de données qui lui convenait moins bien…

Les chercheurs en TALN acceptent cet état de fait car ils s’en remettent à un autre mythe de la discipline : celui du corpus représentatif. Ce mythe, si cela en est un, est lourd de conséquences, car les techniques d’apprentissage automatique que nous utilisons majoritairement n’ont qu’un but : non pas de résoudre un problème qui pourrait donner lieu à des applications réelles, mais de s’adapter au mieux à un jeu de données extrait du problème. On imagine aisément les travers d’un tel choix de paradigme si la représentativité de nos corpus n’était pas au rendez-vous.

Or, cette représentativité n’a rien de garantie. J’en veux pour preuve les résultats d’un stage de Master que j’ai encadré récemment. Je vous explique. Lucie Dupin, la stagiaire, avait pour tâche de développer un système de détection automatique des noms d’auteurs dans des blogs, ceci sur des données fournies par l’entreprise (Elokenz – Cicero Labs) qui finançait le stage. Sans être très difficile, cette tâche est plus complexe qu’on peut l’imaginer à prime abord si on veut atteindre une généricité de traitement. Chaque blog a en effet une manière qui lui est propre de présenter l’auteur d’un post, et comme plusieurs noms propres peuvent figurer sur une page de blog, détecter la bonne entité nommée n’est pas trivial. Pour s’assurer de la représentativité des données, Elokenz a opéré une extraction sur une très grande diversité de blogs. Nous avons entraîné un classifieur SVM sur ces données d’apprentissage, en réservant classiquement un dixième du corpus pour le test du système (et en procédant à une technique dite de validation croisée qui nous assure que le système n’apprend pas par coeur mais tente de généraliser à partir de ses données d’entrainement). Les résultats furent très satisfaisants, avec un taux de bonne détection (Accuracy) de 91 % (Dupin et al., 2016). Lucie ayant bien avancé durant son stage, il nous restait une semaine à occuper avant sa soutenance. Elokenz nous a alors fourni un nouveau corpus de test, tout aussi varié que le précédent, mais extrait d’autres blogs. Patatras, l’évaluation (sans nouvel entraînement) du système nous a donné une robustesse déclinant à 66 % ! Certains choix faits au cours du stage ont confirmé leur intérêt sur cette seconde évaluation : le travail de Lucie n’était donc heureusement pas remis en cause. Mais il était clair que nous avions développé un système sur un corpus jugé représentatif de tous, et qui ne l’était pas. Au final, nous n’avions fait qu’adapter notre classifieur aux données, sans avoir l’assurance que sa robustesse sur tout type blog serait suffisante dans un cadre industriel.

Je pose donc la question : quand nous sommes nous interrogés sur la pertinence des corpus sur lesquels nous développons nos systèmes ? Et qui parmi nous ne passe pas des semaines à adapter (tuning) son système pour qu’il colle au mieux aux données d’apprentissage, afin d’obtenir un bon classement, plutôt que de réfléchir au développement d’approches originales ?

Vous savez quoi, je commence à douter de notre première place lors de la campagne Etape. Bon, à dire vrai, j’en doutais depuis longtemps…

Jean-Yves Antoine

Repères bibliographiques

  • Bernadette Bensaude-Vincent (2013) L’opinion publique et la science : à chacun son ignorance, La Découverte, Paris.
  • Lucie Dupin, Nicolas Labroche, Jean-Yves Antoine, Jean-Christophe Lavocat, Agata Savary (2016) Author name extraction in blog web pages: a machine learning approach. Actes JADT’2016. Nice, France
  • Bruno Latour et Steve Woolgar (1979) Laboratory life : the social construction of scientific facts. Sage, London. Trad. Fr. La vie scientifique : la production des faits scientifiques, La Découverte, Paris, 1988.
  • Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Rashmi Prasad, Christopher Bryant, Attapol T. Rutherfort (2015). The CoNLL-2015 Shared Task on Shallow Discourse Parsing. Proc. CoNLL’2015, Pekin.

 

Ethique et technologie de la langue : réagir ou contourner ?

Les promoteurs de ce blog ont remarqué le peu d’entrain de la communauté scientifique à s’attaquer au sujet Ethique et TAL, que ce soit dans ce blog ou dans d’autres initiatives. Or, nous voyons après enquête (voir Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole) que beaucoup de gens sont conscients de la gravité du sujet, et pensent qu’il faut faire quelque chose. Cela souligne l’écart entre les déclarations et les faits.

Je voudrais ici creuser ce sujet de l’éthique pour le TAL qui provoque à la fois une mobilisation d’un très petit nombre, une méfiance sourde de la part de certains, mais surtout un immense silence de la part de la quasi-totalité de la communauté. Comment analyser ces réactions : petit nombre se déclarant pour ou contre, et immense majorité ne se prononçant pas. Le phénomène n’est pas nouveau, on le retrouve dans beaucoup de domaines, sur de très nombreux sujets, mais je pense qu’il est intéressant de l’analyser précisément pour le cas particulier de l’éthique en TAL, car cela peut permettre de faire évoluer les lignes. Explorons l’arbre des possibilités, pour un chercheur en sciences du langage impliqué dans le traitement automatique de la langue.

  1.  je ne suis pas conscient que mon activité peut impliquer des problèmes éthiques. Ce cas est plus fréquent qu’on peut ne l’imaginer (et ne vous concerne pas, puisque vous êtes en train de lire un post sur un blog qui s’appelle Ethique et TAL !) ; en effet, nous sommes dans un domaine où les atteintes à l’éthique ne sont pas évidentes, mis à part certains cas comme par exemple les dossiers patients dans le domaine du biomédical ou l’identification de la voix dans un contexte judiciaire, ou des problèmes de plagiat ou de bidonnage de résultats. Les affichages des instances (le COMETS, la CERNA ) ont une faible implication pratique. De plus, rien (ou presque) n’est fait dans la formation du chercheur pour le sensibiliser aux problèmes éthiques : l’enseignement de l’éthique pour les futurs professionnels de la recherche est .. étique ! Cela est peut-être aussi renforcé par la course aux publications, qui laisse peu de temps aux jeunes chercheurs pour se poser des questions ; ensuite, le pli est pris.
  2.  je suis conscient que mon activité peut impliquer des problèmes éthiques, et :

a.  Je réagis positivement, et j’essaye de contribuer à la résolution des problèmes éthiques. Le nombre de personnes étant petit, la tâche est rude pour convaincre la communauté scientifique. Elle implique souvent de consacrer une partie de sa recherche à ce sujet, afin de pouvoir intervenir dans le cadre naturel du chercheur, c’est-à-dire les congrès, les journaux. Cela prend donc pas mal de temps, et cela réclame un certain courage, mais est-ce que ça vaut vraiment le coup ? C’est la démarche des lanceurs d’alerte, qui apparaît comme militante, et souvent suspecte d’arrière-pensées politiques. Elle peut être vue également comme une attitude rétrograde vis-à-vis de la technologie de manière générale : une telle attitude est stigmatisée, comme la soit-disant « peur du train » qui aurait eu cours au XIXe siècles chez certains docteurs hygiénistes1.

b. Je réagis négativement contre ces initiatives. Cette attitude est rare, mais finalement pas beaucoup plus que l’attitude précédente. Les motivations peuvent être diverses, mais de mes observations, la motivation principale est la suivante : Je vois les gains potentiels en particulier pour moi (ma carrière, mon business) et je décide d’ignorer les risques éthiques, bien que j’en sois conscient. Cette attitude est souvent le résultat de la réflexion que de toute façon, l’avènement des « progrès » technologiques qui posent des problèmes éthiques est inévitable, et que donc, si des dégâts arrivent, autant essayer d’être dans la minorité qui sera « du bon côté du manche ». Si l’on est conscient des risques éthiques, cette attitude requiert également du courage. Il faut être prêt à défendre son point de vue, vis-à-vis de ses collègues et amis ; de plus, rien ne dit qu’une telle attitude ne sera encore plus ostracisée, si le grand public et/ou les décideurs viennent finalement à être sensibilisés au problème. On a là une application tout à fait pragmatique et faussée d’une éthique utilitariste à l’anglo-saxonne : je fais de la science, la science est bonne, je peux faire plus de science en utilisant des techniques que certaines personnes considèrent comme non-éthiques, alors que les risques ne sont que potentiels ; je considère donc que la balance est positive, donc ce que je fais est éthique !

c. Je reste neutre. Je suis conscient, mais je ne vois pas comment m’impliquer. Comme pour d’autres problèmes d’ampleur (réchauffement climatique, guerre, ressources limitées), une initiative locale et individuelle paraît complètement disproportionnée et inefficace, face à l’inertie des décideurs politiques ou ici institutionnels. Si je suis amené(e) dans mon activité à me confronter directement à un problème d’éthique, alors soit je vais infléchir celle-ci de façon à contourner le problème, soit j’adopte le point de vue de mon labo, ou de ma tutelle, ou de mon directeur de thèse. Si mon activité ne touche pas directement un problème d’éthique, je me limite à des déclarations d’intérêt, en me reposant sur les instances dites « supérieures ». Là, pas de problèmes vis-à-vis de la communauté, de ses collègues, au prix cependant de devoir peut-être orienter différemment sa recherche.

On voit donc que l’attitude « intelligente », celle qui préserve à la fois la bonne image qu’on peut avoir de soi, et le respect de ses pairs et collègues, est l’attitude neutre.

J’ai observé un cas pratique de ce phénomène, lorsque nous avons soulevé, avec certain(e)s, les problèmes liés à l’utilisation de la plateforme de crowsourcing payant Amazon Mechanical Turk (AMT). Nous avons alors fait face à cette attitude dans la communauté du TAL et de la parole. La plupart des gens interpellés admettent les risques, quelques rares personnes défendent le modèle, mais en pratique très peu font de manière explicite quelque chose (article, conférence, système alternatif) pour essayer de pallier les défauts du système. Aujourd’hui, dans la pratique, nous ne pouvons pas dire que la communauté n’utilise plus AMT, loin de là, mais nous n’observons pas l’explosion du nombre de papiers utilisant le crowdsourcing en faisant la course à l’échalote de celui qui arriverait à produire le plus pour le moins cher, tel que nous l’avons vu il y a quelques années. Est-ce, comme pour ces personnes qui sont venus me dire dans des conférences qu’elles me me remerciaient de publier sur le sujet, car elles pouvaient ainsi opposer des articles scientifiques à leur hiérarchie qui les enjoignait d’utiliser AMT, que les chercheurs ont évité l’utilisation, sans ostentation, que ce soit par peur de la polémique ou par conviction ? Je ne sais pas, mais j’ai l’impression que les personnes utilisant la myriadisation du travail parcellisé ont intégré cette dimension de risque éthique, et soit s’abstiennent, soit l’intègrent de manière minimale dans leur travail (au niveau de la rémunération, du choix du site, de la méthode d’exclusion des travailleurs non fiables, etc).

Pour résumer, en s’appuyant sur l’exemple d’AMT, on voit donc qu’une mobilisation pour mettre en lumière des problèmes éthiques peut aboutir au fait qu’un certain nombre de chercheurs devenus conscients, orienteront différemment leurs recherches, mais sans bruit. Il ne faut pas forcément se polariser sur les deux populations qui sont prêtes à polémiquer, ceux qui se lèvent pour dire oui ou non ; ces deux attitudes ont un coût qui peut s’avérer trop lourd, en particulier pour de jeunes chercheurs. Dans ces conditions, ne nous désespérons pas d’être peu nombreux à nous mobiliser, mais regardons pragmatiquement l’impact sur le domaine.


1. Cette « peur du train » est un mythe, et n’a jamais vraiment existé, voir Jean-Baptiste Fressoz, L’apocalypse joyeuse, une histoire du risque technologique, éd. Du Seuil, 2012.

Merci Microsoft

Qui aurait dit que moi, Unixien d’avant Linux à tendance Apple-maniac, je dirais un jour merci à Microsoft ? Et ce sans arrière-pensée (enfin presque). Ce que je veux évoquer, c’est ce qui s’est passé avec le « chatbot » Tay de Microsoft.

Note en passant : si vous n’avez pas encore entendu parler de chatbot, mettez-vous y, c’est le buzzword de l’année et ça va bien être bien plus qu’un buzzword. En revanche, si vous n’avez pas entendu parler de Tay, c’est possible car, comme me le faisait remarquer un ami journaliste, les news ont été assez largement nettoyées depuis l’événement.

Tay, c’est quoi ?

Tay, donc, pour ceux qui ont raté l’épisode, c’est un chatbot mis en ligne par Microsoft sur Twitter fin mars. Un robot entraîné à raconter « des choses » en réponse aux messages qu’il reçoit. Sans plus de but : avoir des conversations en ligne, c’est tout. Conceptuellement, on peut s’imaginer le système comme suit et ce n’est pas bien complexe : il s’agit d’une part d’un générateur de phrases (on est sur Twitter, donc on dépasse rarement deux phrases) et d’autre part d’un système d’évaluation des réactions. Là où on dépasse un peu la génération de textes traditionnelle, c’est que le système assemble des mots (ou suites de mots) trouvés sur Twitter, principalement dans les choses qu’on lui écrit et en fait des phrases. Les modèles de langages sont tels que les phrases ressemblent à des phrases bien construites et pas à des mots jetés au hasard.

Le modèle s’affine « en marchant » avec l’analyse des réactions qui suivent ces phrases. Si les gens répondent positivement (« yeah, trop cool »), alors l’exemple est à suivre ; si les réactions sont négatives, le système tâchera de ne plus produire cette phrase.

Conception simple a priori, même si la mise en œuvre implique des techniques très avancées, tournant autour de l’apprentissage profond (aussi appelé « deep learning », ce billet fait le plein de buzzwords). On appelle ça désormais de l’intelligence artificielle.

Vu de loin, ce n’est pas loin de la façon dont un enfant apprend à parler. Il raconte des choses, si vous avez l’air content, il continuera à les dire ; sinon il essaiera autre chose.

Microsoft avait tenté le coup voilà plusieurs mois en Chine et l’expérience avait été très concluante. Ils ont donc mis le robot en ligne le 23 mars, le présentant comme conçu pour dialoguer avec des adolescents. Mais, après quelques heures d’existence, Tay a été débranchée, car il/elle tenait des propos sexistes, pro-nazis, conspirationnistes et autres ignominies.

CeSpN6BWAAA0oEZ.jpg-largeNota: le 30 Mars, Tay a été remis en ligne et re-débranché le même jour, suite à des comportements incohérents – des bugs quoi…

Qu’est-ce qui s’est passé ?

La cause de ces dérapages est due à une équipe de néo-nazis, suprémacistes et autres branques qui s’expriment sur le réseau 4chan (canal /pol) et qui avaient eu vent de l’opération. Ils ont donc gavé le robot avec leurs discours.

Tay a été de ce point de vue une parfaite réussite technique : un propos révisionniste salué d’un bravo, et hop ! voilà un exemple positif. On continue, on en rajoute, et voilà un chatbot qui dit haïr les juifs, approuver Hitler, détester les féministes et vouloir gazer les mexicains.

Si on regarde comment est fait Tay (du moins ce que j’ai pu en reconstituer), cela était parfaitement prévisible. Pourtant, Microsoft ne s’y attendait pas. Pourquoi ? Parce que l’expérience précédente (en Chine) n’a pas eu ce travers, et pour cause: les chinois ne se laissent pas aller à ce genre de débordements sur des forums publics. Culture ou surveillance du Net, les deux causes sont convergentes et difficiles à mesurer. Quoi qu’il en soit, le terrain d’expérimentation était bien différent de ce que nous connaissons d’Internet.

Qu’en conclure ?

Une conclusion simple serait de dire que des techniciens ont laissé une liberté à une créature sans penser aux conséquences, que science sans conscience n’étant que ruine de l’âme, il aurait mieux valu réfléchir avant de lancer ce projet.

Je ne veux pas dénigrer la citation de Rabelais et elle s’applique bien ici, dans les faits, que s’est-il réellement passé ? C’est pour moi comme si on avait appris à dire « prout » à un perroquet. Il suffit d’y passer un peu de temps, d’avoir suffisamment de friandises à lui offrir. Assez rapidement, le perroquet pourra répéter l’interjection. Et alors ? Et alors rien. Son propriétaire apprendra à dire autre chose au perroquet ou le revendra. Pour un chatbot, c’est plus facile, il suffit de le couper. Si on reprend le parallèle de l’enfant qui apprend à parler, on en est au stade où l’enfant parle « pour parler », pas pour se faire comprendre. C’est un comportement récurrent chez l’enfant, mais qui se développe en pour étayer la finalité première du langage : se faire comprendre.

L’intelligence artificielle telle qu’elle se développe sous nos yeux est bien plus proche du perroquet que du HAL-9000 de 2001 l’Odyssée de l’Espace (et même clairement en deçà du perroquet). Tay n’avait pas de message à transmettre parce que son seul but était de produire des textes, pas de parler. La grande erreur ne vient pas des techniciens mais de ceux qui – sciemment ou non – veulent nous faire croire qu’il en est autrement, que les machines peuvent créer de l’information par la magie des Algorithmes (dernier buzzword). Ces algorithmes dont le but, comme le dit Gérard Berry, est d’évacuer la pensée du calcul afin de le rendre exécutable par une machine numérique. Des recettes de cuisine, quoi.

C’est pourquoi on peut dire merci à Microsoft de nous avoir rappelé quel est le niveau de l’IA aujourd’hui et de l’avoir clamé bien fort pour nous permettre de nous méfier de ceux qui font passer des recettes de cuisine pour l’expression d’une pensée philosophique ou politique.

L’effet petits poneys roses, (ou de l’intérêt d’aborder les questions éthiques dans la conférence principale…)

Je suis allée présenter les résultats des enquêtes éthique et TAL (on en parlait ici, l’article complet est ici) à une conférence bien connue du domaine, LREC (Language Resources and Evaluation Conference), en Slovénie.
J’avais en outre un papier accepté dans un atelier périphérique à la conférence centré sur l’éthique, ETHI-CA², qui a eu lieu le mardi précédent la conférence principale. L’ordre de succession de ces deux événements a son importance.

L’atelier était très intéressant, non seulement dans la variété des contenus présentés mais également du fait de la riche discussion qui a suivi. Les questions posées par le public de chercheurs étaient constructives et l’ambiance détendue. Nous nous sommes rencontrés, avons échangé des idées, des suggestions. Je suis sortie revigorée, pleine de beaux projets, des jolis petits poneys roses pleins les yeux.

La conférence principale, LREC, est immense, avec trois ou quatre sessions en parallèle, des posters dans tous les coins et plusieurs centaines de participants. La salle qui était dévolue à notre session était très grande et devait contenir plus d’une cinquantaine de personnes lors de ma présentation. L’ambiance n’était pas hostile, mais pas particulièrement intéressée non plus : la session n’était pas spécifiquement dédiée à l’éthique, mais plutôt à des thématiques générales (Language Resource Policies).

J’avais beaucoup préparé ma présentation (trop ?), voulant donner le plus de résultats dans les 15 minutes octroyées. Au final, je n’ai pas été formidable, et j’ai fini en avance. J’étais contente d’avoir plus de temps pour les questions. J’avais encore les petits poneys roses de l’atelier ETHICA² plein la tête.

Je m’étais préparée à répondre à des questions difficiles, mais j’avoue que la première m’a désarçonnée : « peux-tu nous citer un outil de TAL qui pose un problème éthique ? Je n’en vois pas » ….
J’ai évidemment tout de suite donné un exemple (le moteur de recherche de Google), mais pas le plus percutant. Puis j’ai donné celui des aides à la communication qui font régresser les utilisateurs (voir Anaïs Lefeuvre et al., dont la présentation est ici). Je n’ai cependant pas l’impression d’avoir convaincu.

Le deuxième intervenant a dit quelque chose que je n’ai pas pu bien entendre, mais qui tournait apparemment autour de l’affirmation que l’éthique était du domaine du citoyen et pas du chercheur. A ce moment-là, il n’y avait plus vraiment de temps pour répondre et j’ai dit quelque chose autour du fait qu’il fallait en discuter, mais mon temps était terminé.

Moralité : pas de petit poney rose dans la conférence principale !

Je suis sortie déçue de ma prestation, avec l’impression d’être passée à côté de quelque chose. Et pourtant… c’est bien à ces questions qu’il faut répondre pour faire avancer la prise de conscience, c’est bien à ces chercheurs, qui ne sont pas convaincus de l’intérêt de l’éthique dans le TAL, qu’il faut parler.
Aussi.

C’est pour éviter l’effet petits poneys qu’il faut aborder l’éthique dans la conférence principale, et pas seulement dans des ateliers, même si ceux-ci sont indispensables (ne serait-ce que pour ne pas sombrer dans l’alcool en sortant d’une telle session !).

Au final, j’ai obtenu suite à cette présentation que l’appel général de la prochaine conférence LREC, en 2018, contienne un paragraphe sur l’éthique. Cette fois je serai prête et je laisserai les petits poneys au vestiaire ! Et si vous envoyez un papier sur le sujet, je serai là, dans le public, et je vous poserai une question, promis.