Quelle éthique pour le crowdsourcing ?

Début septembre, j’ai été amené à donner une conférence invitée dans le cadre de l’action COST enetCollect, à Bolzano. Cette action se focalise sur l’appel au crowdsourcing (ou myriadisation) pour constituer des ressources linguistiques utiles au développement de solutions d’apprentissage des langues. Solutions qui seront également développées dans le cadre du projet. Un des working group, piloté par Karën Fort (U. Paris 4) et Katerina Zdravkova (Ss. Cyril & Methodius U. , Skopje), concerne la définition de spécifications éthiques et légales pour la conduite du processus de crowdsourcing.

C’est dans ce cadre que j’ai été invité à présenter les approches éthiques qui pourraient s’appliquer au crowdsourcing. J’ai choisi de mettre en avant les travaux de la littérature relevant d’une éthique :

(1) déontologique pour l’analyse du processus de crowdsourcing par lui-même,

(2) conséquentialiste pour l’analyse de l’impact des solutions d’apprentissage qui seront développées au cours de l’action.

Cette présentation relevant pour la partie déontologique d’une nouvelle réflexion de ma part, elle ne s’appuyait sur aucune publication personnelle. Dès lors, pourquoi ne pas la partager avec les lecteurs de ce blog ? Je ne sais si mes slides seront compréhensibles sans explications, mais je crois que la bibliographie que j’ai étudiée peut vous intéresser…

Présentation BOLZANO

 

TAL et domaine juridique : l’arrivée du Big Data

Jusqu’à une date assez récente, les applications du TAL ou du TAP (Traitement Automatique de la Parole) dans le domaine juridique ont surtout concerné les questions d’identification des personnes par leur voix ou leurs écrits. Avec l’arrivée de masses de données juridiques numériques, le Big Data investit désormais des questions comme la rédaction automatique d’acte notariés, la justice prédictive etc…

Le journal du CNRS vient précisément de publier un petit article qui fait le tour de la question : « La justice à l’heure des algorithmes et du big data« . Analyse assez équilibrée des bénéfices et risques de ces technologies langagières. Et une vision très claire des limites technologiques de ces dernières en termes de performances.

 

Note de lecture : « le temps des algorithmes »

La revue sur la culture scientifique en ligne Interstices a publié une note de lecture sur Le Temps des algorithmes (editions du Pommier), ouvrage que viennent de publier Abiteboul et Dowek sur les questions et débats éthiques que soulève le développement de notre société numérique :

https://interstices.info/jcms/p_92826/regard-sur-le-temps-des-algorithmes

Note de lecture intéressante qui vous incitera peut-être à aborder l’ouvrage lui-même…

Après le ministère de l’économie, la CNIL débat sur les algorithmes

La question des algorithmes est désormais bien présente au sein du débat politique français : après le rapport sur le sujet du ministère de l’Economie, c’est la CNIL qui lance un débat ce jour. Pour faire la part entre le fantasme et les questionnements éthiques légitimes. Des tables rondes sont à écouter dès ce lundi 23 janvier :

https://www.cnil.fr/fr/ethique-et-numerique-les-algorithmes-en-debat-0

Évaluation en Traitement Automatique des Langues : rigueur scientifique, course d’un jour ou aveuglement collectif ?

pasteur
Albert EDELFELT, Louis Pasteur, en 1885.

En matière de recherche, s’il est un sujet où scientifiques et doxa populaire se rejoignent, c’est bien celui d’une élaboration continue de la connaissance par validation (ou réfutation) expérimentale des hypothèses. De nombreuses études en sociologie des sciences ont montré que cette vision objectiviste contenait une part de mythe (Latour &Woolgar 1979), fondé avant tout par les sciences dures expérimentales (Bensaude-Vincent 2013). Il n’en reste pas moins que la puissance opérative de cette vision de l’activité scientifique reste prédominante dans la pratique du chercheur, en sciences expérimentales du moins.

Situé à l’interface entre les sciences humaines et les sciences expérimentales, le TALN (Traitement Automatique des Langues Naturelles) est un domaine de recherche idéal pour observer l’influence de ce paradigme objectiviste. Pendant de nombreuses années (où, avouons-le, les applications opérationnelles étaient encore rares), l’évaluation de la production scientifique faisait la part belle au côté stimulant et originel des idées proposées. Le TALN semblait avant tout relever de la République des Idées chère aux sciences humaines. Depuis près de trois décennies, le TALN a désormais pris résolument le parti d’une évaluation supposée objective de ses travaux, en particulier sous la forme de campagnes d’évaluation compétitives (shared tasks).

L’affaire se déroule ainsi : une tâche particulière est définie, un jeu de données commun est constitué pour permettre le développement des systèmes participant à la compétition, et, au bout d’une période fixée, ces derniers sont testés sur une base de test que l’on suppose être représentative de la tâche. On obtient alors un classement des systèmes participants. A titre d’exemple, la figure ci-dessous résume les résultats de la dernière campagne d’évaluation sur l’identification de relations de discours (Shallow Discourse Parsing shared task) de la conférence CoNLL’2015 (Xue et al. 2015) . Nous n’allons pas expliquer ici en détail ces résultats. Disons simplement, que pour trois sous-tâches données (Argument, Connective, Parser), les participants sont classés (O = official) suivant une métrique (F = F-mesure, qui combine deux mesures de Précision P et de Rappel R) calculée une fois pour toute sur le corpus de test. Le classement final résultant d’une combinaison entre les scores obtenus sur les trois sous-tâches.

img_conllCes campagnes compétitives ont toujours un fort impact au sein de la communauté scientifique. Aussi, lorsque notre laboratoire LI a remporté la campagne ETAPE d’évaluation des systèmes de détection automatique des entités nommées sur le français parlé (Nouvel 2013), nous ne nous sommes pas privés de mettre en exergue ce résultat.

Pourtant, pourtant… que représentent vraiment ces classements ? Récemment, j’ai invité une amie qui venait de terminer une thèse en modélisation cognitive computationnelle, et qui à ce titre a l’habitude des travaux en psychologie expérimentale, à assister à un atelier en TALN. Sa réaction face à nos présentations fut immédiate : « vous ne comparez que des résultats bruts, ne calculez-vous jamais la pertinence statistique de vos observations pour fonder votre analyse critique ? ». Gêne de ma part, car que répondre à cet évident manque de rigueur de nos procédures d’évaluation ? Eh oui, l’East China Normal University a peut-être remporté la sous-tâche Argument de la shared task de CoNNL avec une F-mesure de 46,37, mais aucune étude ne nous montre que ce résultat est statistiquement supérieur au 41,31 de l’UIUC ! Pour pouvoir répondre à cette question, il aura fallu diviser la base de test en sous-corpus, regarder la variabilité des résultats obtenus et procéder à des tests de significativité statistique (test paramétrique de Student, test U de Wilconxon-Mann-Withney, par exemple) pour pouvoir vraiment décerner une première place incontestable. Ces tests, que l’on rencontre très rarement dans nos campagnes d’évaluation, sont pourtant enseignés dès la licence à des étudiants en en statistique et analyse de données !

olympic_games_1908_london
Affiche jeux Olympiques 1908 Londres

Les classements de nos campagnes d’évaluation ont ainsi autant de valeur qu’une épreuve de saut à la perche aux Jeux Olympiques où le meilleur athlète de la discipline peut se retrouver dans un mauvais jour. Dans le cas présent, l’UIUC a peut-être eu simplement la malchance d’être confrontée à un jeu de données qui lui convenait moins bien…

Les chercheurs en TALN acceptent cet état de fait car ils s’en remettent à un autre mythe de la discipline : celui du corpus représentatif. Ce mythe, si cela en est un, est lourd de conséquences, car les techniques d’apprentissage automatique que nous utilisons majoritairement n’ont qu’un but : non pas de résoudre un problème qui pourrait donner lieu à des applications réelles, mais de s’adapter au mieux à un jeu de données extrait du problème. On imagine aisément les travers d’un tel choix de paradigme si la représentativité de nos corpus n’était pas au rendez-vous.

Or, cette représentativité n’a rien de garantie. J’en veux pour preuve les résultats d’un stage de Master que j’ai encadré récemment. Je vous explique. Lucie Dupin, la stagiaire, avait pour tâche de développer un système de détection automatique des noms d’auteurs dans des blogs, ceci sur des données fournies par l’entreprise (Elokenz – Cicero Labs) qui finançait le stage. Sans être très difficile, cette tâche est plus complexe qu’on peut l’imaginer à prime abord si on veut atteindre une généricité de traitement. Chaque blog a en effet une manière qui lui est propre de présenter l’auteur d’un post, et comme plusieurs noms propres peuvent figurer sur une page de blog, détecter la bonne entité nommée n’est pas trivial. Pour s’assurer de la représentativité des données, Elokenz a opéré une extraction sur une très grande diversité de blogs. Nous avons entraîné un classifieur SVM sur ces données d’apprentissage, en réservant classiquement un dixième du corpus pour le test du système (et en procédant à une technique dite de validation croisée qui nous assure que le système n’apprend pas par coeur mais tente de généraliser à partir de ses données d’entrainement). Les résultats furent très satisfaisants, avec un taux de bonne détection (Accuracy) de 91 % (Dupin et al., 2016). Lucie ayant bien avancé durant son stage, il nous restait une semaine à occuper avant sa soutenance. Elokenz nous a alors fourni un nouveau corpus de test, tout aussi varié que le précédent, mais extrait d’autres blogs. Patatras, l’évaluation (sans nouvel entraînement) du système nous a donné une robustesse déclinant à 66 % ! Certains choix faits au cours du stage ont confirmé leur intérêt sur cette seconde évaluation : le travail de Lucie n’était donc heureusement pas remis en cause. Mais il était clair que nous avions développé un système sur un corpus jugé représentatif de tous, et qui ne l’était pas. Au final, nous n’avions fait qu’adapter notre classifieur aux données, sans avoir l’assurance que sa robustesse sur tout type blog serait suffisante dans un cadre industriel.

Je pose donc la question : quand nous sommes nous interrogés sur la pertinence des corpus sur lesquels nous développons nos systèmes ? Et qui parmi nous ne passe pas des semaines à adapter (tuning) son système pour qu’il colle au mieux aux données d’apprentissage, afin d’obtenir un bon classement, plutôt que de réfléchir au développement d’approches originales ?

Vous savez quoi, je commence à douter de notre première place lors de la campagne Etape. Bon, à dire vrai, j’en doutais depuis longtemps…

Jean-Yves Antoine

Repères bibliographiques

  • Bernadette Bensaude-Vincent (2013) L’opinion publique et la science : à chacun son ignorance, La Découverte, Paris.
  • Lucie Dupin, Nicolas Labroche, Jean-Yves Antoine, Jean-Christophe Lavocat, Agata Savary (2016) Author name extraction in blog web pages: a machine learning approach. Actes JADT’2016. Nice, France
  • Bruno Latour et Steve Woolgar (1979) Laboratory life : the social construction of scientific facts. Sage, London. Trad. Fr. La vie scientifique : la production des faits scientifiques, La Découverte, Paris, 1988.
  • Nianwen Xue, Hwee Tou Ng, Sameer Pradhan, Rashmi Prasad, Christopher Bryant, Attapol T. Rutherfort (2015). The CoNLL-2015 Shared Task on Shallow Discourse Parsing. Proc. CoNLL’2015, Pekin.

 

Apprentissage et Intelligence Artificielle: les vraies questions éthiques

La CERNA (Commission de Réflexion sur l’Ethique de la Recherche en sciences et technologies du numériques) de l’alliance Allistene, organise le 13 juin 2016 (INRIA Paris) une journée sur le thème « apprentissage et intelligence artificielle ». Un sujet qui concerne directement le TAL, du fait de l’omniprésence du machine learning dans les recherches du domaine.

Pour en savoir plus : plaquette de présentation [PDF]

Les inscriptions sont ouvertes…

Ecole jeunes chercheurs sur l’éthique du numérique

La CERNA (Commission de réflexion sur l’Ethique de la Recherche en sciences et technologies du Numérique de l’alliance Allistene) se penche sur la question de la formation à l’éthique des chercheurs dès leur entrée en doctorat.

Elle organise une école jeunes chercheurs sur l’éthique du numérique à Arcachon, entre le 26 et le 30 septembre 2016. Inscriptions avant le 15 avril.

Pour en savoir plus: http://cerna-ethics-allistene.org/

Vous avez dit progrès ?

Par : Jean-Yves Antoine

Drawing of an old Raschel machine - Source: Josef Worm: Die Wirkerei und Strickerei. 2. Aufl. Leipzig, 1920

Il y a quelques semaines, le responsable de formation que je suis a été sollicité par un étudiant en Master Entrepreneuriat. En relation avec une entreprise dite innovante, il désirait que je diffuse auprès de mes étudiants un questionnaire sur leurs attentes en matière d’objets connectés. Vous savez, ces smartwatch qui vous permettent de suivre vos déplacements quotidiens, vos paramètres physiologiques et enregistrer sur le cloud ces informations pour votre confort. Ayant refusé poliment de donner suite à sa demande pour des raisons éthiques, un débat s’est amorcé sur la portée de ces dispositifs mobiles. Mon interlocuteur n’avait aucune notion d’éthique, qui semblait se rapprocher d’un jugement négatif sur les profits de sa future entreprise dans son esprit. Après quelques échanges la conclusion est tombée, cinglante : « oui je comprends vos réserves, mais je ne suis pas comme vous, je suis pour le progrès ».

Ah cher Progrès, que ne justifie-t-on en ton nom ! L’Etat, la société dans son ensemble, finance nos activités de recherche au motif que nous devons être moteurs d’innovation et de progrès techniques. Chercheurs en technologies langagières, nous travaillons ainsi sous une injonction permanente de contribuer au mouvement perpétuel du progrès. Nous nous en réclamons d’ailleurs le plus souvent. Mais nous interrogeons-nous sur ce qu’est le progrès ?

La question peut étonner tant progrès rime avec civilisation dans l’inconscient collectif. Pourtant, le concept de progrès n’est pas toujours allé de soi. Tout en développant un corpus scientifique conséquent, mais aussi une technologie trop ignorée, la Grèce antique n’associait pas une idée de progrès linéaire à sa recherche de connaissance : le monde grec apparaissait comme indépassable, simplement contraint par des limites religieuses qu’il convenait de ne pas enfreindre. Au Moyen-Age, Chine, Inde et Europe ont également développé un savoir technique de plus en plus poussé. En Europe, ces innovations étaient pourtant adoptées avec prudence, la société médiévale prenant le temps de jauger leur utilité globale. Refusant une notion de progrès utilitariste au profit du maintien d’un équilibre entre Terre et Ciel, la Chine laissa de son côté d’autres civilisations profiter de son inventivité technique. La Renaissance, pourtant avide de connaissance, ne changea rien à cette situation et un Louis XIV pouvait encore à l’aube du XVIII° siècle interdire tout simplement par décret la dissémination d’une nouvelle technologie menaçant l’équilibre du système corporatiste de l’Ancien Régime. Ainsi, en dépit d’un indéniable esprit d’innovation, ces siècles ne se vivaient pas comme participant à la grande marche d’une évolution humaine guidée par le progrès techniques.

A la suite de la révolution mécaniste amorcée par Descartes, ce n’est qu’avec les Lumières que le «Progrès » se construisit comme parfait symbole de l’action bénéfique humaine. Avec la révolution industrielle, il allait rapidement tenir lieu de gloire et phare de l’humanité. Presque deux siècles plus tard, le piédestal du progrès technique vacille quelque peu à l’aune du réchauffement climatique, mais cette construction intellectuelle reste solide. Notre jeune étudiant peut ainsi justifier sa démarche : le Progrès est le moteur perpétuel de l’évolution humaine, rien ne saurait le remettre en question.

Dans cette affaire, le progrès technique auquel nous participons comme chercheurs se pare de toutes les vertus : témoignage de l’esprit d’inventivité d’homo sapiens sapiens, il n’influe pas sur une civilisation humaine dont il n’est que le produit. On parle ainsi de neutralité de la technologie comme on parlerait de neutralité du net : lorsqu’une technologie pose souci, ce sont uniquement ses mésusages qui sont discutables.

Neutralité du progrès technique ? Voire… A l’heure où les émissions carbonées menacent la planète, j’aime à citer l’exemple du moteur à explosion, extrait du livre très éclairant de François Jarrige, Technocritiques (Jarrige, 2014). Devenu fiable au début du XX° siècle, le moteur à explosion permit l’apparition de véhicules individuels, mais aussi d’utilitaires robustes. Il est très éclairant d’observer comment cette innovation fut adoptée par les populations occidentales. L’adhésion pour le camion fut immédiate : d’une puissance de traction bien supérieure, il pouvait suppléer utilement au cheval dont la présence dans les villes posait par ailleurs des problèmes d’hygiène de plus en plus importants. A l’opposé, l’utilité de la voiture individuelle fut tout de suite questionnée. Face aux premiers accidents routiers, de multiples arrêtés ont été pris par des municipalités pour limiter la vitesse des automobiles, au grand dam de leurs promoteurs : le président de l’Automobile Club de France clame ainsi que « le progrès réclame des victimes » ! Les défenseurs de l’automobile caricaturent alors la position de leurs opposants en mettant en exergue une résistance passéiste au Progrès. Pourtant, ces critiques étaient justifiées dans la société de l’époque : la mobilité des populations était faible et assurée efficacement par le chemin de fer. La famille et les amis habitant dans un environnement proche, les congés payés n’existant pas encore, l’objet technique « automobile » n’était d’aucune utilité, à l’opposé de l’objet technique « camion », mu pourtant par le même dispositif thermique. De fait, l’automobile ne répondait qu’au désir d’autonomie individuelle de la société aisée des Années Folles, qui pesa de tout son poids pour une acclimatation sociale de cette nouvelle technologie. Ce ne sera qu’au tournant des années 1960 que la démocratisation de l’automobile sera acquise, avec les conséquences que l’on connait sur nos modes de vie quotidiens.

Voiturette Renault - domaine public

Ainsi, l’invention du moteur à explosion était une innovation technique qui avait une utilité tout de suite perçue par ses contemporains. Mais l’automobile individuelle par elle-même ne répondait pas aux besoins de la société de l’époque. Peut-on dès lors parler de progrès inéluctable à l’arrivée d’une Renault Type A en 1898 ? Je me permets d’en douter. On ne peut de même nier que les automobiles furent de tout temps utilisées pour ce à quoi elles sont été conçues (je ne parle pas ici des courses de Rallye-Cross avec 2CV démolies au milieu de champs boueux). La pollution automobile ne peut donc être considérée comme un mésusage du moteur à explosion. Non, simplement, la technologie automobile, comme toute technologie, n’est pas neutre. Et ses opposants s’interrogeaient simplement sur le sens du progrès, en se demandant quelles technologies étaient vraiment bénéfiques en termes de bien-être. Est-ce là une attitude passéiste que de prendre le temps d’une telle réflexion ? En tous cas, nous sommes loin ici de notre jeune étudiant obéissant à la loi supérieure du Progrès. Ce qui ne veut pas dire que nous le refusons…

Que peut enseigner ce retour historique sur nos activités de chercheurs en TALN ? Comme Louis Renault, nous sommes des créateurs de nouvelles technologies. Comme lui, nous participons à la marche d’un progrès technique qui est questionnable de par ses impacts. Les technologies numériques telles que le TALN revêtent une dimension virtuelle qui les rend plus propres, plus acceptables a priori aux yeux du public. Pourtant, leur impact n’en est pas moins réel. Il peut même être physique ! Pour le montrer, je vais prendre un exemple que j’aime beaucoup car il est inattendu mais parfaitement documenté. Il s’agit de l’utilisation des technologies vocales par les préparateurs de commande des grands centres logistiques tels que ceux d’Amazon. Afin de permettre un travail mains libres, les préparateurs de commande sont guidés dans leur mission grâce à un dialogue oral homme-machine : dès qu’un produit a été récupéré, le système de dialogue envoie immédiatement une commande vocale guidant le préparateur vers un nouveau produit commandé. Ce mode de gestion entraîne une densification du travail intéressante en termes de productivité. Il se trouve que l’Institut National de Recherche et Sécurité a monté que ce mode de gestion du travail par une technologie langagière peut entraîner une augmentation des lombalgies ou des troubles musculo-squelettiques de par la surcharge de travail qu’elle induit (INRS 2009). Voilà un bel exemple à mes yeux : l’utilisation d’une commande vocale à la place d’une bête fiche papier de mission est-elle vraiment un progrès portant la marque du génie humain ? Le choix d’une augmentation de la productivité au mépris de la santé de l’employé n’est-il pas plutôt un exemple de choix sociétal permis par le progrès technique ?

Cet exemple peut paraître isolé, caricatural du point de vue du TALN. Il n’en est rien. De nombreuses études en sociologie du travail ont montré que l’automatisation des tâches permises par les machines, puis les robots automates ont successivement profondément changé les conditions de travail tout d’abord des ouvriers et artisans, puis des professions intermédiaires (cols blancs). Les technologies numériques intelligentes, parmi lesquelles se trouvent le TALN, s’intéressent désormais à des activités complexes relevant de professions intellectuelles supérieures : les analystes financiers sont désormais remplacés par des algorithmes, de même que Google lance des «Google Award for Computational Journalism» où les technologies langagières vont suppléer au travail d’investigation du journalisme ? Au vu de ces exemples, l’impact de nos recherches ne peut être nié…

Dès lors quelle attitude pour le chercheur en traitement automatique des langues, mais aussi le citoyen intéressé par l’émergence des technologies langagières dans un contexte big data ? Doit-on refuser tout progrès technique ? Doit-on devenir schizophrène et créer de nouveaux systèmes tout en étant persuadés de leurs effets néfastes ? La question n’est jamais facile à trancher, mais avoir un regard lucide sur nos activités serait déjà utile : ne pas penser que le progrès technique est un Moloch aveugle auquel on doit se plier, se dire que chaque innovation est l’occasion d’un choix de société qui nous permet de réfléchir au sens de nos actions et aux priorités que l’on se donne dans nos modes de vie. Et lorsque des choix ont été faits, consciemment ou non, par la société, être toujours aux aguets sur leurs conséquences éventuellement néfastes.

Ma grand-mère pensait que les systèmes de dialogue homme-machine que je concevais allaient mettre des employés au chômage. Si elle savait qu’en plus, ces derniers iraient chercher leurs allocations avec une lombalgie…

Pour aller plus loin

INRS (2009) Fiche pratique de sécurité ED 135. Préparation de commande guidée par reconnaissance vocale.

JARRIGE F. (2014) Technocritiques : du refus des machines à la contestation des technosciences. La Découverte.