Quelle éthique pour le crowdsourcing ?

Début septembre, j’ai été amené à donner une conférence invitée dans le cadre de l’action COST enetCollect, à Bolzano. Cette action se focalise sur l’appel au crowdsourcing (ou myriadisation) pour constituer des ressources linguistiques utiles au développement de solutions d’apprentissage des langues. Solutions qui seront également développées dans le cadre du projet. Un des working group, piloté par Karën Fort (U. Paris 4) et Katerina Zdravkova (Ss. Cyril & Methodius U. , Skopje), concerne la définition de spécifications éthiques et légales pour la conduite du processus de crowdsourcing.

C’est dans ce cadre que j’ai été invité à présenter les approches éthiques qui pourraient s’appliquer au crowdsourcing. J’ai choisi de mettre en avant les travaux de la littérature relevant d’une éthique :

(1) déontologique pour l’analyse du processus de crowdsourcing par lui-même,

(2) conséquentialiste pour l’analyse de l’impact des solutions d’apprentissage qui seront développées au cours de l’action.

Cette présentation relevant pour la partie déontologique d’une nouvelle réflexion de ma part, elle ne s’appuyait sur aucune publication personnelle. Dès lors, pourquoi ne pas la partager avec les lecteurs de ce blog ? Je ne sais si mes slides seront compréhensibles sans explications, mais je crois que la bibliographie que j’ai étudiée peut vous intéresser…

Présentation BOLZANO

 

TAL et domaine juridique : l’arrivée du Big Data

Jusqu’à une date assez récente, les applications du TAL ou du TAP (Traitement Automatique de la Parole) dans le domaine juridique ont surtout concerné les questions d’identification des personnes par leur voix ou leurs écrits. Avec l’arrivée de masses de données juridiques numériques, le Big Data investit désormais des questions comme la rédaction automatique d’acte notariés, la justice prédictive etc…

Le journal du CNRS vient précisément de publier un petit article qui fait le tour de la question : « La justice à l’heure des algorithmes et du big data« . Analyse assez équilibrée des bénéfices et risques de ces technologies langagières. Et une vision très claire des limites technologiques de ces dernières en termes de performances.

 

Ethique et technologie de la langue : réagir ou contourner ?

Les promoteurs de ce blog ont remarqué le peu d’entrain de la communauté scientifique à s’attaquer au sujet Ethique et TAL, que ce soit dans ce blog ou dans d’autres initiatives. Or, nous voyons après enquête (voir Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole) que beaucoup de gens sont conscients de la gravité du sujet, et pensent qu’il faut faire quelque chose. Cela souligne l’écart entre les déclarations et les faits.

Je voudrais ici creuser ce sujet de l’éthique pour le TAL qui provoque à la fois une mobilisation d’un très petit nombre, une méfiance sourde de la part de certains, mais surtout un immense silence de la part de la quasi-totalité de la communauté. Comment analyser ces réactions : petit nombre se déclarant pour ou contre, et immense majorité ne se prononçant pas. Le phénomène n’est pas nouveau, on le retrouve dans beaucoup de domaines, sur de très nombreux sujets, mais je pense qu’il est intéressant de l’analyser précisément pour le cas particulier de l’éthique en TAL, car cela peut permettre de faire évoluer les lignes. Explorons l’arbre des possibilités, pour un chercheur en sciences du langage impliqué dans le traitement automatique de la langue.

  1.  je ne suis pas conscient que mon activité peut impliquer des problèmes éthiques. Ce cas est plus fréquent qu’on peut ne l’imaginer (et ne vous concerne pas, puisque vous êtes en train de lire un post sur un blog qui s’appelle Ethique et TAL !) ; en effet, nous sommes dans un domaine où les atteintes à l’éthique ne sont pas évidentes, mis à part certains cas comme par exemple les dossiers patients dans le domaine du biomédical ou l’identification de la voix dans un contexte judiciaire, ou des problèmes de plagiat ou de bidonnage de résultats. Les affichages des instances (le COMETS, la CERNA ) ont une faible implication pratique. De plus, rien (ou presque) n’est fait dans la formation du chercheur pour le sensibiliser aux problèmes éthiques : l’enseignement de l’éthique pour les futurs professionnels de la recherche est .. étique ! Cela est peut-être aussi renforcé par la course aux publications, qui laisse peu de temps aux jeunes chercheurs pour se poser des questions ; ensuite, le pli est pris.
  2.  je suis conscient que mon activité peut impliquer des problèmes éthiques, et :

a.  Je réagis positivement, et j’essaye de contribuer à la résolution des problèmes éthiques. Le nombre de personnes étant petit, la tâche est rude pour convaincre la communauté scientifique. Elle implique souvent de consacrer une partie de sa recherche à ce sujet, afin de pouvoir intervenir dans le cadre naturel du chercheur, c’est-à-dire les congrès, les journaux. Cela prend donc pas mal de temps, et cela réclame un certain courage, mais est-ce que ça vaut vraiment le coup ? C’est la démarche des lanceurs d’alerte, qui apparaît comme militante, et souvent suspecte d’arrière-pensées politiques. Elle peut être vue également comme une attitude rétrograde vis-à-vis de la technologie de manière générale : une telle attitude est stigmatisée, comme la soit-disant « peur du train » qui aurait eu cours au XIXe siècles chez certains docteurs hygiénistes1.

b. Je réagis négativement contre ces initiatives. Cette attitude est rare, mais finalement pas beaucoup plus que l’attitude précédente. Les motivations peuvent être diverses, mais de mes observations, la motivation principale est la suivante : Je vois les gains potentiels en particulier pour moi (ma carrière, mon business) et je décide d’ignorer les risques éthiques, bien que j’en sois conscient. Cette attitude est souvent le résultat de la réflexion que de toute façon, l’avènement des « progrès » technologiques qui posent des problèmes éthiques est inévitable, et que donc, si des dégâts arrivent, autant essayer d’être dans la minorité qui sera « du bon côté du manche ». Si l’on est conscient des risques éthiques, cette attitude requiert également du courage. Il faut être prêt à défendre son point de vue, vis-à-vis de ses collègues et amis ; de plus, rien ne dit qu’une telle attitude ne sera encore plus ostracisée, si le grand public et/ou les décideurs viennent finalement à être sensibilisés au problème. On a là une application tout à fait pragmatique et faussée d’une éthique utilitariste à l’anglo-saxonne : je fais de la science, la science est bonne, je peux faire plus de science en utilisant des techniques que certaines personnes considèrent comme non-éthiques, alors que les risques ne sont que potentiels ; je considère donc que la balance est positive, donc ce que je fais est éthique !

c. Je reste neutre. Je suis conscient, mais je ne vois pas comment m’impliquer. Comme pour d’autres problèmes d’ampleur (réchauffement climatique, guerre, ressources limitées), une initiative locale et individuelle paraît complètement disproportionnée et inefficace, face à l’inertie des décideurs politiques ou ici institutionnels. Si je suis amené(e) dans mon activité à me confronter directement à un problème d’éthique, alors soit je vais infléchir celle-ci de façon à contourner le problème, soit j’adopte le point de vue de mon labo, ou de ma tutelle, ou de mon directeur de thèse. Si mon activité ne touche pas directement un problème d’éthique, je me limite à des déclarations d’intérêt, en me reposant sur les instances dites « supérieures ». Là, pas de problèmes vis-à-vis de la communauté, de ses collègues, au prix cependant de devoir peut-être orienter différemment sa recherche.

On voit donc que l’attitude « intelligente », celle qui préserve à la fois la bonne image qu’on peut avoir de soi, et le respect de ses pairs et collègues, est l’attitude neutre.

J’ai observé un cas pratique de ce phénomène, lorsque nous avons soulevé, avec certain(e)s, les problèmes liés à l’utilisation de la plateforme de crowsourcing payant Amazon Mechanical Turk (AMT). Nous avons alors fait face à cette attitude dans la communauté du TAL et de la parole. La plupart des gens interpellés admettent les risques, quelques rares personnes défendent le modèle, mais en pratique très peu font de manière explicite quelque chose (article, conférence, système alternatif) pour essayer de pallier les défauts du système. Aujourd’hui, dans la pratique, nous ne pouvons pas dire que la communauté n’utilise plus AMT, loin de là, mais nous n’observons pas l’explosion du nombre de papiers utilisant le crowdsourcing en faisant la course à l’échalote de celui qui arriverait à produire le plus pour le moins cher, tel que nous l’avons vu il y a quelques années. Est-ce, comme pour ces personnes qui sont venus me dire dans des conférences qu’elles me me remerciaient de publier sur le sujet, car elles pouvaient ainsi opposer des articles scientifiques à leur hiérarchie qui les enjoignait d’utiliser AMT, que les chercheurs ont évité l’utilisation, sans ostentation, que ce soit par peur de la polémique ou par conviction ? Je ne sais pas, mais j’ai l’impression que les personnes utilisant la myriadisation du travail parcellisé ont intégré cette dimension de risque éthique, et soit s’abstiennent, soit l’intègrent de manière minimale dans leur travail (au niveau de la rémunération, du choix du site, de la méthode d’exclusion des travailleurs non fiables, etc).

Pour résumer, en s’appuyant sur l’exemple d’AMT, on voit donc qu’une mobilisation pour mettre en lumière des problèmes éthiques peut aboutir au fait qu’un certain nombre de chercheurs devenus conscients, orienteront différemment leurs recherches, mais sans bruit. Il ne faut pas forcément se polariser sur les deux populations qui sont prêtes à polémiquer, ceux qui se lèvent pour dire oui ou non ; ces deux attitudes ont un coût qui peut s’avérer trop lourd, en particulier pour de jeunes chercheurs. Dans ces conditions, ne nous désespérons pas d’être peu nombreux à nous mobiliser, mais regardons pragmatiquement l’impact sur le domaine.


1. Cette « peur du train » est un mythe, et n’a jamais vraiment existé, voir Jean-Baptiste Fressoz, L’apocalypse joyeuse, une histoire du risque technologique, éd. Du Seuil, 2012.

Apprentissage et Intelligence Artificielle: les vraies questions éthiques

La CERNA (Commission de Réflexion sur l’Ethique de la Recherche en sciences et technologies du numériques) de l’alliance Allistene, organise le 13 juin 2016 (INRIA Paris) une journée sur le thème « apprentissage et intelligence artificielle ». Un sujet qui concerne directement le TAL, du fait de l’omniprésence du machine learning dans les recherches du domaine.

Pour en savoir plus : plaquette de présentation [PDF]

Les inscriptions sont ouvertes…

Ecole jeunes chercheurs sur l’éthique du numérique

La CERNA (Commission de réflexion sur l’Ethique de la Recherche en sciences et technologies du Numérique de l’alliance Allistene) se penche sur la question de la formation à l’éthique des chercheurs dès leur entrée en doctorat.

Elle organise une école jeunes chercheurs sur l’éthique du numérique à Arcachon, entre le 26 et le 30 septembre 2016. Inscriptions avant le 15 avril.

Pour en savoir plus: http://cerna-ethics-allistene.org/

The Hitchhiker’s Guide to Ethics in NLP


L’article ci-dessous a été refusé à la conférence The Ethics of Data Science: The Landscape for the Alan Turing Institute organisé par The Alan Turing Institute, nous avons toutefois souhaité le partager avec vous. Bonne lecture !


The Hitchhiker’s Guide to Ethics:

the Journey towards Raising Awareness in Natural Language Processing

Alain Couillault, Karën Fort, Gilles Adda, Maxime Amblard, Jean-Yves Antoine, Hugues de Mazancourt

Ethics, NLP and Everything

Natural Language Processing (NLP), like any other science, is confronted to ethical issues, both regarding the way science is conducted (plagiarism, reproducibility, transparency) and regarding the effects of its results on society. Some issues are specific to the very nature of NLP: the building, transformation or annotation of the (sometimes huge) language resources (corpora or dictionaries) NLP (sometimes heavily) relies on implies to set up and drive large scale projects which involve human resources. NLP techniques are also often used to analyze documents which, by their nature or their content, require thoughtful considerations regarding ethics. Just think of Email corpora (De Mazancourt et al., 2014), medical corpora (Grouin et al., 2015), schizophrenics’ speech corpora (Amblard et al., 2015) or suicide letters (Bretonnel Cohen et al., 2015). NLP is also called for when it comes to providing tools for ethics, for anonymizing documents or discovering plagiarism. This article describes the various actions we conducted to raise awareness for ethics within the NLP community.

Thanks for all the Answers

It all started with a position paper (Fort et al., 2011) on the growing use of the Amazon Mechanical Turk platform, stating that such platforms are not ethical with regards to the way Turkers (i.e. task workers) are paid, underpaid, or even not paid. We then broadened our standpoint and enlarged our group by involving private and public bodies in the writing of an Ethics and Big Data Charter  (Couillault et al., 2014), which aim was to document as much as possible the building of language resources. The Ethics and Big Data Charter is a form split into three sections respectively dedicated to traceability, legal and licensing issues, and specific requirements (i.e. related to the very nature of the resource content). While the Charter has seldom been used for what it had been designed for (i.e. document language resources), we found out that talking and publishing about it and, hence, about ethics, rose interest, if not awareness, among researchers. It was then decided to push further and organize dedicated workshops in France, in November 2014  and June 2015. These workshops gave the opportunity to cover a large scope of the ethical issues pertaining to NLP, and were attended by a rather large audience. During one of the workshops, the idea arose to create a blog  to share ethics-related standpoints and to address a larger audience. A poll was also conducted, partly to collect information on the NLP researchers’ viewpoint to NLP and, we must admit, rhetorically to raise awareness. More than 100 people answered the poll (which, with regards to the French speaking NLP community is a reasonably large number) and, among them, more than thirty people volunteered to get involved in ethics-related actions. We will present the main lessons drawn from this consultation, concerning various issues such as researchers ethical responsibility, data privacy and perpetuity, data producers payment etc.

And another Thing…

We have witnessed a motivating growing interest in the NLP community for ethics, and we are eager to take more actions to further raise awareness and create momentum.
The poll on Ethics and NLP has been translated into English and addressed to a large, international audience. It is under way and, as of September 2015, more than 260 people have participated. We plan to publish the results at an international conference and journal to enlarge even further the number of people interested. We have also worked on a second version of the Ethics and Big Data Charter to extend to other domains requiring data sets (such as medicine or European projects). The next TALN conference (organized by ATALA, the French association for NLP), will include a thread on ethics, and a special issue of the international TAL journal will be dedicated to ethics and NLP. Hopefully, all these efforts will help designing standards and solutions for ethics in NLP.

This paper, including section headers and footnotes, was 42 lines long in the original paper.

References

Amblard, M., Fort, K., Demily, C., Franck, N., and Musiol, M. (2015). Analyse lexicale outillée de la parole transcrite de patients schizophrènes. Traitement Automatique des Langues, 55(3):25, August.

Bretonnel Cohen, K., Pestian, J. P., and Fort, K. (2015). Annotating suicide notes : ethical issues at a glance. In ETeRNAL (Ethique et Traitement Automatique des Langues), Caen, France, June.

Couillault, A., Fort, K., Adda, G., and De Mazancourt, H. (2014). Evaluating Corpora Documentation with regards to the Ethics and Big Data Charter. In International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland, May.

De Mazancourt, H., Couillault, A., and Recourcé, G. (2014). L’anonymisation, pierre d’achoppement pour le traitement automatique des courriels. In Journée d’Etude ATALA Ethique et TAL, Paris, France, November.

Fort, K., Adda, G., and Cohen, K. B. (2011). Amazon Mechanical Turk: Gold mine or coal mine? Computational Linguistics (editorial), 37(2):413–420.

Grouin, C., Griffon, N., and Névéol, A. (2015). Étude des risques de réidentification des patients a partir d’un corpus désidentifié de comptes-rendus cliniques en francais. In Proc. of the TALN workshop ETeRNAL, pages 12–24, Caen, France, June.

Et si on commençait par appliquer la loi ?

Le sondage réalisé à l’occasion de la journée ETERNAL (Ethique et Traitement Automatique des Langues) fait apparaître, parmi les commentaires produits par les participants à cette enquête la réaction suivante :

Beaucoup de chercheurs se servent des données glanées sur le web sans vérifier au préalable les droit d’utilisation de ces données. Cela peut poser problème si les données collectées massivement contiennent des données personnelles et sont redistribuées à d’autres chercheurs comme outil de travail.

Il est louable de s’interroger sur l’esprit de la loi (en l’occurrence de la licence d’utilisation), qui permet ou interdit certaines choses pour de bonnes raisons (éthiques), il n’en est pas moins obligatoire d’en respecter la lettre, quelles que soient les raisons : ça n’est pas seulement s’il y a des données personnelles que ça peut poser un problème. Le problème est d’aller à l’encontre de la licence. C’est interdit, même. Et l’éthique commence avant tout par un respect de la loi.

La citation ci-dessus est caractéristique d’un état d’esprit de certains chercheurs que l’on peut résumer par « oui, mais moi c’est pour la recherche, donc la licence ne s’applique pas à mes travaux ». Etonnant état d’esprit, si on creuse un peu : jusqu’où pousse-t-on l’exception si l’on est soi-même juge de ce qui est bon de ne pas appliquer ? D’autant que de réelles exceptions, encadrées et clairement définies, existent pour la recherche et que d’autres sont en préparation dans la loi Lemaire. Mais rien qui passe par l’auto-désignation (!).

Prenons par exemple le site doctissimo.fr, source de nombreuses analyses en TAL. La licence d’usage précise, entre autres qu’il « est interdit de procéder à une extraction qualitativement ou quantitativement substantielle des bases de données mises en ligne sur le site ». J’en conclus donc que le TP de master 1 TAL consistant à compter le nombre de pronoms personnels utilisés sur les forums doctissimo est interdit. On n’a pas le droit. Compréhensible ou pas, c’est la règle.

Notons par ailleurs que, de mon expérience, les industriels sont plus enclins à respecter ce type de règles que les scientifiques. Oh, non pas qu’ils soient plus vertueux, loin de là, mais ils savent le dommage que peut leur infliger la révélation publique d’une infraction à la loi, par un concurrent mesquin, par exemple. Et c’est à mon sens l’un des leviers qui peut permettre l’avancée dans les fait d’une certaine éthique. Mais je reviendrai probablement sur le sujet dans un autre post.

Le caractère inapproprié d’une règle est souvent l’excuse que l’on rencontre pour ne pas l’appliquer. La prétendue « exception scientifique » en est un exemple, mais elle n’est pas seule et à cette aune, chacun peut se trouver ses propres arguments pour ne pas s’y conformer.

J’ai par exemple entendu dire que la loi Informatique et Liberté était inappropriée et donc inapplicable, avec force arguments, entre autres à cette même journée ETERNAL. Le premier des griefs fait à cette loi était fait qu’elle se base sur une notion de croisement de fichiers alors qu’à l’heure du Big Data, on ne parle plus que de données. La belle affaire ! Le glissement lexical ne vaut pas invalidation du concept.

Autre grief, plus sur le fond, celui-là : la loi Informatique et Liberté partirait du principe que les données collectées ou agrégées le sont dans un but précis, alors qu’à l’heure du Big Data, on collecte à tout va, on mouline les données avec des outils à la mode (Hadoop, Spark, R, …) et on voit ce qu’on peut en déduire. Il serait donc impossible de savoir a priori pourquoi on demande des informations aux individus et, partant, impossible de leur demander leur consentement. Là encore, l’argument est spécieux. Si l’on tient vraiment à corréler tout avec n’importe quoi, on peut jouer, comme le montre le site « spurious correlations », à croiser les dépenses US pour l’espace, la science et la technologie avec le nombre de suicides par pendaison et trouver un taux de corrélation supérieur à 99%.

Non, quand on croise des données, c’est toujours dans un but précis. Savoir quel type de programme télé les adolescents très présents sur les réseaux sociaux sont prêts à consommer, pourra être l’objet d’un étude de positionnement d’une chaîne de télévision. Il est alors très simple de vérifier que les données qui permettent de faire ces croisements autorisent bien de tels traitements, la première autorisation étant le consentement donné par les individus qui ont fourni l’accès à leurs informations personnelles. C’est bien là l’esprit de la loi Informatique et Liberté : vérifier le consentement. Qu’il soit donné pour des lignes dans une base de données hiérarchique ou pour des « data » en JSON n’est qu’un détail de mise en œuvre.

Je ne veux pas dire que la loi Informatique et Liberté est parfaite, loin de là. Elle doit clairement évoluer sur certains points, s’étendre à tous les domaines, et le peu de moyens donnés à la CNIL ne l’aide pas à faire d’évolutions majeures. Mais elle demeure un socle solide de protection des individus. La contourner par une paresse intellectuelle qui se cacherait derrière une désobéissance civile est l’un des pires moyens d’action. Si on veut faire évoluer cette loi, il faut avancer avec des propositions claires et respectueuses des libertés individuelles, pas masqué derrière sa propre supériorité face au règlement, qui que l’on soit.

Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole [1]

Nous présentons ici les résultats d’une enquête sur l’éthique dans le Traitement Automatique des Langues et de la Parole, menée auprès de chercheurs et d’industriels de ce domaine.

Pour des raisons de commodité de lecture, ce post présente les réponses aux questions fermées. Un prochain traitera des questions ouvertes et des commentaires.

Motivations

Le questionnaire a été réalisé très rapidement (pour pouvoir en disposer pendant  la conférence JEP-TALN 2015), suite à la très intéressante journée Ethique de la  CERNA (Commission de réflexion sur l’éthique de la recherche en sciences et technologies du numérique d’Allistene).

La question principale que nous nous posions était de savoir dans quelle mesure les chercheurs en TAL/P francophone se sentent responsables de l’utilisation faite de leurs recherches (moral buffer). D’autres questions sont apparues rapidement, notamment celle de savoir si les universités proposent des sensibilisations à l’éthique.
Enfin, d’autres nous sont venues en liaison avec des remarques entendues lors de séminaires ou de rencontres.
Le questionnaire a bien entendu été créé avec un biais en faveur d’une meilleure prise en compte des questions d’éthique dans nos pratiques de chercheurs, mais il n’a pas empêché les personnes étant en désaccord de s’exprimer, ce qu’elles ont fait, vous allez le voir, et nous les en remercions.

Participation

Suite à la publicité réalisée pendant JEP-TALN, sur la liste LN et par mails personnels, et malgré quelques problèmes de connexion, 102 personnes ont participé à l’enquête, entre le 23 juin et le 30  juillet 2015.
Lors des dernières conférences TALN, les organisateurs ont enregistré environ 200 inscrits (200 en 2013, 195 en 2014 et 180 en 2015), nous considérons donc cette enquête représentative de la communauté française du TAL/P  dans son ensemble.

Réponses et (début d’)analyse

Le questionnaire comprenait majoritairement des questions fermées, toutes facultatives. Chaque personne a laissé en moyenne moins de deux questions sans réponse. Les non-réponses et les réponses « ne sais pas » ont été traitées par LimeSurvey comme équivalentes.

Responsabilité des chercheurs

Question : « Vous considérez-vous responsable des utilisations faites des outils que vous développez ? »

Près de 75 % des chercheurs considèrent qu’ils sont responsables, individuellement ou collectivement, plus précisément :

  • 12,2 % ont répondu à la fois « Oui, c’est tout à fait mon rôle » et « C’est un rôle partagé par l’ensemble de l’équipe »
  • 33,3 % ont répondu « Oui, c’est tout à fait mon rôle
  • 26,7 % ont répondu « C’est un rôle partagé par l’ensemble de l’équipe »
  • 1,1 % ont répondu « C’est le rôle d’un des membres de l’équipe »

Role

Cependant, pour 26,7 % des personnes répondantes, l’utilisation faite des outils qu’elles développent n’est pas de la responsabilité des chercheurs. Ce chiffre confirme qu’il existe en TAL/P comme ailleurs, un moral buffer (tampon moral ?). Nous espérons que ce blog et les différentes actions de sensibilisation menées permettront de le faire diminuer, car si nous ne nous sentons pas responsables et que le grand public et les politiques ne comprennent pas vraiment les capacités réelles des outils que nous développons (voir plus loin), personne ne se sentira la légitimité d’agir en cas d’utilisation néfaste, contraire aux droits de l’homme par exemple.

Données personnelles

Questions : « Doit-il selon vous y avoir une exception recherche sur l’usage des données personnelles ? » et « Un statut particulier pour la recherche des données personnelles vous permettrait-il de lancer de nouveaux travaux ? »

Les données personnelles, au sens de la CNIL, sont toutes les données qui permettent d’identifier, directement ou indirectement, un individu. Cette définition couvre ainsi un large éventail de données : données d’identification, mais également informations déposées sur un réseau social, ou n’importe quel texte, dès lors que ce texte ou ces données permettent, par les indices qu’ils contiennent, ou par le croisement d’indices, de (ré)-identifier un individu.

A la question de la nécessité ou non d’un statut particulier de ces données pour la recherche :

  • 1,4 % ont répondu à la fois « non » et « les données utilisées pour une expérience doivent être mises à disposition des évaluateurs et/ou de l’ensemble de la communauté scientifique »
  • 4,2 % ont répondu « toutes les données doivent être disponibles pour la recherche »
  • 56,3 % ont répondu « oui, sous certaines conditions »
  • 14,1 % ont répondu « les données utilisées pour une expérience doivent être mises à disposition des évaluateurs et/ou de l’ensemble de la communauté scientifique »
  • 19,7 % ont répondu « Non »

Outre les considérations éthiques que ce point soulève, notons que le recueil et le traitement des données personnelles est soumis à des obligations fortes, dont le non-respect est passible d’emprisonnement ou de conséquences financières lourdes.

Commentaires des répondants

La question « Doit-il selon vous y avoir une exception recherche sur l’usage des données personnelles ? » donnait la possibilité d’insérer des commentaires, que nous reproduirons dans un post à venir.

Refus d’un projet pour raisons éthiques

Question : « Avez-vous déjà refusé ou limité un projet pour des raisons éthiques ? »

abandon_ANR5

Environ 40 % des répondants affirment avoir refusé ou limité un projet pour des raisons éthiques. Ce résultat, qui peut paraître surprenant — qui l’est pour nous — montre à quel point l’éthique est une problématique actuelle. Cette question aurait cependant mérité d’être affinée (quelles raisons ?).

Pérennisation des données

Question : « Dans vos projets intégrez-vous dès le départ la possibilité de pérenniser et redistribuer vos données ? »

Pereniser_données

Une large majorité affirme intégrer dès le début d’un projet la pérennisation et la redistribution des données. Cela semble un peu contradictoire avec le fait que le français reste encore une langue relativement peu dotée en données langagières (voir Joseph Mariani (LIMSI / CNRS) sur ce sujet, en vidéo), surtout librement disponibles. Cependant, le terme « données » est ambigu et aurait sans doute dû être précisé (« données langagières », par exemple).

Il est intéressant que près de 20 % des répondants avouent ne pas considérer cet aspect dès le début du projet : soit ils le prennent en compte plus tard, soit ils ne le prennent jamais en compte. C’est une question que nous devrons aborder ici.

Rémunération des producteurs de données

Question : « Dans les projets auxquels vous avez participé, savez-vous comment les producteurs de données ont été rémunérés ? »

Remuneration

Là encore, une majorité déclare savoir comment ont été rémunérés les producteurs de données. Reste à valoriser la documentation de cette information, via la Charte Ethique et Big Data, par exemple. Nous avons en effet montré que les articles de recherche concernant les ressources langagières les plus utilisées  ne donnent pas cette information.

Plus de 25 % des personnes interrogées (voire plus de 40 % si on y ajoute les non réponses) déclarent ne pas savoir comment les producteurs de données de leurs projets ont été rémunérés. C’est préoccupant, en particulier avec le développement des plate-formes de myriadisation du travail parcellisé à la Amazon Mechanical Turk, qui posent de nombreux problèmes éthiques.

Limites du TAL vues par les pouvoirs et le grand public(s)

Questions : « Pensez-vous que les pouvoirs publics sont conscients des limites des capacités des outils de TAL ? » et « Pensez-vous que le grand public est conscient des limites des capacités des outils de TAL ? ».

limites

Près de 9 % des répondants (8,8 %) pensent que les pouvoirs publics sont conscients des limites des capacités des outils de TAL, contre 5 % (4,9 %) concernant le grand public.

67,6 % pensent au contraire que les pouvoirs publics n’en sont pas conscients et 75,5 % que le grand public ne l’est pas non plus.

23,5 % et 19,6 % ne répondent pas (ce qui représente un nombre important de personnes), sans doute parce qu’il s’agit de donner ici une impression, non fondée sur des données concrètes. Ces questions mériteraient en effet une enquête sérieuse auprès des pouvoirs publics et du grand public.

Quoi qu’il en soit, ce blog se veut un début de réponse à cette préoccupation, même si rendre accessible à un public plus large la finesse de certaines questions de recherche représente un réel effort, voire du talent. Nous tenons au passage à rendre hommage à notre collègue Jean Véronis, décédé l’année dernière, qui avait su maintenir cet effort sur la durée, non sans talent : http://blog.veronis.fr/.

Formation à l’éthique

Question : « Existe-t-il une sensibilisation à l’éthique dans les formations dans lesquelles vous intervenez ? »

formation

Les réponses négatives sont à rapprocher d’autres réponses du questionnaire : s’il n’y a que peu de sensibilisation à l’éthique dans les formations, comment pourrait-on avoir des chercheurs, des citoyens ou des responsables politiques conscients des enjeux des limites des outils ?

Cependant, les presque 15 % de réponses positives montrent que de telles formations existent, qui pourraient être diffusées plus largement. Ce blog pourrait être le lieu pour les recenser (n’hésitez-pas à nous les signaler en commentaire), ainsi que leur contenu.

Éthique comme sujet dans l’appel général de TALN

Question : « Pensez-vous que l’éthique doit faire partie des sujets de l’appel général de la conférence TALN ? »

TALN

En d’autres termes, les trois quarts des personnes ayant émis un avis pensent qu’il faut inclure le thème dans les prochains appels de TALN. Cela tombe on ne peut mieux puisque l’AG finale de l’association savante du TAL, l’ATALA, a donné son accord pour cela.

Il faudrait bien entendu étendre cette décision à la conférence JEP (parole) et aux conférences internationales (LREC, ACL, COLING, INTERSPEECH, etc). Nous comptons pour cela sur (vous) nos collègues présents dans les différentes instances et associations et tenterons de sensibiliser à cette question autour de nous.

Participation à un groupe de travail éthique dans le TAL

Question : « Êtes-vous d’accord pour participer à un groupe de travail sur l’éthique dans le TAL ? »

TAL

26 personnes nous ont laissé leur adresse mail, dont 21 ne sont pas (encore ?) membre du comité de lecture de ce blog. C’est très encourageant ! Nous allons contacter ces personnes pour les faire travailler envisager des actions communes.

ANR

Question : « Avez-vous décrit dans l’annexe technique les dimensions éthiques des projets que vous avez soumis pour financement (ANR ou autre) ? »

ANR

Cette question donnait la possibilité de laisser un commentaire que l’on trouvera dans un post à venir.

Conclusions

La première conclusion de cette enquête est que le sujet de l’éthique est reconnu comme important par la communauté du TAL/P francophone, ce qui est pour nous une grande satisfaction.

Cela nous encourage à continuer et à proposer d’autres formes d’expression sur la sujet ainsi que d’élargir le questionnement à l’international. Nous comptons en effet réaliser une enquête similaire, en anglais, que nous proposerons à la communauté internationale du TAL/P. Nous y réfléchissons actuellement et sommes preneur/se de vos suggestions, donc n’hésitez-pas à en faire, en commentaire de ce post par exemple.

N’oubliez pas de nous signaler en commentaire les sensibilisations à l’éthique proposées dans des formations.

Karën Fort, Alain Couillault et Jean-Yves Antoine pour les graphiques.