Grand Débat : que peut l’analyse automatique des contributions ?

A l’heure où le président de la République s’apprête à annoncer ce qu’il a retenu du Grand Débat qu’il a lancé il y a quelques mois, il n’est peut-être pas inutile de s’interroger sur comment a pu être analysée la très grande masse de contributions qui ont été émises à cette occasion.

Le gouvernement a en effet annoncé que cette procédure inédite de consultation avait réuni 500 000 contributeurs sur la plate-forme en ligne, 500 000 contributions par le biais des cahiers de doléances ouverts dans chaque mairie, et 500 000 participations dans le cadre de réunions locales qui ont fait l’objet de notes synthétiques de restitution… Pour analyser toutes ces contributions, les organisateurs du Grand débat ont mis en avant l’apport de l’Intelligence Artificielle et du Traitement Automatique des Langues : toutes les contributions seront analysées automatiquement, par des comptabilisations d’occurrences de mots. Cette analyse automatique sera réalisée par OpinionWay et son sous-traitant Qwam.

Dès lors, on peut s’interroger sur les limites de cette analyse automatique. Tout d’abord, notons que l’outil informatique peut permettre, même avec des décomptes assez basiques, d’extraire de l’information de cette masse de données. C’est ainsi par exemple que les Décodeurs du Monde ont pu montrer dans une petite étude que, par delà le succès annoncé de la consultation, nombre de contributions ne sont soit que des messages extrêmement brefs, ou bien sont le résultat de multiples copier-coller de la part de participants qui ont sans doute bien détecté l’effet déformant d’une analyse purement statistique des contributions.

Mais même si l’on réalise un pré-traitement pour éliminer les doublons ou les contributions limitées à 3-4 mots d’invective, comment le TAL peut-il faire émerger du sens à partir de contributions textuelles non structurées ? Cette question, c’est la problématique scientifique de la fouille d’opinion (opinion mining en anglais) sur laquelle se repose le gouvernement. Dans la perspective d’une IA permettant une aide à la décision efficace, de plus en plus d’entreprises (parmi lesquelles OpinionWay) se sont positionnées sur ce marché. Pourtant, à ma connaissance, les résultats ne sont pas là : songez par exemple que les techniques mise en œuvre peinent le plus souvent à gérer la présence d’une négation dans un texte. Dans cet article, Hugues de Mazancourt, très bon connaisseur du domaine et contributeur à ce blog, nous explique avec des exemples concrets les limites de la fouille d’opinion telle qu’elle sera mise en oeuvre par OpinionWay. Rien de nouveau sous le soleil, sous le terme marronnier des « Intelligences Artificielles », on ne cause que d’assez banales statistiques lexicales. Une fois encore, nous sommes en présence d’annonces miraculeuses sur les capacités de l’IA et du TAL, et une fois encore (l’histoire des sciences ne nous apprend dont-elle rien ?), on ne rend pas ainsi service à ces domaines de recherche pourtant si intéressants…

Dès lors, pour une analyse plus profonde des débats qui ont agité une partie de la population française ces dernières semaines, on peut se demander si l’Intelligence Humaine n’est pas plus appropriée. C’est en tous cas le pari d’initiatives comme l’Observatoire des débats ou bien La Grande Annotation qui font résonance aux sciences et à la démocratie participatives. Ces initiatives ont certainement leur limites en termes de méthodologie et de représentativité des analyses. Mais celles-ci peuvent être débattues, alors que les réserves sur l’intervention de la fouille automatique d’opinion dans le Grand Débat n’a, à ma connaissance, suscité d’interrogations raisonnées que dans des cercles assez restreints.

Un des grands intérêts du Grand Débat est qu’il va fournir (qu’il fournit déjà, de fait) une masse de données brutes accessible librement et qui nous livre une photographie assez exceptionnelle de l’état d’esprit des français (du moins ceux qui se sont exprimés, nous ne discuterons pas ici de la représentativité des contributions), mais également de leur comportement langagier. Cette ressource intéressera les politologues, les sociologues, les analystes du discours et autres. Mais également le TALN : et si ce Grand Débat, qui nous est parfois présenté comme une démonstration éclatante de la réussite de l’IA, n’était pas pour les années à venir au contraire une base de test inestimable pour étudier, cette fois proprement, et espérons-le sans biais méthodologique, les limites de notre discipline…

Le générateur de texte d’OpenIA: nième tentative d’Elon Musk de nous faire peur

La presse nous apprend par un titre accrocheur le dernier avatar de la méchante intelligence artificielle qui va nous manger tout cru.
« Des chercheurs ont-ils développé une intelligence artificielle trop dangereuse pour être mise en service ? »
La forme interrogative est-elle le signe que les journalistes ont appris des précédentes annonces de production d’intelligences artificielles laissant apparaître des prémices d’une intelligence forte ? espérons-le.
Car cette annonce de la sortie d’un système de génération de texte est surtout un coup marketing. Ainsi, OpenIA, centre de recherche financé entre autres par Elon Musk, a produit un système de génération de texte qui, si on lui soumet une certain nombre de paragraphes initiaux, est capable de compléter le texte, en utilisant la connaissance extraite des textes présents sur le web. Les essais effectués sont particulièrement efficaces en ce qui concerne les textes journalistiques. Ceci  montre surtout la capacité de la plupart des journalistes de reproduire sous diverses formes le même article sur un sujet donné, puisque le système reproduit en fait ce qu’il trouve sur la toile.
Mais en quoi cette nouvelle intelligence artificielle serait-elle trop dangereuse pour être divulguée ? Elle se conforme effectivement à cette obligation mimétique de la plupart des journalistes, qui n’est plus à prouver, mais fera de toute façon moins bien que ses inspirateurs, les humains générant des textes sur le web et en particulier sur les réseaux sociaux. Les créateurs de GTP-2, c’est le nom du système, (ils ne se sont pas trop fatigués, peut-être devraient-ils créer une intelligence artificielle qui génère des noms accrocheurs et évocateurs…) auraient peur de sa faculté à générer des fake news qui ressemblent à des vraies. Mais évidemment, les textes permettant cette performance existent déjà sur le web, le système ne crée pas de fake news, il les répète bêtement.
Ce que le système remet en cause, c’est principalement le journalisme fast-food qui se contente de digérer un certain nombre de dépêches et les articles des collègues, pour produire un article sans intérêt ; sera-ce une perte ? J’en doute.
Mais en annonçant que les créateurs, tel Frankenstein, ont peur de leur machine, OpenIA rouvre la boîte à fantasmes du mythe de la singularité (défendu par le même Elon Musk) où l’on a surtout pu voir à l’œuvre les tentations transhumanistes et les motivations bassement mercantiles de nous vendre (à toutes les acceptions du terme) des intelligences ou des « améliorations » nous permettant de nous protéger de ces méchantes intelligences.
Il est bien sûr nécessaire de réguler l’IA, mais cela ne passera pas en mettant en avant de telles annonces catastrophes. Ce qu’il faut réguler, ce sont les industriels qui pompent les données en nous imposant des services soi-disant « gratuits », et les structures privées ou publiques qui vont également utiliser ces données pour des fins obscures, et pas ces pauvres intelligences générées par de vraies intelligences, pas forcément bienveillantes.

Équité dans les algorithmes d’apprentissage automatique

Un petit article dans Internet Actu (blog du Monde), sur les questions d’équité des algorithmes (fairness en anglais)

http://internetactu.blog.lemonde.fr/2018/09/08/concretement-comment-rendre-les-algorithmes-responsables/

La question de l’équité est au centre des préoccupations éthiques en apprentissage automatique, comme le montre l’émergence depuis 2014 de la conférence FATML (Fairness, Accountability, and Transparency in Machine Learning : https://www.fatml.org/).

Le TAL semble moins se pencher sur ces questions que par exemple, la communauté de l’analyse décisionnelle. Pourtant, ce sont les mêmes techniques d’apprentissage qui sont souvent utilisées, et des exemples de biais involontaires, ou au contraire recherchés par des groupes d’opinions qui ont utilisé la dépendance aux données de ces modèles, ont ainsi déjà pu être observés en TAL.

Transparence des algorithmes, ça bouge encore

Cela faisait longtemps que nous n’avions pas eu de nouvelles de la transparence des algorithmes ! Il faut dire que l’actualité a largement privilégié l’IA avec la mission portée par Cédric Villani sur la stratégie nationale sur l’intelligence artificielle dont les médias sont fous.

L’IA a donné lieu a un numéro spécial de Libération et France Inter, un numéro spécial de Le Monde, de nombreuses émissions radio, télés, des articles sur la reconnaissance du cancer (sic), le remplacement des juges (sic), la lutte contre la pédophilie (sic) ou les voitures autonomes (quand même). Bref, l’IA est partout, parle de tout (donc du TAL aussi) et surtout dans tous les sens. Il y a encore quelques mois, il était possible de discuter les points de vue relayés dans les médias. La tâche est désormais impossible. Il faut donc tenter de comprendre les opinions de figures médiatiques. On pense évidemment à Yann Le Cun, dont on peut trouver une excellente interview sur France Culture.

Bref, la fin d’année était dense, ce n’est rien à côté du début de la nouvelle. Pour ceux·lles qui cherchent des éléments plus scientifiques, ils·elles pourront se consoler en lisant le rapport de la CERNA sur l’éthique en apprentissage automatique.

Nous sommes nombreux aujourd’hui à avoir entendu plusieurs spécialistes nous expliquer ce qu’est l’intelligence, la différence entre artificiel et naturel ou ce que sont les algorithmes, à l’origine de tous ces débats. Mais les choses n’ont pas beaucoup avancé concernant la compréhension de ce que font ces dits algorithmes.

Inria s’était lancé dans la mise en place d’une plateforme pour évaluer la transparence des algorithmes. Mais si l’annonce a presque un an, peu de nouvelles depuis. Sauf juste avant la trêve de fin d’année où nous avons reçu l’annonce de la mise en place de 5 groupes de travail (GT). L’occasion de vous donner les intitulés pour mieux cerner ce qu’est la transparence des algorithmes du point de vue des informaticiens :

GT1 : algorithmes de classement, de recommandation (neutralité, loyauté, non-discrimination)

GT2 : Explication des algorithmes d’apprentissage

GT3 : Confidentialité et Contrôle d’usage des données

GT4 : Neutralité/loyauté et métrologie des réseaux de communication

GT5 : Influence, Désinformation, Impersonification, Fact-checking

À lire ces intitulés, on se demande s’il s’agit de travailler sur la transparence des algorithmes ou sur l’éthique de l’informatique. On voit bien l’importance des débats qui vont se tenir, par exemple dans le GT5 qui fait facilement écho à la proposition par Macron lors de ses vœux à la presse pour légiférer sur la responsabilité des plates-formes dans la diffusion de fausses informations (fact-checking). L’idée que des algorithmes puissent être le support de la loi ouvre de nombreuses questions, ne serait-ce que pour décider le vrai du faux (sujet qui alimente largement la philosophie depuis Aristote).

Il semble bien important qu’un comité national d’éthique se mettent en place, comme le demande la CERNA, tant qu’il ne devient pas un comité Théodule mais fait la place aux discussions entre toutes les parties. Ce qui reste sûr, c’est que le sujet ne devrait pas disparaître, sentiment renforcé par les rumeurs de la très prochaine nomination d’Antoine Petit, PDG d’Inria, à la tête du CNRS.

2018 devrait donc être une année transparente. Espérons qu’elle prenne de l’épaisseur.

TAL et domaine juridique : l’arrivée du Big Data

Jusqu’à une date assez récente, les applications du TAL ou du TAP (Traitement Automatique de la Parole) dans le domaine juridique ont surtout concerné les questions d’identification des personnes par leur voix ou leurs écrits. Avec l’arrivée de masses de données juridiques numériques, le Big Data investit désormais des questions comme la rédaction automatique d’acte notariés, la justice prédictive etc…

Le journal du CNRS vient précisément de publier un petit article qui fait le tour de la question : « La justice à l’heure des algorithmes et du big data« . Analyse assez équilibrée des bénéfices et risques de ces technologies langagières. Et une vision très claire des limites technologiques de ces dernières en termes de performances.

 

Ethique et technologie de la langue : réagir ou contourner ?

Les promoteurs de ce blog ont remarqué le peu d’entrain de la communauté scientifique à s’attaquer au sujet Ethique et TAL, que ce soit dans ce blog ou dans d’autres initiatives. Or, nous voyons après enquête (voir Résultats de l’enquête Ethique et Traitement Automatique des Langues et de la Parole) que beaucoup de gens sont conscients de la gravité du sujet, et pensent qu’il faut faire quelque chose. Cela souligne l’écart entre les déclarations et les faits.

Je voudrais ici creuser ce sujet de l’éthique pour le TAL qui provoque à la fois une mobilisation d’un très petit nombre, une méfiance sourde de la part de certains, mais surtout un immense silence de la part de la quasi-totalité de la communauté. Comment analyser ces réactions : petit nombre se déclarant pour ou contre, et immense majorité ne se prononçant pas. Le phénomène n’est pas nouveau, on le retrouve dans beaucoup de domaines, sur de très nombreux sujets, mais je pense qu’il est intéressant de l’analyser précisément pour le cas particulier de l’éthique en TAL, car cela peut permettre de faire évoluer les lignes. Explorons l’arbre des possibilités, pour un chercheur en sciences du langage impliqué dans le traitement automatique de la langue.

  1.  je ne suis pas conscient que mon activité peut impliquer des problèmes éthiques. Ce cas est plus fréquent qu’on peut ne l’imaginer (et ne vous concerne pas, puisque vous êtes en train de lire un post sur un blog qui s’appelle Ethique et TAL !) ; en effet, nous sommes dans un domaine où les atteintes à l’éthique ne sont pas évidentes, mis à part certains cas comme par exemple les dossiers patients dans le domaine du biomédical ou l’identification de la voix dans un contexte judiciaire, ou des problèmes de plagiat ou de bidonnage de résultats. Les affichages des instances (le COMETS, la CERNA ) ont une faible implication pratique. De plus, rien (ou presque) n’est fait dans la formation du chercheur pour le sensibiliser aux problèmes éthiques : l’enseignement de l’éthique pour les futurs professionnels de la recherche est .. étique ! Cela est peut-être aussi renforcé par la course aux publications, qui laisse peu de temps aux jeunes chercheurs pour se poser des questions ; ensuite, le pli est pris.
  2.  je suis conscient que mon activité peut impliquer des problèmes éthiques, et :

a.  Je réagis positivement, et j’essaye de contribuer à la résolution des problèmes éthiques. Le nombre de personnes étant petit, la tâche est rude pour convaincre la communauté scientifique. Elle implique souvent de consacrer une partie de sa recherche à ce sujet, afin de pouvoir intervenir dans le cadre naturel du chercheur, c’est-à-dire les congrès, les journaux. Cela prend donc pas mal de temps, et cela réclame un certain courage, mais est-ce que ça vaut vraiment le coup ? C’est la démarche des lanceurs d’alerte, qui apparaît comme militante, et souvent suspecte d’arrière-pensées politiques. Elle peut être vue également comme une attitude rétrograde vis-à-vis de la technologie de manière générale : une telle attitude est stigmatisée, comme la soit-disant « peur du train » qui aurait eu cours au XIXe siècles chez certains docteurs hygiénistes1.

b. Je réagis négativement contre ces initiatives. Cette attitude est rare, mais finalement pas beaucoup plus que l’attitude précédente. Les motivations peuvent être diverses, mais de mes observations, la motivation principale est la suivante : Je vois les gains potentiels en particulier pour moi (ma carrière, mon business) et je décide d’ignorer les risques éthiques, bien que j’en sois conscient. Cette attitude est souvent le résultat de la réflexion que de toute façon, l’avènement des « progrès » technologiques qui posent des problèmes éthiques est inévitable, et que donc, si des dégâts arrivent, autant essayer d’être dans la minorité qui sera « du bon côté du manche ». Si l’on est conscient des risques éthiques, cette attitude requiert également du courage. Il faut être prêt à défendre son point de vue, vis-à-vis de ses collègues et amis ; de plus, rien ne dit qu’une telle attitude ne sera encore plus ostracisée, si le grand public et/ou les décideurs viennent finalement à être sensibilisés au problème. On a là une application tout à fait pragmatique et faussée d’une éthique utilitariste à l’anglo-saxonne : je fais de la science, la science est bonne, je peux faire plus de science en utilisant des techniques que certaines personnes considèrent comme non-éthiques, alors que les risques ne sont que potentiels ; je considère donc que la balance est positive, donc ce que je fais est éthique !

c. Je reste neutre. Je suis conscient, mais je ne vois pas comment m’impliquer. Comme pour d’autres problèmes d’ampleur (réchauffement climatique, guerre, ressources limitées), une initiative locale et individuelle paraît complètement disproportionnée et inefficace, face à l’inertie des décideurs politiques ou ici institutionnels. Si je suis amené(e) dans mon activité à me confronter directement à un problème d’éthique, alors soit je vais infléchir celle-ci de façon à contourner le problème, soit j’adopte le point de vue de mon labo, ou de ma tutelle, ou de mon directeur de thèse. Si mon activité ne touche pas directement un problème d’éthique, je me limite à des déclarations d’intérêt, en me reposant sur les instances dites « supérieures ». Là, pas de problèmes vis-à-vis de la communauté, de ses collègues, au prix cependant de devoir peut-être orienter différemment sa recherche.

On voit donc que l’attitude « intelligente », celle qui préserve à la fois la bonne image qu’on peut avoir de soi, et le respect de ses pairs et collègues, est l’attitude neutre.

J’ai observé un cas pratique de ce phénomène, lorsque nous avons soulevé, avec certain(e)s, les problèmes liés à l’utilisation de la plateforme de crowsourcing payant Amazon Mechanical Turk (AMT). Nous avons alors fait face à cette attitude dans la communauté du TAL et de la parole. La plupart des gens interpellés admettent les risques, quelques rares personnes défendent le modèle, mais en pratique très peu font de manière explicite quelque chose (article, conférence, système alternatif) pour essayer de pallier les défauts du système. Aujourd’hui, dans la pratique, nous ne pouvons pas dire que la communauté n’utilise plus AMT, loin de là, mais nous n’observons pas l’explosion du nombre de papiers utilisant le crowdsourcing en faisant la course à l’échalote de celui qui arriverait à produire le plus pour le moins cher, tel que nous l’avons vu il y a quelques années. Est-ce, comme pour ces personnes qui sont venus me dire dans des conférences qu’elles me me remerciaient de publier sur le sujet, car elles pouvaient ainsi opposer des articles scientifiques à leur hiérarchie qui les enjoignait d’utiliser AMT, que les chercheurs ont évité l’utilisation, sans ostentation, que ce soit par peur de la polémique ou par conviction ? Je ne sais pas, mais j’ai l’impression que les personnes utilisant la myriadisation du travail parcellisé ont intégré cette dimension de risque éthique, et soit s’abstiennent, soit l’intègrent de manière minimale dans leur travail (au niveau de la rémunération, du choix du site, de la méthode d’exclusion des travailleurs non fiables, etc).

Pour résumer, en s’appuyant sur l’exemple d’AMT, on voit donc qu’une mobilisation pour mettre en lumière des problèmes éthiques peut aboutir au fait qu’un certain nombre de chercheurs devenus conscients, orienteront différemment leurs recherches, mais sans bruit. Il ne faut pas forcément se polariser sur les deux populations qui sont prêtes à polémiquer, ceux qui se lèvent pour dire oui ou non ; ces deux attitudes ont un coût qui peut s’avérer trop lourd, en particulier pour de jeunes chercheurs. Dans ces conditions, ne nous désespérons pas d’être peu nombreux à nous mobiliser, mais regardons pragmatiquement l’impact sur le domaine.


1. Cette « peur du train » est un mythe, et n’a jamais vraiment existé, voir Jean-Baptiste Fressoz, L’apocalypse joyeuse, une histoire du risque technologique, éd. Du Seuil, 2012.

Apprentissage et Intelligence Artificielle: les vraies questions éthiques

La CERNA (Commission de Réflexion sur l’Ethique de la Recherche en sciences et technologies du numériques) de l’alliance Allistene, organise le 13 juin 2016 (INRIA Paris) une journée sur le thème « apprentissage et intelligence artificielle ». Un sujet qui concerne directement le TAL, du fait de l’omniprésence du machine learning dans les recherches du domaine.

Pour en savoir plus : plaquette de présentation [PDF]

Les inscriptions sont ouvertes…

Ecole jeunes chercheurs sur l’éthique du numérique

La CERNA (Commission de réflexion sur l’Ethique de la Recherche en sciences et technologies du Numérique de l’alliance Allistene) se penche sur la question de la formation à l’éthique des chercheurs dès leur entrée en doctorat.

Elle organise une école jeunes chercheurs sur l’éthique du numérique à Arcachon, entre le 26 et le 30 septembre 2016. Inscriptions avant le 15 avril.

Pour en savoir plus: http://cerna-ethics-allistene.org/

The Hitchhiker’s Guide to Ethics in NLP


L’article ci-dessous a été refusé à la conférence The Ethics of Data Science: The Landscape for the Alan Turing Institute organisé par The Alan Turing Institute, nous avons toutefois souhaité le partager avec vous. Bonne lecture !


The Hitchhiker’s Guide to Ethics:

the Journey towards Raising Awareness in Natural Language Processing

Alain Couillault, Karën Fort, Gilles Adda, Maxime Amblard, Jean-Yves Antoine, Hugues de Mazancourt

Ethics, NLP and Everything

Natural Language Processing (NLP), like any other science, is confronted to ethical issues, both regarding the way science is conducted (plagiarism, reproducibility, transparency) and regarding the effects of its results on society. Some issues are specific to the very nature of NLP: the building, transformation or annotation of the (sometimes huge) language resources (corpora or dictionaries) NLP (sometimes heavily) relies on implies to set up and drive large scale projects which involve human resources. NLP techniques are also often used to analyze documents which, by their nature or their content, require thoughtful considerations regarding ethics. Just think of Email corpora (De Mazancourt et al., 2014), medical corpora (Grouin et al., 2015), schizophrenics’ speech corpora (Amblard et al., 2015) or suicide letters (Bretonnel Cohen et al., 2015). NLP is also called for when it comes to providing tools for ethics, for anonymizing documents or discovering plagiarism. This article describes the various actions we conducted to raise awareness for ethics within the NLP community.

Thanks for all the Answers

It all started with a position paper (Fort et al., 2011) on the growing use of the Amazon Mechanical Turk platform, stating that such platforms are not ethical with regards to the way Turkers (i.e. task workers) are paid, underpaid, or even not paid. We then broadened our standpoint and enlarged our group by involving private and public bodies in the writing of an Ethics and Big Data Charter  (Couillault et al., 2014), which aim was to document as much as possible the building of language resources. The Ethics and Big Data Charter is a form split into three sections respectively dedicated to traceability, legal and licensing issues, and specific requirements (i.e. related to the very nature of the resource content). While the Charter has seldom been used for what it had been designed for (i.e. document language resources), we found out that talking and publishing about it and, hence, about ethics, rose interest, if not awareness, among researchers. It was then decided to push further and organize dedicated workshops in France, in November 2014  and June 2015. These workshops gave the opportunity to cover a large scope of the ethical issues pertaining to NLP, and were attended by a rather large audience. During one of the workshops, the idea arose to create a blog  to share ethics-related standpoints and to address a larger audience. A poll was also conducted, partly to collect information on the NLP researchers’ viewpoint to NLP and, we must admit, rhetorically to raise awareness. More than 100 people answered the poll (which, with regards to the French speaking NLP community is a reasonably large number) and, among them, more than thirty people volunteered to get involved in ethics-related actions. We will present the main lessons drawn from this consultation, concerning various issues such as researchers ethical responsibility, data privacy and perpetuity, data producers payment etc.

And another Thing…

We have witnessed a motivating growing interest in the NLP community for ethics, and we are eager to take more actions to further raise awareness and create momentum.
The poll on Ethics and NLP has been translated into English and addressed to a large, international audience. It is under way and, as of September 2015, more than 260 people have participated. We plan to publish the results at an international conference and journal to enlarge even further the number of people interested. We have also worked on a second version of the Ethics and Big Data Charter to extend to other domains requiring data sets (such as medicine or European projects). The next TALN conference (organized by ATALA, the French association for NLP), will include a thread on ethics, and a special issue of the international TAL journal will be dedicated to ethics and NLP. Hopefully, all these efforts will help designing standards and solutions for ethics in NLP.

This paper, including section headers and footnotes, was 42 lines long in the original paper.

References

Amblard, M., Fort, K., Demily, C., Franck, N., and Musiol, M. (2015). Analyse lexicale outillée de la parole transcrite de patients schizophrènes. Traitement Automatique des Langues, 55(3):25, August.

Bretonnel Cohen, K., Pestian, J. P., and Fort, K. (2015). Annotating suicide notes : ethical issues at a glance. In ETeRNAL (Ethique et Traitement Automatique des Langues), Caen, France, June.

Couillault, A., Fort, K., Adda, G., and De Mazancourt, H. (2014). Evaluating Corpora Documentation with regards to the Ethics and Big Data Charter. In International Conference on Language Resources and Evaluation (LREC), Reykjavik, Iceland, May.

De Mazancourt, H., Couillault, A., and Recourcé, G. (2014). L’anonymisation, pierre d’achoppement pour le traitement automatique des courriels. In Journée d’Etude ATALA Ethique et TAL, Paris, France, November.

Fort, K., Adda, G., and Cohen, K. B. (2011). Amazon Mechanical Turk: Gold mine or coal mine? Computational Linguistics (editorial), 37(2):413–420.

Grouin, C., Griffon, N., and Névéol, A. (2015). Étude des risques de réidentification des patients a partir d’un corpus désidentifié de comptes-rendus cliniques en francais. In Proc. of the TALN workshop ETeRNAL, pages 12–24, Caen, France, June.