Ethique et TAL – Ethique et Traitement Automatique des Langues

Une porte-parole générée par IA – un point de vue féministe

Le 1er mai 2024, le ministère des affaires étrangères ukrainien a publié une vidéo sur les réseaux sociaux, présentant leur nouvelle porte parole, Victoria Shi. Celle-ci possède toutefois une particularité : il s’agit d’une avatar générée par intelligence artificielle. D’après plusieurs articles, elle n’est toutefois pas entièrement le produit d’une génération, car elle serait inspirée d’une chanteuse et influenceuse ukrainienne, Rosalie Nombre. De plus, ses propos ne sont pas générés par des modèles de langue, mais ils sont prétendument rédigés par des membres (humains) du gouvernement.

Beaucoup de médias se sont emparés de cette information, qui relate d’une première mondiale, en questionnant ce choix. Néanmoins, nous ne nous attarderons pas sur l’aspect discutable d’utiliser une IA comme porte-parole (le terme anglais spokesPERSON révèle d’autant plus le paradoxe d’un tel choix). Nous souhaitons ici aborder le sujet avec une approche différente, discutant les implications du choix du genre féminin de cette avatar, qui amène une résonance différente que s’il s’agissait d’un homme virtuel.

En effet, cette avatar a l’apparence d’une femme et est présentée comme telle (et il est intéressant de noter qu’il n’est pas surprenant que cette IA soit une femme, c’était presque attendu). Le corps féminin est alors utilisé uniquement pour son visuel, son image. C’est d’ailleurs d’autant plus frappant qu’il s’agit du corps d’une femme réelle, mais qui n’a pas été embauchée. Seule son image a été retenue, qu’on utilise comme une façade, une coquille vide à laquelle on fait dire ce que l’on souhaite. Cette utilisation de la féminité n’est pas sans rappeler le cas d’assistants virtuels comme Alexa, Siri ou les voix par défaut de Google Maps et autres GPS, qui avaient déjà posé question [1]. L’apparence féminine est encore une fois utilisée dans sa superficialité, en mettant en avant son caractère rassurant et attrayant, ravivant ainsi des stéréotypes de genre. Cette avatar agit ainsi comme une poupée, littéralement contrôlée par d’autres individus, dont on peut supposer qu’ils sont majoritairement des hommes, atteignant ainsi le fantasme sexiste d’une femme complètement soumise et passive, sans personnalité, agentivité ou volonté propre, et entièrement manipulée par des hommes. La notion de « femme virtuelle » évoque d’ailleurs des associations avec des IA féminines sexualisées, conçues dans une optique de «séduction», voire d’objets sexuels. (Une simple recherche sur Internet confirme cette intuition – voir captures en fin d’article.)

On peut même mener la réflexion plus loin, en se demandant s’il s’agit là d’une stratégie pour mettre en avant une certaine diversité, puisqu’il s’agit d’une femme, qui plus est métisse. Cela pourrait remettre en question la notion de quota et de diversité, qui serait dès à présent atteinte par l’utilisation de physiques divers, et non d’individus. Cette observation est à relier au fait que, parmi les 10 précédents porte-paroles du ministère des affaires étrangères, on compte 8 hommes et seulement 2 femmes. Autrement dit, plutôt que d'embaucher une femme réelle, et plus encore, une femme métisse réelle, il a été décidé de la générer. Son apparence est donc utilisée comme un simple outil, pour attirer la sympathie, mais sans impliquer l’existence et l'embauche d’une femme noire réelle. On ne bénéficie ainsi que d’aspects bénéfiques superficiels de la médiatisation d’une femme de couleur, sans pour autant prendre en compte les opinions d’une membre de cette population, sans participer à une forme de progrès social. La diversité et le feminism-washing à leur paroxysme : on utilise l’apparence d’une femme pour se donner bonne image, sans mesurer l’intérêt d’avoir une porte-parole qui serait une femme de couleur réelle.

Résultat du moteur de recherche Google pour la requête « femme virtuelle »

Résultat du moteur de recherche Google pour la requête « homme virtuelle »

Résultat de Google Image pour la requête « virtual woman »

Résultat de Google Image pour la requête « virtual man »

https://twitter.com/yoongienthusias/status/1780166190817583150

Références

[1] Nóra Ni Loideain, Rachel Adams. From Alexa to Siri and the GDPR: The gendering of Virtual Personal Assistants and the role of Data Protection Impact Assessments. Computer Law & Security Review, Volume 36, 2020. https://doi.org/10.1016/j.clsr.2019.105366.

Désidentifier n’est pas anonymiser

Ce post a pour but de récapituler les informations réglementaires concernant les notions de désidentification et d’anonymisation dans le cadre du traitement automatique des langues, qui s’appuie sur des données issues de sujets humains sous la forme de textes.

L’anonymisation lève la nécessité de consentement

Les données personnelles sont dites sensibles si elles portent sur la santé (y compris données biométriques et génétiques), l’orientation sexuelle, l’appartenance religieuse, politique ou syndicale des personnes [1].

La réglementation européenne encadre de manière très stricte l’utilisation de ces données qui n’est permise qu’avec la validation d’un comité éthique et le consentement éclairé des personnes concernées. La qualification d’une base de données comme « anonyme » a un impact sur les personnes dont les données sont inclues dans la base: leur consentement n’est pas requis pour la diffusion et l’utilisation de données anonymisées.

Anonymiser, c’est rompre de façon irréversible le lien entre données et personnes

Anonymiser des données demande de garantir la conformité avec trois critères définis par la réglementation. Nous reprenons ici la formulation validée par des juristes proposée par le comité d’éthique de Sorbonne Université [2]:

il ne doit pas être possible d’isoler un individu dans le jeu de données
il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu
il ne doit pas être possible de déduire, de façon quasi certaine, de nouvelles informations sur un individu.

Désidentifier, c’est brouiller les pistes pour cacher le lien entre données et personnes

Désidentifier permet de transformer des données personnelles de manière à ce qu’on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire. Cela consiste à remplacer les données directement identifiantes (par exemple, nom, prénom) d’un jeu de données par des données indirectement identifiantes (substitut plausible, numéro séquentiel, désignation de la catégorie de données).

Comme l’explique la note du comité d’éthique de Sorbonne Université [2], la réglementation stipule que:

une correspondance avec l’identité des individus (par exemple, clé de chiffrement ou table de correspondance entre données identifiantes et substituts) doit être stockée dans un autre lieu que les données, et avec un accès contrôlé limité.

Cependant, même si cette correspondance venait à être perdue ou effacée, cela ne rend pas les données anonymes pour autant. En effet, si la possibilité de retrouver ou de reconstituer la correspondance individus/données existe, cela signifie que la ré-identification est possible. La ré-identification est considérée comme possible:

quels que soit les moyens à employer pour y parvenir (par exemple, l’accès à une base de donnée tierce)
même si la ré-identification ne concerne que certains individus

Il est important de noter que la législation relative à la protection des données personnelles reste applicable aux données désidentifiées, également appelées « données pseudonymisées ».

Et mon corpus dans tout ça?

En TAL typiquement, un corpus est considéré comme une base de données. Il est possible de désidentifier un texte en remplaçant dans le texte des données directement identifiantes, en utilisant différentes stratégies, comme présenté dans les exemples (fictifs) ci-dessous:

28 Juin 2022 – Ce jour, Mr. Martin, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (texte original)

<crypt_d=12056789> – Ce jour, Mr. <crypt_n=12cby567gt0987gt7h>, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Ecosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par chiffrement des données directement identifiantes)

DATE – Ce jour, Mr. X, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des génériques)

14 Juin 2015 – Ce jour, Mr. Dupond, suivi dans le service pour schizophrénie, ne s’est pas présenté pour son examen, il doit être parti jouer au golf en Écosse comme il nous l’avait annoncé la semaine dernière. (technique: désidentification par remplacement des données directement identifiantes par des substituts plausibles)

Dans l’ensemble de ces exemples, la connaissance externe de l’anecdote (non présentation d’un patient schizophrénique à un examen à cause d’une activité spécifique) permet la ré-identification du patient. Ce texte n’est donc pas anonyme, et n’est pas anonymisable par simple traitement des données directement identifiantes.

De manière générale, la désidentification d’un texte n’apporte aucune garantie d’anonymisation.

Références

[1] https://www.cnil.fr/fr/definition/donnee-sensible

[2] https://cer.sorbonne-universite.fr/ressources-ethiques

Le genre en recherche

Le 15 décembre, l’ANR et le CIRAD organisaient un colloque virtuel sur la thématique « le genre en recherche ». Le programme, très complet, comportait une partie « méta » sur l’évaluation de la recherche en fonction du genre de ses acteurs (le matin) et une autre partie « terrain » sur la prise en compte du genre dans des études et travaux de recherche (l’après-midi). Mon emploi du temps m’a permis d’assister aux présentations de la matinée, ainsi qu’à des bribes de l’après-midi. Ainsi, je ne manquerai pas de profiter des replays qui seront proposés sur la chaîne Youtube de l’ANR.

En attendant, voici quelques points forts que j’ai retenus de cette journée :

il y a une prise de conscience des organismes de la discrimination liée au genre envers les acteurs de la recherche (ANR, CIRAD, CNRS, équivalents en Suisse…)
il y a une mobilisation sur le plan RH avec une volonté de faire un état des lieux et de proposer des solutions. Cela se traduit notamment par le recueil de statistiques: on commence à compter sérieusement et systématiquement. La présentation de l’ANR offre notamment un retour sur la fameuse case « prise en compte du genre » remplie lors des soumissions de projets.
une présentation détaillée de l’étude de 2019 sur le biais dans les commissions CNRS [1] qui donne lieu à des préconisations pratiques. L’opportunité de réaliser une étude similaire avec les commissions ANR a été évoquée.
une moyen de corriger les biais de genre qui semble avoir fait ses preuves [1] consiste à proposer aux comités d’évaluation une formation sur les biais implicites et la problématique du genre. Il est néanmoins très important de comprendre qu’un impact positif n’est observé que si cette formation est suivie par l’ensemble des personnels et non sur la seule base du volontariat. En effet, la correction des biais n’est possible que s’il y a une véritable prise de conscience effective de leur existence.
les discussions lors des tables rondes ont été très riches et ont montré la problématique dans toute sa complexité, de la part d’intervenants investis. Une intervenante expose le fait que le constat des inégalités de genre donne lieu à des réactions « réflexe » de deux types: 1/ le « oui mais pas moi » (reconnaître qu’il y a un problème, mais qu’à titre individuel on n’y contribue pas) et 2/ le « oui, mais il y a pire » (reconnaître qu’il y a un problème, mais se complaire dans l’existence de statistiques ou constats plus mauvais dans d’autres disciplines, instituts, pays…). Il faut aller au delà de ça et agir sur les inégalités qui sont effectivement observées.
il y a beaucoup d’interrogations (pertinentes) sur « comment faire »?
le constat sur le déséquilibre entre compétence et confiance en soi pour les femmes suggère que les femmes bénéficieraient de participer à des réseaux permettant de leur donner confiance, de diminuer l’autocensure qu’elles s’infligent et d’être plus présentes dans des activités à responsabilité. Néanmoins, il est également salutaire de reconnaître qu’il ne faut pas exclusivement rejeter la responsabilité de la solution sur les femmes, car la présence des inégalités est systémique. Les études montrent qu’il y a une inégalité genrée de perception des personnes qui fait par exemple que des actions perçues positivement lorsqu’elles sont accomplies par des hommes sont perçues négativement lorsqu’elles sont le fait de femmes.
les intervenants membres de commissions d’évaluation soulignent également que la méthode des « quotas » pour imposer la diversité au sein des commissions pose un problème complexe. Un intérêt majeur de la mixité est de présenter aux candidat.e.s évalué.e.s par les commissions des « modèles » diversifiés qui leur permettent de se projeter dans ces rôles et de montrer que la communauté scientifique a vocation à être diverse. Cependant, il ne faut pas oublier que l’ensemble de la population est sujette aux mêmes biais genrés: la diversité de composition ne rend pas nécessairement une commission moins biaisée. Enfin, la sous représentation des femmes dans les postes permanents et à responsabilité fait qu’elles sont sur-sollicitées pour participer à des commissions. Le taux de réponse positive pour participer à une commission est de 1/2 pour les hommes contre 1/5 pour les femmes. D’une part il parait injuste d’imposer aux femmes de consacrer une partie plus importante de leur temps à des commissions au détriment d’autres activités comme la recherche, mais d’autre part, ne pas y participer renforce leur absence de rôles visibles et valorisés.

Sans remettre en cause l’intérêt de cette journée, très riche, on peut relever un petit bémol au niveau de l’organisation des interactions entre le public et les intervenants. Un chat permettait de faire des commentaires transmis aux seuls organisateurs (ni les intervenants ni les participants ne voyaient les commentaires). La gestion du temps a fait que ces commentaires/questions n’ont pu avoir qu’une place limitée. Il aurait été intéressant de pouvoir disposer d’un chat public dans lequel davantage d’interactions auraient été possibles. Par ailleurs, j’ai également été surprise de constater que toutes les études présentées le matin se placent (sans le dire) dans une représentation binaire du genre – ce qui correspond au cadre de la norme européenne, mais constitue un biais dont nous avons déjà parlé. Les études présentées l’après-midi, qui s’appuient sur des méthodologies de sociologie pour le recueil des données, semblent fournir des outils pour éviter cet écueil. Pour ce qui est du traitement automatique de la langue, des recommandations ont également été faites dans le cadre de l’atelier « Ethics in NLP » [2].

Références

[1] Régner I, Thinus-Blanc C, Netter A, Schmader T, Huguet P. Committees with implicit biases promote fewer women when they do not believe gender bias exists. Nat Hum Behav 3, 1171–1179 (2019).

[2] Larson B. Gender as a Variable in Natural-Language Processing: Ethical Considerations . 2017. Proc. « Ethics in NLP » EACL workshop.

Réplicabilité vs protection des données : l’impossible équilibre

Depuis quelques années, nous assistons et participons à l’essor de préoccupations éthiques dans la communauté de l’intelligence artificielle et en particulier du traitement automatique des langues et de la parole. Dans ce cadre, deux tendances se sont en particulier développées : la réplicabilité des expériences et la protection des données personnelles.
Ces tendances ont émergé de la volonté de la communauté de produire une « meilleure » recherche, plus éthique, plus responsable, plus durable. Or, elles entrent souvent en contradiction, ce qui pose pour certains la question de leur crédibilité.
Nous visons ici à mieux définir ce dont il est question et les enjeux associés, afin de permettre un débat informé dans la communauté.

Réplicabilité des expériences

Réplicabilité vs reproductibilité

Les termes de reproductibilité et de réplicabilité ont été utilisés dans la littérature, parfois de manière interchangeable, parfois pour désigner des activités différentes. Il s’agit par exemple du fait de réunir les mêmes conditions expérimentales (matériel et méthodes) pour reproduire une expérience à l’identique. Il peut également s’agir de reproduire une expérience avec des variations dans le matériel (par exemple, un corpus) ou les méthodes (par exemple, le type de pré-traitement appliqué à ce corpus). Suite au constat du manque de consensus sur la définition même du terme de reproductibilité en Traitement Automatique de la Langue, (Cohen et al., 2018) proposent de distinguer trois dimensions de la reproductibilité que sont la reproductibilité d’une valeur, d’un résultat et d’une conclusion.

La reproductibilité d’une valeur consiste à reproduire une expérience et obtenir la même valeur chiffrée que celle rapportée précédemment (par exemple, une F-mesure de 0,85). L’absence de reproductibilité d’une valeur n’est pas nécessairement un échec – il est typiquement attendu qu’un algorithme non déterministe produise des valeurs différentes à chaque itération.
La reproductibilité d’un résultat consiste à reproduire une expérience et obtenir la même observation que celle rapportée précédemment (par exemple, la performance du système A est supérieure à celle du système B). Une expérimentation robuste devrait permettre la reproductibilité d’un résultat, lorsque des conditions expérimentales identiques sont réunies.
La reproductibilité d’une conclusion consiste à reproduire une expérience et arriver à la même conclusion que celle rapportée précédemment (par exemple, la méthode M obtient d’excellentes performances pour la tâche T).

Malgré les nuances apportées, le terme de reproductibilité désigne là le fait de reproduire une expérience à l’identique – du moins autant que possible. Nous montrerons dans la suite de ce post que cela n’est pas évident. Nous retiendrons par ailleurs le terme de réplicabilité pour désigner le fait de reproduire une expérience en introduisant des variations volontaires afin d’étudier la robustesse et la « généralisabilité » d’un processus expérimental.

Répliquer quelle partie de l’expérience ?

On peut donc envisager tout un spectre dans le cadre de la réplication d’expériences selon que l’on s’intéresse à reproduire un modèle primaire ou à l’utiliser dans un nouveau cadre.
La question se pose des expériences portant sur des systèmes « complexes » c’est à dire qui imbriquent différents modèles et typiquement les systèmes de TAL qui exploitent des plongements dits « généralistes » voire « universels » qui sont ensuite mis à jour, adaptés etc. sur une tâche précise. Des projets comme la plateforme GLUE (Wang et al. 2018) ont pour objet de faciliter les comparaisons directes entre modèles de langue.

Protection des données

Des données pas données

Ces modèles sont d’autant plus efficaces qu’ils sont entraînés sur de grandes quantités de données. Se pose alors la question de leur disponibilité.
D’une part, pour de très nombreuses langues (la majorité des 7 000 langues recensées sur Ethnologue), ces grandes masses de données sont inexistantes. Ainsi, le corpus OSCAR ne comprend « que » 1 166 langues.
D’autre part, lorsque de grandes masses de données existent pour une langue, elles proviennent très majoritairement du Web dont elles ont été aspirées, ce qui ne pose pas de problème juridique dans les pays anglophones, où le fair use est de mise (dans la mesure où ces données ne sont utilisées que pour des buts de recherche ou d’enseignement), mais qui pose question juridiquement en France, par exemple.

Fournir les modèles ?

Extraire des données à partir d’un modèle d’apprentissage automatique constitue un domaine de recherche à part entière qui fait l’objet de plusieurs méthodes d’attaques, respectivement connues sous le nom de model inversion attacks, membership inference attacks, ou encore GAN-based attacks, etc. Nous parlons bien sûr d’attaques uniquement lorsque les données sur lesquelles le modèle automatique a été entraîné ne sont pas des données publiques sous licence libres, car dans ce cas, mener une telle attaque sur un modèle peut révéler des données qui n’étaient pas censées l’être.

Le cas typique problématique est celui des corpus contenant des données privées, comme la plupart des corpus textuels issus des réseaux sociaux ou extraits du Web. Ce domaine de recherche comporte de nombreux travaux mettant en évidence la possibilité d’extraire des données privées à partir de la plupart des modèles d’apprentissage. Ainsi, (Fredrikson et al., 2014) montrent qu’il est possible d’extraire des informations personnelles sur les génomes à partir de classifieurs linéaires, ou encore de retrouver des informations sensibles à partir d’arbres de décision ou de réseaux neuronaux en exploitant les mesures de confiance, lorsqu’elles sont fournies en sortie du système (Fredrikson et al., 2015).
De même que la plupart des systèmes pouvant être attaqués, des mesures de défense ont été proposées, parmi lesquelles nous pouvons citer la differential privacy (Abadi et al., 2016), l’encryption homomorphique ou encore l’apprentissage fédéré, méthodes qui à leur tour sont le sujet de contre-attaques (Cheu et al., 2019), et ainsi de suite.

Une situation particulière est celle des modèles profonds génératifs, comme les modèles de langage, qui sont utilisés aujourd’hui dans quasiment tous les services de traitement automatique des langues, y compris la reconnaissance de la parole, la traduction automatique, les systèmes de question-réponse, de résumé automatique, d’agents conversationnels, de plongements contextuels de mots ou de phrase, etc. Ces modèles sont particulièrement sensibles car ils sont entraînés sur de grands corpus qui contiennent inévitablement des données personnelles, et sont largement diffusés ou accessibles aujourd’hui à un large public, soit directement, soit au travers de services, comme l’aide à la rédaction de SMS, la correction orthographique, et peuvent donc faire l’objet d’attaques en « boîte noire » ou non. Une publication jointe de chercheurs de Google et des Universités de Berkeley et de Singapour (Carlini et al., 2016) étudie ce problème particulier en proposant une approche pour quantifier les risques encourus de retrouver des données privées comme des numéros de carte de crédits dans de tels modèles. Ces travaux montrent que l’ajout de bruit modéré dans le processus d’apprentissage, comme préconisé par la méthode de differential privacy, constitue une parade efficace contre ce type d’attaques.
Toutefois, d’autres travaux (Leino & Fredrikson, 2019) proposent une nouvelle forme d’attaque par membership inference qui exploite les idiosyncrasies des données du corpus d’apprentissage. Or, il est également montré dans ces travaux que lorsque l’on réalise un apprentissage par (, δ)-differential privacy avec des valeurs relativement grandes (Jayaraman et al., 2019), malgré des pertes substantielles en taux de reconnaissance, le modèle reste sensible au type d’attaque proposé.

En conclusion, les attaques sur les modèles de deep learning et leurs défenses respectives constituent un champs de recherche très actif, et il n’existe pas de solution à l’heure actuelle permettant de garantir que des données privées dans les corpus d’apprentissage ne puissent pas être extraites des modèles.

Quel avenir pour la recherche « non reproductible » car réalisée sur des données non partageables?

La crise du COVID-19 a mis la recherche sous les projecteurs de l’actualité, en particulier sur le sujet de la reproductibilité. Ainsi, une étude publiée dans la prestigieuse revue médicale Lancet (Mehra et al. 2020) a fait l’objet d’une rétraction décrite ainsi dans la presse grand public:

« Coup sur coup, deux des plus grandes revues médicales mondiales ont procédé à la rétractation d’articles ayant trait au Covid-19, fondés sur des données fournies par une société américaine, Surgisphere, et à l’origine, désormais, plus que douteuse. »
Le Monde, 4 Juin 2020

Cependant, la lecture attentive de la mise en garde ayant conduit à la rétractation indique que les auteurs «n’ont pas été en mesure d’effectuer un audit indépendant des données qui sous-tendent leur analyse ». Cela signifie que des données médicales confidentielles n’ont pas pu être partagées hors de l’hôpital dans lequel les patients ont été pris en charge. Sans prendre position sur ce cas particulier que nous ne connaissons que par voie de presse, il nous semble mettre à jour une question intéressante concernant la recherche sur des données confidentielles.

Est-ce que pour autant, un travail réalisé sur des données non partageables (car confidentielles) mérite de ne pas être pas publié ? Selon nous, l’intérêt supérieur du patient et son droit à la confidentialité priment. Par ailleurs, refuser la publication de travaux réalisés sur des données non partageables implique pour les chercheurs de choisir entre 1/travailler sur des données non partageables et avoir de fortes contraintes de publication ou 2/ travailler sur des données partageables et être libre de publier. Dans le contexte de recherche actuel où la publication est l’un des moyens principaux de valoriser le travail de recherche, cela pousserait les chercheurs à se détourner de certains domaines de recherche. Ce problème est particulièrement prégnant pour le TAL clinique dans les langues autres que l’anglais, puisque les textes cliniques sont, par nature, impossibles à anonymiser au sens de la législation européenne.

Mazancourt et al. ont proposé la notion de « tiers de confiance » ou de « cercle garant », avec un exemple de mise en oeuvre sur un corpus de courriers électroniques (Mazancourt et al. 2014). Cependant, on peut se demander dans quelle mesure cette démarche est applicable pour un corpus clinique ?

Conclusion

Si les risques liés à la diffusion de modèles semblent pour l’instant limités et si les efforts de partage de données et de modèles reposent sur des intentions louables, il est important de rappeler que la diffusion de modèles n’est éthique et réglementaire qu’avec l’assurance que ceux-ci ne comprennent que des données libres.

Nous en sommes loin.

Pire, nos modes d’évaluation nous poussent dans la direction opposée : pour publier dans une conférence sélective, il faut beaucoup de données (ce n’est obligatoire, mais ça aide bien) et pour publier rapidement, on ne v|peut pas toujours vérifier les sources de ces données.

Pire encore, la tendance, positive, à fournir les moyens de répliquer l’expérience, pousse à publier des corpus pas toujours très « propres », pour faire de la recherche propre !

Dans un tel contexte, avec peu d’incitation pour une recherche plus lente, plus respectueuse des données, les individus qui font cet effort se retrouvent souvent moins bien évalués. C’est un cercle vicieux, un problème systémique que la création de comités d’éthique dans les conférences EMNLP 2020, puis NAACL 2021 ne règle pas totalement, puisque les lois ne sont pas les mêmes partout dans le monde (en particulier concernant le fair use).

On pourrait envisager la création d’un « label rouge » des modèles et des résultats état de l’art, mais encore faudrait-il en définir les critères et trouver des gens pour l’appliquer…

Aujourd’hui, les grosses compagnies entraînent leurs modèles sur le Web entier sans (trop) se poser de question. Mais est-ce que bigger data sera vraiment better data ? Est-ce qu’elles vont arriver à créer un modèle du monde ? Pour quelles langues ? Pour quels citoyens ? Quel rôle devons-nous jouer face à elles, avec elles ?

Ces questions nous concernent non seulement en tant que chercheurs, mais également (surtout) en tant que citoyens.

Karën Fort, Aurélie Névéol, Sophie Rosset et Christophe Cerisara

Références

A BADI M., CHU A., GOODFELLOW I., MC MAHAN H. B., MIRONOV I., T ALWAR K. & ZHANG L. (2016). Deep learning with differential privacy. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security, p. 308–318.

CARLINI N., LIU C., ERLINGSSON Ú., KOS J. & SONG D. (2016). The secret sharer : Evaluating and testing unintended memorization in neural networks. In 28th {USENIX} Security Symposium ({USENIX} Security 19), p. 267–284, Santa Clara, CA, USA.

CHEU A., SMITH A. & ULLMAN J. (2019). Manipulation attacks in local differential privacy. arXiv preprint arXiv :1909.09630.

COHEN K. B., XIA J., ZWEIGENBAUM P., CALLAHAN T., HARGRAVES O., GOSS F., IDE N., NÉVÉOL A., GROUIN C. & H UNTER L. E. (2018). Three Dimensions of Reproducibility in Natural Language Processing. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018).

DE MAZANCOURT H., COUILLAULT A., RECOURCÉ G. (2014). L’anonymisation, pierre d’achoppement pour le traitement automatique des courriels. Journée d’Etude ATALA Ethique et TAL, Nov 2014, Paris, France. http://www.schplaf.org/kf/pdf/mazancourt-couillault-recourceJEEthiqueTal.pdf

FREDRIKSON M., JHA S. & RISTENPART T. (2015). Model inversion attacks that exploit confidence information and basic countermeasures. In Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, p. 1322–1333.

FREDRIKSON M., LANTZ E., JHA S., LIN S., PAGE D. & T. R. (2014). Privacy in pharmacogenetics : An end-to-end case study of personalized warfarin dosing. In USENIX Security Symposium, p. 17–32.

JAYARAMAN B. & EVANS D. (2019). Evaluating Differential Private Machine Learning in Practice. In USENIX Security Symposium, p. 1895-1912.

LEINO K. & FREDRIKSON M. (2019). Stolen memories : Leveraging model memorization for calibrated white-box membership inference. arXiv preprint arXiv :1906.11798.

MEHRA MR, DESAI SS, RUSCHITZKA F & PATEL AN. (2020). RETRACTED: Hydroxychloroquine or chloroquine with or without a macrolide for treatment of COVID-19: a multinational registry analysis. Lancet. Published:May 22, 2020 DOI:https://doi.org/10.1016/S0140-6736(20)31180-6

WANG A., SINGH A., MICHAEL J., HILL F., LEVY O. & BOWMAN S. (2018). GLUE : A multitask benchmark and analysis platform for natural language understanding. In Proceedings of the 2018 EMNLP Workshop BlackboxNLP : Analyzing and Interpreting Neural Networks for NLP, p. 353–355, Brussels, Belgium : Association for Computational Linguistics. doi : 10.18653/v1/W18-5446.

Microtravail : au service de qui ?

Le nouveau média https://www.caracteres.media m’a interviewée sur le sujet du microtravail (microworking crowdsourcing).

La journaliste, Flora Cortès a fait du beau boulot et présente le sujet de manière pédagogique, mais complète.

C’est ici : https://www.caracteres.media/micro-travail-economie-du-clic-au-service-de-intelligence-artificielle/

Diversité dans la communauté du Traitement Automatique de la Langue

Il y a presque quatre ans, nous abordions sur ce blog le sujet de la diversité dans la communauté du traitement automatique de la langue. Il en ressortait que les données pour observer la diversité étaient difficiles à trouver et qu’une grande marge d’amélioration existait. Ces points restent d’actualité.

La question du genre en TAL

Cette année, la conférence ACL a sollicité des réflexions sur sur les progrès du domaine et sur les directions à prendre en tant que communauté. Dans ce cadre, Saif Mohammad du Conseil National de Recherches au Canada a réalisé une étude bibliographique sur les articles publiés dans l’anthologie ACL [1]. Les résultats suggèrent une disparité persistante dans la présence des femmes parmi les auteur·e·s d’articles (29,7 %) et dans les taux de citation : en moyenne, les articles ayant un homme comme premier auteur sont cités plus de 50 fois, contre 37 seulement pour les articles ayant une femme comme première autrice. Si l’article ne propose pas d’explication à ces observations, des commentaires observés sur Twitter suite à la deuxième présentation invitée de la conférence illustrent ce phénomène :

Les conversations autour de l’article font état de fortes réserves éthiques sur la méthodologie utilisée pour caractériser le genre. L’article distingue les genres homme/femme et s’appuie sur des listes issues du recensement et d’études précédentes pour distinguer les prénoms féminins masculins et épicène/inconnu. Les critiques font état de deux problèmes majeurs. Tout d’abord, l’utilisation d’une caractérisation binaire a pour conséquence une négation de l’existence des genres non binaires. Il en découle une atteinte à la représentation des personnes par l’utilisation d’une méthode automatique de classification en genre, qui repose sur l’hypothèse que le genre peut être déterminé par des caractéristiques observables plutôt que par le ressenti des personnes. Cette critique s’applique à toute méthode automatique de reconnaissance du genre, telle que la reconnaissance de la parole ou l’analyse d’image, qui a déjà fait l’objet d’une étude spécifique [2].

Il est suggéré dans la conversation que la seule méthode éthiquement acceptable pour déterminer le genre est de demander directement aux personnes concernées comment elles s’identifient. Cela peut s’avérer difficile à réaliser sur une large échelle, en particulier dans le temps (absence de réponse des personnes, décès…).

Ces réflexions incitent à prendre du recul pour envisager que si ce qui n’est pas compté ne compte pas, comment considérer ce qui ne peut pas être compté?

Biais implicite

L’utilisation inadéquate de méthodes de classification en genre peut s’expliquer par la prévalence dans la culture occidentale de la représentation binaire du genre. En effet, les individus sont sujets au biais implicite de l’absence de genre non binaire véhiculé culturellement.

Dans le cadre de l’atelier Ethique et TRaitemeNt Automatique des Langues (ETeRNAL) à Nancy en Juin, nous avons proposé une introduction à la notion de biais implicite avec la participation à un test d’association implicite élaboré par le collectif Project Implicit. Cette expérience a montré que la distribution des résultats des participants ETeRNAL au test d’association implicite « Gender and Science » reflète celle observée sur un grand nombre de participants du Project Implicit : le genre masculin est majoritairement associé avec la discipline scientifique alors que le genre féminin est majoritairement associé avec la discipline artistique (61 % des participants). Les participants d’ETeRNAL indiquent cependant que leur conviction consciente est qu’il n’y pas d’association entre genre et discipline (95 % des participants).

L’importance de la prise de conscience de l’existence de biais implicites, en particulier genrés, a été démontrée par une étude récente sur les pratiques des commissions de recrutement du CNRS [3]. Cette étude montre que les commissions ayant reçu une formation sur les biais implicites aboutissent à des recrutements moins biaisés que les commissions n’ayant pas bénéficié de la formation.

Ainsi, en tant que communauté scientifique, il convient de ne pas négliger ces questions et de continuer nos efforts pour favoriser et valoriser la diversité.

Références:

[1] Mohammad S. Gender Gap in Natural Language Processing Research: Disparities in Authorship and Citations. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 7860–7870

[2] Keyes O. 2018. The Misgendering Machines: Trans/HCI Implications of Automatic Gender Recognition. Proc. ACM Hum.-Comput. Interact. 2, CSCW, Article 88 (November 2018), 22 pages.

[3] Régner I, Thinus-Blanc C, Netter A, Schmader T, Huguet P. Committees with implicit biases promote fewer women when they do not believe gender bias exists. Nat Hum Behav 3, 1171–1179 (2019).

Grand Débat : que peut l’analyse automatique des contributions ?

A l’heure où le président de la République s’apprête à annoncer ce qu’il a retenu du Grand Débat qu’il a lancé il y a quelques mois, il n’est peut-être pas inutile de s’interroger sur comment a pu être analysée la très grande masse de contributions qui ont été émises à cette occasion.

Le gouvernement a en effet annoncé que cette procédure inédite de consultation avait réuni 500 000 contributeurs sur la plate-forme en ligne, 500 000 contributions par le biais des cahiers de doléances ouverts dans chaque mairie, et 500 000 participations dans le cadre de réunions locales qui ont fait l’objet de notes synthétiques de restitution… Pour analyser toutes ces contributions, les organisateurs du Grand débat ont mis en avant l’apport de l’Intelligence Artificielle et du Traitement Automatique des Langues : toutes les contributions seront analysées automatiquement, par des comptabilisations d’occurrences de mots. Cette analyse automatique sera réalisée par OpinionWay et son sous-traitant Qwam.

Dès lors, on peut s’interroger sur les limites de cette analyse automatique. Tout d’abord, notons que l’outil informatique peut permettre, même avec des décomptes assez basiques, d’extraire de l’information de cette masse de données. C’est ainsi par exemple que les Décodeurs du Monde ont pu montrer dans une petite étude que, par delà le succès annoncé de la consultation, nombre de contributions ne sont soit que des messages extrêmement brefs, ou bien sont le résultat de multiples copier-coller de la part de participants qui ont sans doute bien détecté l’effet déformant d’une analyse purement statistique des contributions.

Mais même si l’on réalise un pré-traitement pour éliminer les doublons ou les contributions limitées à 3-4 mots d’invective, comment le TAL peut-il faire émerger du sens à partir de contributions textuelles non structurées ? Cette question, c’est la problématique scientifique de la fouille d’opinion (opinion mining en anglais) sur laquelle se repose le gouvernement. Dans la perspective d’une IA permettant une aide à la décision efficace, de plus en plus d’entreprises (parmi lesquelles OpinionWay) se sont positionnées sur ce marché. Pourtant, à ma connaissance, les résultats ne sont pas là : songez par exemple que les techniques mise en œuvre peinent le plus souvent à gérer la présence d’une négation dans un texte. Dans cet article, Hugues de Mazancourt, très bon connaisseur du domaine et contributeur à ce blog, nous explique avec des exemples concrets les limites de la fouille d’opinion telle qu’elle sera mise en oeuvre par OpinionWay. Rien de nouveau sous le soleil, sous le terme marronnier des « Intelligences Artificielles », on ne cause que d’assez banales statistiques lexicales. Une fois encore, nous sommes en présence d’annonces miraculeuses sur les capacités de l’IA et du TAL, et une fois encore (l’histoire des sciences ne nous apprend dont-elle rien ?), on ne rend pas ainsi service à ces domaines de recherche pourtant si intéressants…

Dès lors, pour une analyse plus profonde des débats qui ont agité une partie de la population française ces dernières semaines, on peut se demander si l’Intelligence Humaine n’est pas plus appropriée. C’est en tous cas le pari d’initiatives comme l’Observatoire des débats ou bien La Grande Annotation qui font résonance aux sciences et à la démocratie participatives. Ces initiatives ont certainement leur limites en termes de méthodologie et de représentativité des analyses. Mais celles-ci peuvent être débattues, alors que les réserves sur l’intervention de la fouille automatique d’opinion dans le Grand Débat n’a, à ma connaissance, suscité d’interrogations raisonnées que dans des cercles assez restreints.

Un des grands intérêts du Grand Débat est qu’il va fournir (qu’il fournit déjà, de fait) une masse de données brutes accessible librement et qui nous livre une photographie assez exceptionnelle de l’état d’esprit des français (du moins ceux qui se sont exprimés, nous ne discuterons pas ici de la représentativité des contributions), mais également de leur comportement langagier. Cette ressource intéressera les politologues, les sociologues, les analystes du discours et autres. Mais également le TALN : et si ce Grand Débat, qui nous est parfois présenté comme une démonstration éclatante de la réussite de l’IA, n’était pas pour les années à venir au contraire une base de test inestimable pour étudier, cette fois proprement, et espérons-le sans biais méthodologique, les limites de notre discipline…

Le générateur de texte d’OpenIA: nième tentative d’Elon Musk de nous faire peur

La presse nous apprend par un titre accrocheur le dernier avatar de la méchante intelligence artificielle qui va nous manger tout cru.
« Des chercheurs ont-ils développé une intelligence artificielle trop dangereuse pour être mise en service ? »
La forme interrogative est-elle le signe que les journalistes ont appris des précédentes annonces de production d’intelligences artificielles laissant apparaître des prémices d’une intelligence forte ? espérons-le.
Car cette annonce de la sortie d’un système de génération de texte est surtout un coup marketing. Ainsi, OpenIA, centre de recherche financé entre autres par Elon Musk, a produit un système de génération de texte qui, si on lui soumet une certain nombre de paragraphes initiaux, est capable de compléter le texte, en utilisant la connaissance extraite des textes présents sur le web. Les essais effectués sont particulièrement efficaces en ce qui concerne les textes journalistiques. Ceci montre surtout la capacité de la plupart des journalistes de reproduire sous diverses formes le même article sur un sujet donné, puisque le système reproduit en fait ce qu’il trouve sur la toile.
Mais en quoi cette nouvelle intelligence artificielle serait-elle trop dangereuse pour être divulguée ? Elle se conforme effectivement à cette obligation mimétique de la plupart des journalistes, qui n’est plus à prouver, mais fera de toute façon moins bien que ses inspirateurs, les humains générant des textes sur le web et en particulier sur les réseaux sociaux. Les créateurs de GTP-2, c’est le nom du système, (ils ne se sont pas trop fatigués, peut-être devraient-ils créer une intelligence artificielle qui génère des noms accrocheurs et évocateurs…) auraient peur de sa faculté à générer des fake news qui ressemblent à des vraies. Mais évidemment, les textes permettant cette performance existent déjà sur le web, le système ne crée pas de fake news, il les répète bêtement.
Ce que le système remet en cause, c’est principalement le journalisme fast-food qui se contente de digérer un certain nombre de dépêches et les articles des collègues, pour produire un article sans intérêt ; sera-ce une perte ? J’en doute.
Mais en annonçant que les créateurs, tel Frankenstein, ont peur de leur machine, OpenIA rouvre la boîte à fantasmes du mythe de la singularité (défendu par le même Elon Musk) où l’on a surtout pu voir à l’œuvre les tentations transhumanistes et les motivations bassement mercantiles de nous vendre (à toutes les acceptions du terme) des intelligences ou des « améliorations » nous permettant de nous protéger de ces méchantes intelligences.
Il est bien sûr nécessaire de réguler l’IA, mais cela ne passera pas en mettant en avant de telles annonces catastrophes. Ce qu’il faut réguler, ce sont les industriels qui pompent les données en nous imposant des services soi-disant « gratuits », et les structures privées ou publiques qui vont également utiliser ces données pour des fins obscures, et pas ces pauvres intelligences générées par de vraies intelligences, pas forcément bienveillantes.

Équité dans les algorithmes d’apprentissage automatique

Un petit article dans Internet Actu (blog du Monde), sur les questions d’équité des algorithmes (fairness en anglais)

http://internetactu.blog.lemonde.fr/2018/09/08/concretement-comment-rendre-les-algorithmes-responsables/

La question de l’équité est au centre des préoccupations éthiques en apprentissage automatique, comme le montre l’émergence depuis 2014 de la conférence FATML (Fairness, Accountability, and Transparency in Machine Learning : https://www.fatml.org/).

Le TAL semble moins se pencher sur ces questions que par exemple, la communauté de l’analyse décisionnelle. Pourtant, ce sont les mêmes techniques d’apprentissage qui sont souvent utilisées, et des exemples de biais involontaires, ou au contraire recherchés par des groupes d’opinions qui ont utilisé la dépendance aux données de ces modèles, ont ainsi déjà pu être observés en TAL.

Ecriture inclusive et point médian : et si l’on causait science ?

L’année qui vient de s’écouler a été le témoin de débats animés autour de l’écriture inclusive, cet ensemble de recommandations qui vise à écarter de la langue (le français en l’occurrence) toute forme linguistique pouvant véhiculer des stéréotypes de genre. Cette question n’est pas nouvelle. On se rappelle ainsi les cris d’orfraie de l’Académie Française et les clivages qui sont apparus dans la société française lorsqu’Yvettte Roudy, ministre des Droits de la Femme de François Mitterrand, avait promu en 1984 la féminisation des noms de métiers. Plus de trente ans plus tard, cette incitation linguistique à la parité en milieu professionnel est pourtant largement acceptée: même si linguistes et sociolinguistiques montrent que cette parité terminologique est encore loin d’être atteinte dans la pratique, les voix s’opposant à cette féminisation sont désormais rares et le sujet ne fait plus débat sur la place publique.

Cette fois, c’est une autre question qui agite les esprits : celle du point médian, ce petit signe typographique censé être utilisé pour remplacer les emplois du masculin générique (« je remercie les millions d’électeurs qui m’ont accordé leur confiance ») par une forme composée de l’emploi masculin suivi du suffixe de sa forme féminine (« les millions d’électeur·rice·s »). Deux évènements ont assuré la promotion de cette controverse au sein du grand public : la sortie d’un ouvrage scolaire rédigé en écriture inclusive chez les éditions Hatier et, à l’opposé, la circulaire du gouvernement appelant l’administration à ne pas utiliser cette écriture neutre [1]. Très rapidement, les querelles sur genre et langue ont repris avec une vigueur renouvelée et une fois encore, les passions semblent l'emporter sur la raison critique. Ainsi en est-il d’une France qui a toujours eu du mal à penser son rapport à sa langue, comme le montre par exemple Daniel Luzzati dans son ouvrage sur l’orthographe du français [Luzzati 2010]. Ajoutez le sujet explosif de l’évolution du français à celui de la parité, vous avez là tous les ingrédients pour un débat à la française, où les symboles l’emportent sur les faits.

Sur ce blog consacré aux enjeux éthiques de la recherche en TAL, il me semble nécessaire de se focaliser uniquement sur des faits scientifiques qui peuvent éclairer le débat. La linguistique le peut-elle sur une question qui la concerne au premier chef ? Assurément, si les scientifiques parviennent à écarter tout a priori idéologique de leur analyse. Or, cela semble être rarement le cas, sans doute parce qu’il nous est difficile d’écarter toute passion sur un objet culturel qui nous définit intimement.

Langue et société : qui est l’œuf et qui est la poule ?

Prenons la question de savoir si la langue n’est que le reflet de la réalité sociale et qu’il est donc illusoire de vouloir la réformer par décret [Hagège 2017], ou si elle créée et véhicule des symboles qu’il convient de réformer pour lutter contre les stéréotypes genrés [Butler 1997]. La linguistique diachronique (i.e. qui s’intéressse à l’évolution de la langue) a été mise à contribution dans ce débat. Les réformistes favorables à l’écriture inclusive affirment ainsi que la règle d’accord selon laquelle le masculin l’emporte sur le féminin au pluriel (« Pierre et Marie sont amis ») n’est pas naturelle : il s’agirait d’une construction imposée aux XVIII° par volonté de domination masculine, alors que le latin comme le français jusqu’aux classiques tels Racine privilégiaient l’accord par proximité (« Pierre et Marie sont amies », accord au féminin car Marie est plus proche de l’adjectif). De nombreux faits tangibles sont évoqués pour appuyer cette analyse. On cite ainsi le grammairien Dominique Bouhours, qui écrit en 1675 que « lorsque les genres se rencontrent il faut que le plus noble l’emporte », le « genre masculin étant réputé plus noble que le féminin » selon son influent collègue Nicolas Beauze.

La démonstration n’est plus à faire de l’influence qu’ont eue les grammairiens [2] sur l’évolution du français. Toutefois, nous avons une connaissance trop imparfaite de l’usage réel de l’accord de proximité en français classique pour que la linguistique tranche ce débat. Dans un article récent (Télérama 3545-3546, pp. 67-69), Alain Rey affirme que l’accord de proximité fut peu utilisé en pratique, mais il ne détaille pas la nature des données sur lesquelles il forge cette observation : se base-t-il par exemple sur des actes de la vie administrative ou juridique quotidienne ? Pour défendre à l’opposé la réalité de l’accord par proximité, Eliane Viennot s’appuie quant à elle avant tout sur des œuvres littéraires telles que celles de Ronsard (Viennot 2017).

Le point médian : une introduction anodine ou un vrai facteur de risque ?

Ainsi, les réflexions linguistiques qui sont échangées sur l’écriture inclusive relèvent le plus souvent de l’argument d’autorité. Lorsque le point médian arrive dans le débat, nous ne sommes plus très loin du café du commerce (c’est à ce niveau que je range les arguments de type « esthétiques » sur cette forme écrite) ou de postures purement idéologiques. Tâchons donc d’étudier le point médian d’un point de vue purement objectif, en répondant à la question suivante : le point médian constitue-t-il un facteur de risque pour les individus ou la société ?

Suivant une approche éthique conséquentialiste, le point médian est un facteur de risque s’il est la cause d’un effet non attendu par rapport aux objectifs de son introduction [Lefeuvre-Haltermeyer et al. 2016]. Le point médian a pour objectif de participer à la réduction des stéréotypes genrés. Quelle pourrait être son influence à d’autres points de vue ? La réponse qui a été le plus souvent évoquée est celle des difficultés de lecture et d’apprentissage qu’entraîne son usage. Que peut nous dire la science, loin de tout parti pris partisan, sur ce sujet ?

Notons tout d’abord que cette question de facilité de lecture n’est pas anodine. L’ergonomie cognitive a en effet montré de longue date que des modifications de présentation mineures d’un texte écrit pouvaient avoir un effet sensible sur la qualité de lecture. Des expériences ont ainsi montré que la longueur idéale d’une ligne d’affichage dans une langue utilisant l’alphabet latin était de 60 caractères, et que, par exemple, réduire cette longueur de 33% ralentissait de 25% la vitesse de lecture [Duchnicky & Kolers 1983]. Burns et ses collègues (1986) montrent de même que les options de formatage des textes affichés sur un écran ont un impact sensible sur les performances (vitesse, erreurs) de lecture. Il en est de même de l’utilisation d’une police d’affichage avec ou sans empattement, ou du choix de la couleur d’impression [Götz 1998].

Ces exemples de facteurs influençant les performances de lectures ne concernent que des choix d’affichage assez anodins, à la différence de l’intégration d’un signe typographique tel que le point médian au sein même des mots. Il est donc raisonnable de poser que le point médian constitue un facteur de risque sur les activités de lecture. Reste à étudier sa criticité, c’est-à-dire l’importance réelle de l’impact de son usage, pour pouvoir trancher la question de son introduction dans la langue par une analyse de type coût / bénéfice.

Risque lié à l’usage du point médian : la psycholinguistique silencieuse…

A ma connaissance, seule une expérience suisse a tenté de mesurer l’impact de l’usage du point médian (ou du tiret) : elle concernait le cas très précis des noms de métiers rédigés en écriture inclusive (par exemple : instituteur·rice) au sein de textes complets [Gygax & Gesto 2007]. Cette étude montre un effet d’habituation très rapide, puisque le ralentissement de la lecture ne concerne que la première rencontre avec le nom de métier concerné. Il serait toutefois dangereux d’en généraliser trop rapidement ses conclusions :

– l’étude ne portait que sur les noms de métier, et non pas sur l’ensemble des dénominations concernant des personnes,

– les noms de personnes sont majoritairement formés avec un nombre restreint de suffixes (-é, –eur, –iste…) et ne mobilisent donc qu’un ensemble assez réduit de formes de rédaction en écriture inclusive.

– les sujets ayant participé à l’expérience étaient des adultes en possession de toutes leurs compétences langagières : les questions de l’apprentissage de la lecture, du handicap, dépassent la portée de cette étude.

Risque lié à l’usage du point médian : intuitions neurocognitives

Puisqu’aucune étude expérimentale n’a à ce jour quantifié globalement l’impact du point médian sur les activités de lecture, je propose de nous tourner vers les acquis des neurosciences cognitives. Les études sur les pathologies liées à la galaxie des troubles DYS (dyslexie, dysorthographie, etc.) nous éclairent sur les chemins cognitifs de la lecture [Crunelle 2008]. Deux voies cognitives de lectures parallèles (redondantes ou alternatives) sont mobilisées lors de l’activité de lecture :

– d’une part, une voie dite d’assemblage (ou phonologique), qui repose sur une segmentation graphémique suivie d’une conversion graphème-phonème : on passe de la lecture des caractères et de leur association à la reconnaissance des sons de base de la langue : les phonèmes puis les syllabes,

– d’autre part, une voie dite d’adressage (ou lexicale) qui consiste en un accès direct global aux mots écrits par accès à un lexique conservé en mémoire à long terme.

La voie lexicale est privilégiée pour la lecture des mots courants (mémorisés et facilement activables) ou à la prononciation irrégulière (comme pour people en anglais), puisque dans ce cas la conversion graphème-phonème est inopérante. La voie phonologique est-elle privilégiée lors de la découverte de nouveaux mots, puisqu’on tente alors de s’appuyer sur les règles de conversion graphème-phonème régulières de la langue. C’est donc la voie privilégiée de l’apprentissage de tous les mots à prononciation ordinaire.

Considérons la forme neutre du pronom pluriel ceux/celles telle que recommandée dans une écriture inclusive : ceux·lles. On voit immédiatement que le point médian casse complétement les possibilités de conversion graphème-phonème, puisque le suffixe ·lles qui est incomplet, n’est pas prononçable. Il en va de même d’une écriture moins compacte et pourtant guère plus prononçable ceux·elles. Bien entendu, par une gymnastique cérébrale peu naturelle, on doit pouvoir arriver à recomposer la bonne lecture du mot. A priori, la charge cognitive supplémentaire engendrée par cette opération ralentira la lecture. Ce calcul cognitif additionnel reste toutefois totalement inaccessible aux personnes atteintes d’une dyslexie phonologique. On peut imaginer également l’impact négatif de l’usage du point médian sur des jeunes en plein apprentissage de la lecture, puisque l’apprentissage privilégie cette voie cognitive en se basant sur des règles aussi régulières que possibles.

La seule alternative cognitive pour lire aisément la forme ceux·lles est d’en passer par la voie lexicale. Pour cela, il faut toutefois que la forme ceux·lles ait été intégrée dans le lexique phonologique. Donc que la personne ait déjà appris sa prononciation après forces lectures répétitives. Mis à part les mots grammaticaux très fréquents, cette solution n’est accessible qu’aux lecteurs et lectrices assidues. Du point de vue de l’apprentissage de la lecture, on risque donc de renforcer, par l’usage du point médian, les différenciations sociales entre personnes qui bénéficient d’un environnement favorisant la lecture et les autres. Les personnes qui souffrent de dyslexie de surface (atteinte de la voie d’adressage) ne peuvent par ailleurs se reposer sur cette solution.

Ces observations neuropsychologiques ne sont que des indications du risque lié à l’utilisation du point médian. Il conviendrait de mener des études expérimentales pour estimer précisément la criticité de cet impact négatif. Ces études semblent toutefois supporter l’idée qu’en cherchant à réduire les discriminations liées au genre dans la langue, on peut renforcer les discriminations d’accès à la lecture liées à des critères sociaux ou au handicap.

L’expérience de [Gygax & Gesto 2007] nous montre que, dans certains conditions favorables, l’écriture inclusive avec point médian ne gêne pas la lecture. Son usage dans certains écrits politiques, scientifiques ou professionnels, et sur certaines formes très régulières (é·e·s) pourrait être tolérée afin de rappeler à coût réduit l’importance de la question des stéréotypes genrés. Mais sa généralisation par décret me semble avoir un impact négatif trop important sur certaines populations fragiles pour être envisagée sans la mise en place d’études expérimentales préalables.

Ecriture inclusive : et si l’on quittait un débat franco-français ?

Alors, quelles solutions face aux discriminations de genre, mais aussi de classe sociale ou de handicap ? De mon point de vue, le problème est mal posé et le point médian n’est simplement pas le bon outil pour atteindre les objectifs énoncés par les réformistes favorables à l’écriture inclusive. Plutôt que de débattre stérilement comme jusqu’à présent, la France serait bien avisée de regarder du côté d’autres démarches amorcées depuis des décennies dans certains pays. L’article de Télérama déjà évoqué cite ainsi, en reprenant les propos du linguiste Wim Remysen (Université de Sherbrooke) l’exemple du Québec, qui a adopté sans remous des recommandations d’écriture à la fois moins genrées et fluides à la lecture. Plusieurs principes guident ces recommandations :

Favoriser l’utilisation de termes épicènes, c’est-à-dire qui peut être employé au masculin comme au féminin sans changer de forme, comme élève ou réformiste,
Ne pas utiliser le masculin générique,
Eviter la surabondance des formes masculines et féminines juxtaposées (les citoyens et les citoyennes),
Enfin, employer des termes neutres qui peuvent regrouper les deux genres (la communauté scientifique plutôt que les chercheurs et les chercheuses)

Ces recommandations vous paraissent trop lourdes et plus difficiles d’emploi que le point médian ? Relisez ce billet : il a été écrit en tentant de les respecter. Y avez-vous rencontré une difficulté de lecture, des lourdeurs terminologiques ou des stéréotypes genrés ? Non ? Dès lors, pourquoi recourir au point médian ? N’est-il pas le reflet d’une certaine paresse linguistique, là où outre-Atlantique, on joue avec sagacité avec le français pour le faire évoluer vers le reflet d’une société plus paritaire ?

[1] JO du 22 novembre 2017. Cette circulaire va au rebours des recommandations du Haut Conseil pour l’Egalité entre les Hommes et les Femmes

[2] Connaissez-vous des grammairiennes influentes ? Moi non, activité réservée à la gente masculine ?

References

Burns et al. (1986) Formatting space-related displays to optimize expert and non-expert performance, SIGCHI’86 Human Factors in Computer Systems, ACM, N-York, 275-280

Butler J. (1997) Excitable speech: a politics of the performative. New York: Routledge.

Crunelle D. (2008) Les dys … dyslexies et autres troubles. Recherches n° 49, Troubles du langage et apprentissages, 2008-2

Duchnicky, J. L., & Kolers, P. A. (1983). Readability of text scrolled on visual display terminals as a function of window size. Human Factors, 25, 683-692

Götz V. (1998) Color and type for the screen. Grey Press & Rotovision, Berlin, RFA

Gygax P., Gesto N. (2007) Féminisation et lourdeur de texte. L’année psychologique, 107, pp. 239-255.

Hagège C. (2017) Ce n’est pas la langue qui est sexiste, mais les comportements sociaux. Le Monde, 26 décembre 2017.

Lefeuvre-Halftermeyer A., Govaere V., Antoine J.-Y., Allegre W. , Pouplin S., Departe J.-P., Slimani S., Spagnulo S. (2016) Typologie des risques pour une analyse éthique de l’impact des technologies du TAL. Traitement Automatique des Langues, TAL, vol. 57 n° 2. pp. 47-71

Mayhew D.J. (1992) Principles and guidelines in software user interface design. Prentice-Hall

Luzzati D. (2010) Le français et son orthographe. Didier, Paris. ISBN 978-2-278-05846-4.

Marshall, J. C.; Newcombe, F. (1973) Patterns of paralexia: a psycholinguistic approach. Journal of Psycholinguistic Research. 2 (3): 175–99.

Viennot E. (2017) Non, le masculin ne l'emporte pas sur le féminin ! Petite histoire des résistances de la langue franaise (2nde édition augmentée). Editions. iXe