Le sondage réalisé à l’occasion de la journée ETERNAL (Ethique et Traitement Automatique des Langues) fait apparaître, parmi les commentaires produits par les participants à cette enquête la réaction suivante :
Beaucoup de chercheurs se servent des données glanées sur le web sans vérifier au préalable les droit d’utilisation de ces données. Cela peut poser problème si les données collectées massivement contiennent des données personnelles et sont redistribuées à d’autres chercheurs comme outil de travail.
Il est louable de s’interroger sur l’esprit de la loi (en l’occurrence de la licence d’utilisation), qui permet ou interdit certaines choses pour de bonnes raisons (éthiques), il n’en est pas moins obligatoire d’en respecter la lettre, quelles que soient les raisons : ça n’est pas seulement s’il y a des données personnelles que ça peut poser un problème. Le problème est d’aller à l’encontre de la licence. C’est interdit, même. Et l’éthique commence avant tout par un respect de la loi.
La citation ci-dessus est caractéristique d’un état d’esprit de certains chercheurs que l’on peut résumer par « oui, mais moi c’est pour la recherche, donc la licence ne s’applique pas à mes travaux ». Etonnant état d’esprit, si on creuse un peu : jusqu’où pousse-t-on l’exception si l’on est soi-même juge de ce qui est bon de ne pas appliquer ? D’autant que de réelles exceptions, encadrées et clairement définies, existent pour la recherche et que d’autres sont en préparation dans la loi Lemaire. Mais rien qui passe par l’auto-désignation (!).
Prenons par exemple le site doctissimo.fr, source de nombreuses analyses en TAL. La licence d’usage précise, entre autres qu’il « est interdit de procéder à une extraction qualitativement ou quantitativement substantielle des bases de données mises en ligne sur le site ». J’en conclus donc que le TP de master 1 TAL consistant à compter le nombre de pronoms personnels utilisés sur les forums doctissimo est interdit. On n’a pas le droit. Compréhensible ou pas, c’est la règle.
Notons par ailleurs que, de mon expérience, les industriels sont plus enclins à respecter ce type de règles que les scientifiques. Oh, non pas qu’ils soient plus vertueux, loin de là, mais ils savent le dommage que peut leur infliger la révélation publique d’une infraction à la loi, par un concurrent mesquin, par exemple. Et c’est à mon sens l’un des leviers qui peut permettre l’avancée dans les fait d’une certaine éthique. Mais je reviendrai probablement sur le sujet dans un autre post.
Le caractère inapproprié d’une règle est souvent l’excuse que l’on rencontre pour ne pas l’appliquer. La prétendue « exception scientifique » en est un exemple, mais elle n’est pas seule et à cette aune, chacun peut se trouver ses propres arguments pour ne pas s’y conformer.
J’ai par exemple entendu dire que la loi Informatique et Liberté était inappropriée et donc inapplicable, avec force arguments, entre autres à cette même journée ETERNAL. Le premier des griefs fait à cette loi était fait qu’elle se base sur une notion de croisement de fichiers alors qu’à l’heure du Big Data, on ne parle plus que de données. La belle affaire ! Le glissement lexical ne vaut pas invalidation du concept.
Autre grief, plus sur le fond, celui-là : la loi Informatique et Liberté partirait du principe que les données collectées ou agrégées le sont dans un but précis, alors qu’à l’heure du Big Data, on collecte à tout va, on mouline les données avec des outils à la mode (Hadoop, Spark, R, …) et on voit ce qu’on peut en déduire. Il serait donc impossible de savoir a priori pourquoi on demande des informations aux individus et, partant, impossible de leur demander leur consentement. Là encore, l’argument est spécieux. Si l’on tient vraiment à corréler tout avec n’importe quoi, on peut jouer, comme le montre le site « spurious correlations », à croiser les dépenses US pour l’espace, la science et la technologie avec le nombre de suicides par pendaison et trouver un taux de corrélation supérieur à 99%.
Non, quand on croise des données, c’est toujours dans un but précis. Savoir quel type de programme télé les adolescents très présents sur les réseaux sociaux sont prêts à consommer, pourra être l’objet d’un étude de positionnement d’une chaîne de télévision. Il est alors très simple de vérifier que les données qui permettent de faire ces croisements autorisent bien de tels traitements, la première autorisation étant le consentement donné par les individus qui ont fourni l’accès à leurs informations personnelles. C’est bien là l’esprit de la loi Informatique et Liberté : vérifier le consentement. Qu’il soit donné pour des lignes dans une base de données hiérarchique ou pour des « data » en JSON n’est qu’un détail de mise en œuvre.
Je ne veux pas dire que la loi Informatique et Liberté est parfaite, loin de là. Elle doit clairement évoluer sur certains points, s’étendre à tous les domaines, et le peu de moyens donnés à la CNIL ne l’aide pas à faire d’évolutions majeures. Mais elle demeure un socle solide de protection des individus. La contourner par une paresse intellectuelle qui se cacherait derrière une désobéissance civile est l’un des pires moyens d’action. Si on veut faire évoluer cette loi, il faut avancer avec des propositions claires et respectueuses des libertés individuelles, pas masqué derrière sa propre supériorité face au règlement, qui que l’on soit.
Merci pour ce rappel à l’ordre et cette défense de notre bonne vieille loi I&L, Hugues. Au cours de l’atelier EterNAL, nous avons justement entendu qu’une directive européenne allait automatiquement vider la loi de son contenu. Pas sûr que nos représentants français soient très présents pour défendre auprès de la commission une évolution vers le « mieux-contraignant » de la réglementation européenne. Quelqu’un est-il au courant d’un pointeur vers les travaux de l’UE sur le sujet ? La Quadrature du Net , ma source habituelle d’information sur le sujet, n’en a jamais parlé à ma connaissance…