Des milliers de blancs et Timnit Gebru

Timnit Gebru a été virée de chez Google [1] . On s'en fiche ? C'est son problème ? En fait non... C'est mon problème, c'est notre problème... Je vais expliquer cela en utilisant ce qui se passe avec les 48000 étudiants, 9000 chercheurs ou enseignants chercheurs et 11000 personnels de l'université Paris-Saclay, mais loin de moi l'idée de stigmatiser. Je pense que mes propos s'appliquent à d'autres universités, à d'autres entreprises, que je ne connais pas.

Timnit Gebru et la reconnaissance faciale

Avant de travailler chez Google, Timnit Gebru a collaboré avec Joy Buolamwini au M.I.T. Media Lab sur la reconnaissance faciale. Leurs études [2] ont montré qu'il y avait plus d'erreurs chez les femmes que chez les hommes, et plus la peau est foncée, plus il y a d'erreurs [3]. Cela date de 2018, donc je vais supposer que les 9000 chercheurs et enseignants-chercheurs de l'université Paris Saclay sont tous au courant que la reconnaissance faciale est à bannir sur les visages de leurs 48000 étudiants, à moins que ceux-ci ne soient tous blancs. 

Dans une interview au New York Time [2],  Timnit Gebru explique que la police ne peut pas utiliser la reconnaissance faciale pour identifier des manifestants. Si l'IA leur dit qu'il y a une probabilité de 99% que ce personnage devant le saule du parc de la grande maison à Bures s'appelle Nisla, alors qu'ils sont convaincus que c'est Adela, ils risquent de suivre les conseils de l'IA et arrêter la mauvaise personne. 
Adela (personnage tiré de la vidéo "The Adoptees" de Sonia)

 Alors que la NASA ou le CNRS ont interdit l'utilisation de Zoom pour des raisons de sécurité informatique [4], alors qu'Europol a souligné une augmentation des cas de pédophilie depuis la pandémie, en particulier à cause de de sessions Zoom non protégées [12], l'université Paris Saclay a "acheté Zoom" et encourage donc les enseignants à l'utiliser (voir ajout du 9/12). Or un gadget de zoom, permet de changer l'arrière-plan, afin d'éviter que les interlocuteurs voient l'entropie qu'il y a chez soi. Au passage, cela implique que le logiciel soit capable d'analyser tout ce qu'il y a à la maison...

Au lieu d'afficher ça : 

Dessin Sonia Piotelat en 2018

On affiche ça :
Arrière plan dessiné par Sonia en 2011.

Or avec Zoom, certaines personnes de couleur ont eu la tête coupée [5]. Par exemple si l'image initiale est celle-là : 

L'algorithme de zoom a appris qu'un visage, c'était ce qu'il y avait de plus clair sur une image. L'a-t-il appris à partir de ses utilisateurs, qui sont pour la plupart des hommes blancs (par exemple parce que les femmes et les noirs désactivent la caméra) ? L'a-t-il appris en utilisant un algorithme de reconnaissance faciale développé par une autre société dont les données d'apprentissage ont aussi été biaisées comme l'a démontré Timnit Gebru [2] [3] ?


Outre les questions de cybersécurité (le fait que zoom espionne tout), les questions éthiques semblent bien plus importantes. 

Peut-on utiliser zoom entre chercheurs s'il n'y a que des mâles blancs ? 
Si dans telle promotion de master, il n'y a que 1% d'étudiants pas tout à fait blancs, est-ce que cela pose un problème ?
Si chez les jeunes en première année de licence (L1), il y en a 20%  pas tout à fait blancs, peut-on quand même utiliser Zoom ? Ils n'ont qu'à pas changer l'arrière plan ou désactiver la caméra...

Est-ce finalement éthique d'utiliser un tel logiciel quand on sait que certaines fonctionnalités ne sont utilisables que par certaines personnes ? 
Ne devrait-on pas interdire à tous de modifier l'arrière plan ? Oui, mais les jeunes filles qui n'ont pas envie d'inviter dans leur chambre les gars de leur promo n'éviteront-elles pas de suivre les cours quand ils auront lieu sur Zoom ? 

Et finalement, n'est-il pas préférable de mettre des œillères et d'ignorer totalement les travaux de Timnit Gebru ? Ah ? Les algorithmes de reconnaissance faciale n'ont été entraînés que sur des hommes blancs ? Je ne savais pas;.. 

Les 9000 chercheurs et enseignants-chercheurs de l'université Paris-Saclay ont-ils comme présupposé "Les 48000 étudiants sont majoritairement des mâles blancs, on peut utiliser Zoom" ? Et si oui, ont-ils raison ? Il n'y a pas de statistiques ethniques, donc peut-être qu'effectivement, l'utilisation de Zoom à l'université Paris-Saclay ne pose aucun problème éthique.  Mais dans ce cas, est-ce que le problème éthique ne serait pas le mono-chromatisme de l'université ? Par exemple, Sonia me disait que seuls ceux qui avaient fait prépa réussissaient en L1, et que c'étaient tous des garçons de milieu aisé. On ne peut pas traduire ça en incriminant une sélection raciste ou sexiste. Peut-être que les filles réussissent en prépa et ne se retrouvent pas en première année de L1 ? Peut-être aussi que c'est plus facile de réussir ses études quand on a de quoi manger et dormir sans avoir besoin de chercher un petit boulot ? 

Coût écologique et financier

Il semble y avoir plusieurs sujets de discorde entre Timnit Gebru et Google. Le principal est lié à l'écriture d'un article scientifique, pas encore publié mais dont le contenu est mentionné ici [6]. Tout d'abord, elle critique le coût écologique des recherches en intelligence artificielle de Google, alors que selon elle l'important est de réduire les coûts énergétiques, de réduire l'impact environnemental et un accès équitable aux ressources. 

L'université Paris Saclay multiplie les annonces de séminaires sur le développement soutenable, les sondages, invite le 9000 chercheurs, enseignants chercheurs, les 11000 autres personnels, les 48000 étudiants à faire des propositions, etc, etc... Mais quand on teste son site web avec un outil comme ecoindex.fr, on voit qu'entre le discours et la pratique, il y a un fossé : il obtient l'une des plus mauvaises notes possible (51000 sur 54000).  [7]  

Eco-index souligne que la page est trop lourde, la page est trop complexe, vous faites trop d'aller-retours avec le serveur. Quand on sait que pas mal d'étudiants n'ont pas accès à une connexion internet filaire ou au wifi, qu'ils utilisent souvent leur forfait téléphonique et la 4G pour télécharger des cours, on voit que le problème n'est pas qu'écologique. 

A titre de comparaison, le site http://www.sonia-piotelat.vip, qui comporte aussi, comme le site de l'université, du texte, des images, des vidéos, est classé "A"... 

Alors oui, on est loin des 284 tonnes équivalent CO2 de certains modèles de réseaux neuronaux utilisés par Google mentionnés dans l'article [6], mais on a la même absence de préoccupation des coûts écologiques de ce que l'on produit. Concevoir une page en html comme je l'ai fait sur le site en hommage à Sonia est bien plus simple que maîtriser le CMS Drupal utilisé par l'université Paris-Saclay et est à la portée de n'importe quel communiquant. 

Données de masse, modèle impénétrable

Les recherches en intelligence artificielle de Google portent sur des quantités de plus en plus importantes de textes pour entraîner les algorithmes, au point où certains chercheurs vont récupérer des données sur internet. Pour Timnit Gebru le risque d'avoir des IA racistes ou sexistes est important. 

Par exemple, sur la page d'accueil de l'université Paris-Saclay on lit  : 
L’Université Paris-Saclay offre aux étudiants des formations prestigieuses permettant d’accéder à un emploi et de valoriser leurs connaissances dans des secteurs scientifiques et économiques variés.
Une IA pourrait en déduire qu'il n'y a que des garçons à l'université Paris-Saclay, puisqu'elle n'offre rien aux étudiantes. En imaginant à terme que ces données soient utilisées par une autre IA pour sélectionner des dossiers à l'entrée de l'université, ne pourrait-elle pas éliminer les filles puisqu'elle a appris qu'il n'y avait que des étudiants ? Google ne pourrait-il pas ignorer l'existence de la faculté de droit puisque les formations prestigieuses ne permettent pas de trouver un emploi dans le secteur juridique ? 

Timnit Gebru souligne que le langage a joué un grand rôle dans les mouvements MeToo et Black Lives Matter. Or sur la masse de données, les termes utilisés par les activistes ne représentent pas un gros pourcentage. Ils pourraient donc être totalement ignorés par une IA. Quant à certains termes utilisés uniquement dans certains pays, comme la laïcité en France, ils pourraient disparaître totalement.

Et plus la masse de données est importante, plus il est compliqué d'opérer des vérifications. Par exemple comment savoir si l'IA qui trie les dossiers et élimine les étudiantes l'a fait à cause de la page d'accueil de l'université ou à partir d'autres informations, comme la reconnaissance faciale des visages majoritairement blancs et masculins dans Zoom ? 

Actuellement, les modèles d'intelligence artificielle ne comprennent pas ce qu'ils analysent. Par exemple, si je prends le premier épisode des la fan fiction de Sonia "The Adoptees" [8], le texte est le suivant  :
Adela was seeking for her adoptive parents. She began to search at the librairy where her father Callum use to study sky magic. She then saw a white haired boy hiding in the corner behind a bookshell.
Nisla was training with her adoptive dad. "You're dead" said Nisla defeating him for the second time of the day.
- Listen Nisla, said Soren sadly, I won't train you anymore.
La traduction de Google, n'est pas trop mauvaise : 
Adela cherchait ses parents adoptifs. Elle a commencé à fouiller dans la bibliothèque où son père Callum avait l'habitude d'étudier la magie du ciel. Elle a ensuite vu un garçon aux cheveux blancs se cacher dans un coin derrière une bibliothèque.

Nisla s'entraînait avec son père adoptif. "Vous êtes mort", a déclaré Nisla en le battant  pour la deuxième fois de la journée.
Mais Google ne sait pas si le prénom Callum utilisé dans cette fiction correspond au personnage de la série "The Dragon Prince". Une recherche sur son moteur, me renvoie d'abord sur des sites idiots (genre magic maman) qui déduisent la personnalité d'un enfant à partir de son prénom. Le personnage du dessin animé apparaît en premier dans les images.  



Même si les algorithmes ne comprennent pas le langage, ils le manipulent. Par exemple  le fait de traduire "You're dead" par "Vous êtes mort" et non "Tu es mort" implique une relation plus distante, moins ludique entre les deux personnages. 

Un étudiant a pu créer un blog et laisser une IA le remplir de conseils pour améliorer sa productivité ou sa personnalité sans que personne ne s'en rende compte. Un palestinien qui a écrit "bonjour" en arabe sur Facebook a été arrêté après que cela ait été traduit par "attaquez-les" en hébreu. [2] [6]

Regardons où nous allons

Le but de l'article que  Timnit Gebru a écrit avec 6 autres personnes, dont 4 de Google est d'alerter sur l'urgence de faire un pas en arrière et de regarder les inconvénients possibles de la recherche actuelle en traitement automatique de la langue. Google manipule tellement de données, que personne ne contrôle plus ce qui est utilisé. 

Le fait que sa publication ait été censurée par Google alors qu'il n'y avait aucune donnée sensible, le fait que  Timnit Gebru ait été renvoyée, peut avoir des conséquences ici en France, avec la reconnaissance faciale que beaucoup aimeraient utiliser et des lois contre la haine en ligne. Par exemple "Vous êtes mort" pourrait être censuré, alors qu'il ne s'agit que d'une fiction d'une adolescente qui s'entraîne à l'épée avec son père. 

A l'heure actuelle, 1534 Googlers, 2196 universitaires, industriels ou civils ont apporté leur soutien à Timnit Gebru. On ne trouve pas encore la prestigieuse université, 14ième au classement de Shanghai dans les affiliations des signataires. Nulle doute que ça ne saurait tarder...  [9]

Ajout le 8/12 à 21h (Merci Fabrice) : 



Ajout le 9/12 à 14h : 


Sur Twitter, Sylvie Pommier, vice-présidente de l'université Paris-Saclay, a réagit ainsi à ce billet de blog  [10]: 



Madame Pommier précise ensuite que chacun fait comme il veut, un enseignant est donc libre d'acheter une licence Zoom et d'utiliser le logiciel coupant certaines têtes au détriment de la vie privée des étudiants. Si Zoom n'est pas interdit à l'université Paris Saclay contrairement au CNRS, l'utilisation de BBcollaborate est recommandée pour des soutenances de thèses [11].

  1. J Lausson, Google se sépare d’une chercheuse spécialiste des biais de l’IA : que s’est-il passé ?, Numerama, 12/2020.
  2. S. Ovide, A Case for Banning Facial Recognition, New York Time, 06/2020.
  3. http://gendershades.org/
  4. G. Avoine, La visioconférence, 14e défi de la cybersécurité ?, Journal du CNRS, 08/2020
  5. Tweet de Colin Madland
  6. K. Hao, "We read the paper that forced Timnit Gebru out of Google. Here’s what it says" , Mit Technology Review. 
  7. Ecoindex pour l'université Paris Saclay
  8. S. Piotelat, The Adoptees
  9. Standing with Dr. Timnit Gebru — #ISupportTimnit #BelieveBlackWomen
  10. Tweet de Lê Nguyên Hoang demandant à Cédric Villanti de prendre position (et échanges avec Sylvie Pommier en-dessous).
  11. Consignes et recommandations relatives à l'usage de la visio-conférence pour les soutenances de doctorat
  12. How COVID-19-related crime infected Europe during 2020, Europol

Commentaires

Emmanuelle a dit…
Amusant comme l'IA est biaisée par les personnes qui l'implémentent... et comme certaines firmes ne supportent pas la critique...
L'autre jour, invitée à une réunion Zoom par un collègue, j'ai essayé de flouter le fond (pas envie qu'on voie ma maison)... je me suis retrouvée sans cheveux : pas assez de contraste entre eux et l'arrière-plan...
Quand j'ai cours, je demande aux élèves de ne pas activer leur caméra ni leur micro et de poser les questions via le chat (ou de lever la main s'ils sont sur mobile)... cela permet aussi d'alléger le flux afin que même celles et ceux qui ont une connexion pourrie arrivent à suivre... j'ignorais d'ailleurs avoir accès à zoom pour mes cours (de toute façon, un outil qui me balance que mon mobile est trop obsolète ne m'intéresse pas)
En réunion, je n'active pas systématiquement la caméra, et quand je le fais, ce n'est généralement que les 5 premières minutes, pour dire bonjour...
Elisabeth a dit…
Si tu avais eu les cheveux blancs (ou blonds) y'aurait-il eu assez de contraste ?
Je vais commencer à faire des statistiques pour savoir quelle proportions de filles / garçons activent leurs caméras tout au long des réunions. Le résultat risque d'être drôle...
Anonyme a dit…
Coucou Zabeth,
J'ai été au courant de l'info grâce à Lê : https://www.youtube.com/watch?v=Ddr-BZ9W180
et j'ai vu que tu avais signé la pétition de soutien à Gebru (je viens d'envoyer un e-mail pour la signer aussi).
Oui, c'est un problème super important (c'est même le sujet de l'habilitation à diriger les recherches que je rédige en ce moment !).
Bises,
Fabrice M.