Les intelligences artificielles peuvent avoir les mêmes biais que les humains
Pour mieux comprendre le lien entre les stéréotypes et l'intelligence artificielle, il suffit de faire une recherche sur Google images. Vous tapez d'abord le mot "hommes", au pluriel. Apparaissent alors les portraits d'hommes qui sont, pour la très large majorité d'entre eux, jeunes, blancs, aux cheveux sombres coupés courts et plutôt bien mis. Ensuite vous tapez le mot "femmes". Et vous obtenez une série de femmes en majorité jeunes et blanches et... largement dénudées. Dans les deux cas, les images renvoient à des stéréotypes.
Coïncidences et incidents
Ca pourrait être une coïncidence, mais les incidents et autres exemples sont nombreux. L'année dernière aux Etats-Unis, un concours de beauté a été organisé où l'intelligence artificielle était seule juge. Résultat: les femmes blanches l'emportent, les femmes de couleurs n'ont que peu de chance. Les conséquences ne sont pas très graves, s'agissant, au fond, d'une affaire d'alignements de pixels, mais il existe des situations dans lesquelles les algorithmes doivent déterminer si les délinquants sont susceptibles de récidiver.
Là aussi l'intelligence artificielle est biaisée, jugeant les noirs bien plus à risque que les blancs. Et dans ces cas, les conséquences peuvent bien sûr être graves.
L'intelligence artificielle, des préjugés racistes ?
Les algorithmes sont créés et entraînés par des humains, par les membres d'une société qui sont eux-mêmes biaisés, dépendants d'éléments subjectifs, de représentations. Pour Martin Jaggi, professeur assistant à l'EPFL, il ne s'agit pas simplement d'algorithmes mathématiques, mais d'algorithmes soutenus par des données. "Ces données sont le problème, parce qu'elles sont produites par des humains. Ces algorithmes imitent l'humain en reprenant les caractéristiques des données qui servent à les entraîner, à les former", précise-t-il au micro de la RTS.
Pour comprendre un algorithme, il faut saisir le fait que la majorité des systèmes d'intelligence artificielle sont formés par un ensemble de données qui sont elles-mêmes labellisées par les humains. Michel Jaggi explique que les groupes technologiques emploient de nombreuses sources, comme Wikipédia par exemple, pour extraire des images et les descriptions correspondantes.
L'algorithme, mode d'emploi
"L'algorithme qui en résulte, soutenu par ces données d'entraînement, servira dans une recherche Google. Il vous donnera un résultat si vous faites une recherche sous "gorille" par exemple. Puis viennent les choix retenus par les internautes, qui confirmeront et renforceront ces sélections", rajoute-t-il.
En d'autres mots, pour que la machine identifie une fleur, il faut montrer à l'intelligence artificielle des images de fleurs. Des images sur lesquelles la fleur est déjà labellisée, classée comme fleur. Sauf qu'une fleur n'est pas juste une fleur. Ca peut être une rose, une marguerite, une tulipe. Tout ça, l'intelligence artificielle doit l'apprendre, il faut lui montrer des données, des exemples qui contiennent ces différentes variétés de fleurs, avec leurs formes et leurs couleurs.
Et l'humain dans tout ça ?
La machine apprend à reconnaître une femme en fonction des exemples qu'on lui donne, des images qu'on utilise pour lui apprendre à identifier une femme. Si on n'utilise que peu d'images de femmes noires, asiatiques, rondes, plus âgées ou totalement vêtues pour former la machine, l'intelligence artificielle ne nous proposera qu'un rayon très limité d'images. L'intelligence artificielle ne fait que refléter ce qu'on lui apprend. Et si on lui apprend qu'un homme est d'abord jeune, beau, les cheveux courts et foncés, elle sera incapable de nous montrer autre chose que le reflet de nos propres stéréotypes.
Katja Schaer/mcc