L'étrange marché des images d'entraînement pour intelligence artificielle

L’intelligence artificielle se libéralise, c’est même la grande mode marketing du moment. Mais ces IA, il faut d'abord les fabriquer, puis les entraîner à l’aide d’énormes bases de données. Ce marché-là est en plein essor.

Chaque mois de janvier à Las Vegas, au Consumer Electronics Show (CES), les marques dévoilent leurs dernières innovations. Cette année a fait la part belle aux caméras intégrées dans l'électroménager. On en retrouve même dans les endroits les plus insolites, comme dans un four. Il est ainsi possible, par exemple, de diffuser la cuisson de son poulet en direct sur internet.

Derrière ce type d'innovation se cache aussi une nouvelle façon de créer de la valeur. Les entreprises constituent ainsi d'énormes bases de données de photos pour entraîner les intelligences artificielles, des bases de données qu'elles peuvent ensuite revendre.

Ce marché est en pleine croissance car les intelligences artificielles ont besoin d'être nourries pour devenir efficaces. Pour qu'un ordinateur apprenne à reconnaître un poulet cuit, il doit d'abord voir passer des milliers de photos de poulet. Plus il en voit, plus il peut les reconnaître. Ces bases de données, nommées "datasets" en anglais, sont vendues à prix élevé, car certaines entreprises ont besoin d'aller vite pour sortir de nouveaux produits.

Les prix s'envolent

Pendant la pandémie, il a fallu rapidement permettre aux algorithmes de reconnaître des personnes portant un masque. L'agence de photo japonaise Pixta a su profiter de l'occasion. Elle a créé des ensembles de 1000 photos de personnes masquées, qu'elle a ensuite vendues pour 1300 francs. Certains développeurs ont acheté plus de 10 packs à la fois, selon le quotidien japonais Asahi shinbun.

Les prix de ces bases de données sont très variables et très spécifiques. Par exemple, pour 25'000 images de maïs malade, il faut compter 50'000 francs. Elles serviront à détecter des maladies dans les champs. Si vous cherchez des voitures accidentées, cela vous coûtera 1000 francs pour 200'000 images.

Les prix varient également selon que l'image a été annotée ou non, car la description de ce qui figure sur l'image est importante. "Si les images ne sont pas annotées, l'algorithme ne sait pas forcément quoi en faire", explique Mathieu Salzmann, chercheur à l'EPFL et spécialiste de la reconnaissance d'objets par une intelligence artificielle.

"Si on ne décrit pas l'image, l'algorithme ne sait pas ce qu'il doit prédire pour cette image spécifiquement. Les annotations permettent à l'algorithme de vérifier qu'il fait des prédictions correctes".

Des étiquettes qui valent de l'or

Les entreprises spécialisées dans l'étiquetage se multiplient. Et c'est grâce à l'une d'elles, Scale AI, que l'on a pu saisir l'ampleur de ce travail, notamment avec les photos prises par la caméra placée sur le robot aspirateur Roomba d'Amazon.

Scale AI était chargée d'annoter les images capturées par le robot. Son objectif était de créer d'énormes bases de données, avec des visages, des meubles ou de la décoration. Problème: les employés ont partagé des photos qui se sont finalement retrouvées sur Facebook.

>> Lire à ce sujet : Les photos intimes d'une femme prises par son aspirateur Roomba se retrouvent sur Facebook

Des maisons de testeurs volontaires ont été scannées de fond en comble par l'aspirateur. On parle de 2 millions d'images, qui pourront servir à perfectionner l'appareil, à en développer d'autres ou simplement à être vendues. Pour les développeurs, il s'agit d'une nouvelle source de revenus.

La prolifération des caméras et l'utilisation de l'intelligence artificielle soulèvent également de nouvelles préoccupations: à qui appartiennent les images? Comment sont-elles collectées, stockées et utilisées? Les affaires se multiplient.

Polémiques à répétition

Getty Images, l'une des plus grandes banques d'images au monde, accuse Stable Diffusion d'avoir utilisé illégalement 12 millions de photos pour entraîner son intelligence artificielle qui crée des images à partir de texte.

Polémique aussi autour de la base de données Clearview, qui sert à la reconnaissance faciale, avec un giga dataset de 10 milliards de visages, collectés pour la plupart sans le consentement des utilisateurs. Pour éviter un procès, Clearview a dû renoncer à vendre sa base de données aux États-Unis.

>> Lire à ce sujet : La start-up de reconnaissance faciale Clearview ne vendra plus ses visages aux privés américains

Pourtant, il existe un cadre légal et des recommandations, mais le contrôle est difficile à mettre en place pour des bases de données toujours plus grandes qui comptent parfois des millions de fichiers. Les textes sont une chose, la mise en application une autre.

"On constate, dans certains États, qu'il n'y a pas suffisamment de ressources à disposition pour véritablement intervenir sur tous les fronts", a analysé lundi dans La Matinale de la RTS le commissaire à la protection des données du Conseil de l'Europe Jean-Philippe Walter.

Toutefois, depuis octobre dernier, il existe un label européen pour la protection des données. La certification Europrivacy peut s'appliquer aux bases de données qui entraînent les intelligences artificielles. Mais pour l'heure, elle se fait sur une base volontaire.

Pascal Wassmer

Publié le 27 février 2023 à 17:50 Modifié le 28 février 2023 à 14:41

Découvrir plus

S'informer

S'informer

Approfondir

Se divertir

Enfants et jeunes

Découvrir plus

S'informer

S'informer

Approfondir

Se divertir

Enfants et jeunes

TV & Streaming

Audio

Portail audio

L'info

L'étrange marché des images d'entraînement pour intelligence artificielle

Les prix s'envolent

Des étiquettes qui valent de l'or

Polémiques à répétition