L’appétit des modèles de langage d’intelligence artificielle générative est énorme. Chaque jour, ils ingurgitent une multitude de données afin de s’entraîner. Le rapport annuel de l’Université de Stanford sur l’intelligence artificielle révèle que ces modèles pourraient se retrouver à court de cette "nourriture numérique" dans les années à venir.
La quantité de données disponibles sur internet augmente actuellement d'environ 7% par an. La quantité de données sur lesquelles l'intelligence artificielle s’entraîne augmente, elle, de 200% par an. Selon le rapport, les grands modèles de langage auront donc ingurgité toutes les données disponibles en ligne d’ici six ans.
Les entreprises trouvent des subterfuges
Pour pallier ce problème, les chercheurs de l'OpenAI ont donc créé un outil de reconnaissance vocale. Nommé Whisper, il est capable de retranscrire l'audio de vidéos YouTube et de produire un nouveau texte conversationnel. La maison mère de ChatGPT a ainsi dérobé, sans respecter le droit d'auteur, les données d’un million d’heures de vidéos pour nourrir et entraîner son modèle.
L’an dernier, Google a changé ses conditions d’utilisation afin de pouvoir exploiter librement les documents Google Docs accessibles au public et les évaluations des restaurants sur Google Maps.
Chez Meta, qui possède Facebook et Instagram, des responsables ont envisagé, l'an dernier, d'acquérir la maison d'édition Simon & Schuster dans le but d'obtenir le contenu d'œuvres longues. Ces discussions ont été révélées par le New York Times qui a obtenu des enregistrements de réunions internes. Elles incluaient des échanges sur la collecte de données protégées par le droit d'auteur sur internet, quitte à risquer des procès.
Des coûts d’exercice exorbitants
En plus de ce manque à venir de données, le rapport de l’Université de Stanford évoque l’explosion des coûts de formation et d’entraînement des modèles de langage d'intelligence artificielle.
L’an dernier, les frais pour le modèle de langage GPT 4 d’OpenAI s’élevaient à plus de 70 millions de francs, contre 170 millions pour Gemini Ultra de Google. Ces coûts importants s'expliquent par la hausse des coûts des ressources telles que les données, l’ingénierie et les systèmes informatiques ces dernières années.
Une solution risquée
En cas de pénurie d'informations, les entreprises technologiques devront trouver de nouvelles sources de données. La tentation de former les modèles avec des résultats générés par l'IA elle-même est grande. Mais cette méthode est risquée et peu fiable, car les modèles ont tendance à halluciner et à mentir. Ces erreurs sont ensuite transmises, répétées et multipliées.
L'an dernier, des informaticiens ont montré comment un modèle de langage, publié par Meta en 2022, s'est dégradé après avoir été formé à plusieurs reprises sur des données créées par des intelligences artificielles.
Miruna Coca-Cozma/msa