Publié

L'IA peut répondre correctement à 85% des questions de tests universitaires

Eine Frau benuetzt ChatGPT mit einem Computer, fotografiert am Donnerstag, 30. Maerz 2023 in Bern. Die kuenstliche Intelligenz ChatGPT wurde entwickelt um Benutzern das Erstellen von natuerlich klingenden Konversationen in Echtzeit in Form eines Chatbots zu ermoeglichen. (KEYSTONE/Christian Beutler) [Keystone - Christian Beutler]
L'IA est très performante dans les évaluations universitaires / Le Journal horaire / 26 sec. / le 29 novembre 2024
Une étude de l'EPFL publiée dans la revue américaine PNAS a testé des systèmes comme ChatGPT pour répondre à des évaluations universitaires. L'IA peut fournir 85% de réponses correctes, si elle est renseignée au préalable. Si l’étude était relancée aujourd’hui, ce chiffre serait encore plus élevé.

En se concentrant sur GPT-3.5 et GPT-4, les scientifiques ont utilisé huit stratégies différentes pour produire des réponses. Ils ont constaté que GPT-4 répondait correctement en moyenne à 65,8% des questions et pouvait même fournir la bonne réponse dans au moins une stratégie pour 85,1% des questions.

Plus précisément, 65% de réponses correctes ont été obtenues à l’aide de la stratégie la plus élémentaire, sans connaissances préalables. "Avec une certaine connaissance du sujet, il a été possible d’atteindre un taux de réussite de 85%", indique Anna Sotnikova, co-auteure de l’article.

>> Lire aussi : Les universités mettent peu à peu en place des règles du jeu face à l'IA

Les chercheurs "choqués" par ces résultats

Le taux de réponses correctes de 85% "a vraiment été un choc", avoue Anna Sotnikova. "Nous avons été surpris par les résultats. Personne ne s’attendait à ce que les assistants IA obtiennent un pourcentage aussi élevé de bonnes réponses dans autant de cours", poursuit la chercheuse.

Les assistants IA ne vont pas empirer, ils vont seulement s’améliorer. La conclusion des scientifiques est que si l’étude était relancée aujourd’hui, les chiffres seraient encore plus élevés.

50 cours étudiés

Dans leur étude, les scientifiques de la Faculté informatique et communications se sont penchés sur 50 cours de l'EPFL afin de mesurer les performances actuelles de ces grands modèles de langage (LLM) dans les évaluations de cours de l’enseignement supérieur. Les cours qui ont été sélectionnés font partie de neuf programmes en ligne, de Bachelor et de Master, et couvrent un vaste ensemble de disciplines, dont l’informatique, les mathématiques, la biologie, la chimie, la physique et la science des matériaux.

"Ces données ont été rassemblées dans un format qui, selon nous, ressemblerait le plus à la manière dont les étudiants communiqueraient ces informations aux modèles", explique Antoine Bosselut, professeur assistant et membre du Centre IA de l'EPFL, cité dans le communiqué.

Adapter l’éducation

"À court terme, nous devrions insister pour que les évaluations soient plus difficiles, non pas dans le sens de la difficulté des questions, mais dans le sens de la complexité de l’évaluation elle-même", suggère Antoine Bosselut. À plus long terme, il est clair que les systèmes éducatifs devront s’adapter, selon les chercheurs.

"Ce n’est que le début et je pense qu’on peut faire une analogie entre les LLM actuels et les calculatrices. Lorsqu’elles ont été introduites, il y avait les mêmes inquiétudes quant au fait que les enfants n’apprendraient plus les mathématiques", relève Beatriz Borges, co-auteure de cette recherche.

"Aujourd’hui, dans les premières phases de l’éducation, les calculatrices ne sont généralement pas autorisées, mais à partir des degrés supérieurs, elles sont présentes, pour effectuer les tâches de niveau inférieur pendant que les étudiants acquièrent des compétences plus avancées", conclut la chercheuse.

lia avec ats

Publié