L'intelligence artificielle, nouvelle menace pour l'intégrité de Wikipédia

L'encyclopédie collaborative en ligne fait face à une multiplication d'articles créés artificiellement par des robots conversationnels. Face à cette menace pour la fiabilité de l'information, les équipes de modération de Wikipédia développent de nouvelles stratégies de détection et de vérification des contenus suspects.

C'est une bataille silencieuse qui se joue dans les coulisses de la plus grande encyclopédie collaborative en ligne. L'essor des intelligences artificielles génératives (IAG) place Wikipédia face à un défi majeur. Désormais, le site doit faire face à une multiplication d'articles entièrement créés ou partiellement modifiés par des robots conversationnels comme ChatGPT. En jeu, la fiabilité de l'information.

Sur la seule version anglophone de Wikipédia, le rythme est vertigineux: une nouvelle page est créée chaque minute. Dans ce flux continu de contributions, les équipes de l'encyclopédie détectent quotidiennement des dizaines de textes et de photos générés artificiellement. Une situation qui a poussé les contributeurs à créer des brigades spécialisées, comme le "WikiProject AI Cleanup", chargées de traquer ces contenus suspects.

L'affaire Amberlisihar : quand l'IA invente une forteresse fantôme

L'affaire de la forteresse d'Amberlisihar illustre parfaitement l'ampleur du problème. Pendant près d'un an, les lecteurs de Wikipédia ont pu découvrir l'histoire détaillée de cette forteresse ottomane vieille de 600 ans. L'article, rédigé sur plus de 2000 mots, décrivait avec précision ses batailles historiques et ses multiples rénovations, le tout étayé par des références apparemment solides.

L'intelligence artificielle invente régulièrement des références qui n'existent pas, rendant la vérification particulièrement complexe

Ilyas Lebleu, cofondateur du projet de nettoyage WikiProject AI Cleanup

Une documentation impressionnante, à un détail près: la forteresse n'a jamais existé. L'ensemble avait été généré par une intelligence artificielle, qui avait habilement mêlé fiction et personnages historiques réels pour donner à son récit une apparence de véracité.

"Le véritable problème avec ChatGPT réside dans son rapport aux sources", analyse Ilyas Lebleu, l'un des fondateurs du projet de nettoyage WikiProject AI Cleanup. "L'intelligence artificielle invente régulièrement des références qui n'existent pas, rendant la vérification particulièrement complexe. Comment différencier un ouvrage ancien authentique mais rare d'une source entièrement fabriquée?" Une question d'autant plus cruciale que les contributions problématiques ne se limitent pas à la création d'articles fictifs.

L'expertise des bénévoles face aux marqueurs de l'IA

Les équipes de modération ont ainsi découvert de nombreux cas d'enrichissements approximatifs d'articles existants. Ilyas Lebleu cite l'exemple révélateur d'un village iranien: "ChatGPT avait ajouté une description bucolique d'un village agricole et pittoresque. Or, la réalité géographique était tout autre: la localité se trouve au cœur d'une zone montagneuse désertique." Cette tendance de l'IA à générer des descriptions standardisées, sans prise en compte du contexte réel, pose un défi majeur à l'encyclopédie.

Face à cette menace, les équipes bénévoles de Wikipédia ont développé une expertise linguistique pointue. Elles ont notamment identifié des marqueurs stylistiques caractéristiques des textes générés par IA. "Certaines expressions, comme 'riche héritage culturel', trop subjectives pour une encyclopédie, reviennent de manière récurrente dans les productions artificielles", explique Ilyas Lebleu.

Il y a bien sûr les créateurs volontaires de désinformation, mais aussi des utilisateurs de bonne foi. "Ce sont souvent des gens qui ne sont pas très informés de comment fonctionne Wikipédia et qui, voyant quelque chose qui génère du contenu, se disent que c'est parfait pour étendre l'encyclopédie", explique Ilyas Lebleu, tout en soulignant le revers de la médaille. "Avec ChatGPT, on peut générer dix articles en dix minutes, mais dans ces articles, il y aura probablement des dizaines, des centaines d'erreurs, d'approximations, de fausses citations qui devront être nettoyées."

Une communauté divisée sur l'utilisation des IAG

Sur Wikipédia, le débat fait rage autour de l'intelligence artificielle. La communauté de l'encyclopédie en ligne se divise sur l'utilisation des textes créés par des robots. Trois positions s'affrontent. D'un côté, les puristes réclament une interdiction pure et simple. De l'autre, les modérés proposent simplement de signaler les contenus générés par l'IA. Entre les deux, certains contributeurs doutent qu'on puisse vraiment contrôler ces textes artificiels.

L'intelligence artificielle ne fait qu'amplifier un problème préexistant: la circulation massive et incontrôlée d'informations non vérifiées sur Internet

Thomas Huchon, journaliste spécialisé dans l'étude de la désinformation

En attendant de trouver un accord, Wikipédia rejette la grande majorité des textes créés par l'IA. La raison est simple: ces contenus ne permettent pas de vérifier leurs sources, une règle d'or de l'encyclopédie.

L'enjeu crucial de la vérification des sources

Ce phénomène révèle une problématique plus large. L'absence de régulation efficace de l'information en ligne. "L'intelligence artificielle ne fait qu'amplifier un problème préexistant: la circulation massive et incontrôlée d'informations non vérifiées sur Internet", souligne Thomas Huchon, journaliste spécialisé dans l'étude de la désinformation.

En attendant une régulation des IA génératives, les experts recommandent aux lecteurs d’être plus vigilants. Il s’agit notamment de vérifier systématiquement les sources citées en bas de page. Un grand nombre de sources vérifiées indique généralement une information plus sûre.

Pascal Wassmer

Publié le 3 novembre 2024 à 07:33

Découvrir plus

S'informer

S'informer

Approfondir

Se divertir

Enfants et jeunes

Découvrir plus

S'informer

S'informer

Approfondir

Se divertir

Enfants et jeunes

TV & Streaming

Audio

Portail audio

L'info

L'intelligence artificielle, nouvelle menace pour l'intégrité de Wikipédia

L'affaire Amberlisihar : quand l'IA invente une forteresse fantôme

L'expertise des bénévoles face aux marqueurs de l'IA

Une communauté divisée sur l'utilisation des IAG

L'enjeu crucial de la vérification des sources