Publié

Peut-on réellement détecter les textes écrits avec ChatGPT?

ChatGTP est un agent conversationnel qui permet d'interagir avec une intelligence artificielle. [Keystone/DPA - FRANK RUMPENHORST]
Comment différencier l’intelligence artificielle de l’humain? / La Matinale / 4 min. / le 8 février 2023
Humain ou machine? La question est aujourd’hui centrale. Les textes, photos ou vidéos réalisés par des intelligences artificielles inondent internet. Ce n’est qu’un début. En jeu, la véracité des informations, la lutte contre les arnaques ou la traque aux tricheurs.

Il devient de plus en plus difficile, voire impossible, de faire la différence entre une production humaine et celle d’une intelligence artificielle (IA). Depuis le succès fulgurant de ChatGPT, et ses 100 millions d’utilisateurs actifs en seulement deux mois, la demande est forte pour disposer d’un outil fiable permettant de tracer les informations.

"Après un événement, nous pourrions être inondés avec des communiqués de presse complètement contradictoires", explique Nabil Tayeb, cofondateur de Draft and Goal, une start-up franco-canadienne qui développe un outil pour détecter les textes écrits par l’IA.

"Il faudra un certain temps pour démêler le vrai du faux. Aujourd’hui, on est capable de générer beaucoup de textes, à grande échelle, dans un style qui imite parfaitement les originaux."

En plus du texte, les IA permettent de truquer des vidéos, des photos et des audios. Difficile de s’y retrouver sans aide. Et il y a aussi l’utilisation de ces technologies par les arnaqueurs du web, des élèves tentés de laisser les ordinateurs faire leurs devoirs ou des producteurs de contenus qui n’arrivent pas à protéger leurs droits d’auteur. La demande pour des outils de détection des productions IA explose.

Les premiers outils arrivent

Les créateurs de ChatGPT ont dû lancer dans l’urgence, deux mois après la sortie, un outil pour détecter les textes écrits par leur intelligence artificielle. Mais il est loin d’être impressionnant. Il repère de façon quasi certaine seulement 26% des textes écrits par ChatGPT. Dans 9% des cas, il prend le texte d’un humain pour celui d’un ordinateur.

Bref, on est loin d’avoir un outil fiable. Le développement est en cours. Et vu qu’il y a un nouveau marché à prendre, les projets se multiplient. On en découvre chaque semaine. Mais comment traquer le travail d’une intelligence artificielle? Avec une autre IA.

"Chacun utilise sa méthode! Vu la concurrence sur le marché, nous voulons garder confidentiel ce que fait exactement notre IA", indique Nabil Tayeb, cofondateur de Draft and Goal. Leur intelligence artificielle traque les textes générés automatiquement, notamment grâce à la linguistique. ChatGPT utiliserait très régulièrement certains verbes assez généralistes.

"L’IA subit énormément de contraintes quand elle doit écrire, notamment au niveau du sujet, du style ou de la forme. Chez l’humain, tout est plus naturel. D’un point de vue linguistique, ces contraintes influent sur le style d’écriture".

Des marques indélébiles

C’est donc un combat entre intelligences artificielles qui se prépare. Elles se traquent, s’observent pour mieux se dénoncer. Plus simplement, on peut également entraîner son œil. Petit truc, par exemple, pour savoir si une photo a été générée par une intelligence artificielle, il faut regarder les mains. L’ordinateur a de la peine à les modéliser.

Mais il existe un moyen encore pour simple pour débusquer à coup sûr une production IA: un filigrane ou watermark en anglais. Certaines de ces signatures sont visibles, comme le logo de Google sur les cartes routières.

D’autres sont invisibles, mais détectables par une machine. On peut par exemple changer très légèrement la couleur de certains pixels sur une photo. Pour le texte, c’est encore un domaine de recherche. On pourrait par exemple forcer discrètement ChatGPT à utiliser plus fréquemment certains mots ou ponctuations.

"Mettre un filigrane dépend de la bonne volonté de l’entreprise qui développe l’IA", explique Yann Dubois, doctorant à l’Université de Stanford en Californie et spécialiste de l’apprentissage automatique. "Si vous avez accès au code de l’IA, vous pouvez désactiver ces signatures. Autre souci, les filigranes sont visibles par les ordinateurs. Vous pourrez toujours entraîner une autre IA pour reconnaître ces filigranes et les effacer".

Le jeu du chat et de la souris

Au niveau technique, il n’y a pas de solution idéale pour l’instant. D’un côté, il y a des outils de détections qui ne sont pas encore très fiables et de l’autre des signatures qui dépendent du bon vouloir des entreprises et que l’on sait potentiellement piratables.

"Les IA s’améliorent. Il sera de plus en plus difficile de reconnaître ce qui est généré par une intelligence artificielle. Des outils comme les filigranes vont prévaloir à terme. Notre société doit se préparer à ces productions de l’IA, comme nous nous sommes habitués aux risques de plagiats ou de falsification d’images avec Photoshop", estime Yann Dubois.

Quoi qu’il en soit, à court terme, nous avons besoin de ces outils pour que la possibilité de se faire débusquer décourage les moins téméraires. Pour le long terme, il s’agit de mieux encadrer et réguler ces oeuvres générées par les IA.

Un IA act en préparation

Un texte extrêmement important est en discussion dans l’Union européenne. Une législation spécifique sur l’intelligence artificielle. Le projet est encore en discussion et pourrait entrer en vigueur l’année prochaine.

"Dans le texte, il y a une annexe qui vient lister un certain nombre d’activités dites à haut risque, on y parle par exemple de recrutement ou de sélection d’étudiants", explique Juliette Sénéchal, maître de conférences en droit privé à l'Université de Lille. "Le projet du Conseil prévoit de décider par des actes d’exécution si une IA à usage générale sera à haut risque ou non".

Cette technique permet d’adapter le texte aux innovations en matière d’IA, mais "cela rajoute du temps pour déterminer si un système d’intelligence artificielle qui est d’usage général (à vocation très large), typiquement comme ChatGPT, peut être considéré comme à haut risque. Il y a une temporalité très longue".

Une coopération des développeurs souhaitée

L’arrivée de ChatGPT ou de Bard dans les moteurs de recherche relance les débats autour du texte. "Une bonne régulation vise la finalité que telle ou telle technologie peut amener sur nos existences et nos libertés, peu importe, la technologie", analyse Charles Cuvelliez, professeur à l’école polytechnique de l’Université Libre de Bruxelles. "L’AI Act s’inscrit dans cette veine: que ce soit l’AI ou autre chose, c’est l’impact qui compte, pas la technologie."

Le Commissaire européen Thierry Breton s’est exprimé la semaine dernière sur la place réservée à ChatGPT dans le texte en construction. "Comme le montre ChatGPT, les solutions d'IA peuvent offrir de grandes opportunités aux entreprises et aux citoyens, mais peuvent également présenter des risques".

Thierry Breton souhaite qu'OpenAI coopère étroitement avec les développeurs en aval de systèmes d'IA à haut risque pour leur permettre de se conformer à la proposition de loi sur l'IA, selon les informations de Reuters.

Si une intelligence artificielle est placée sur la liste des hauts risques, cela signifie une surveillance accrue, des exigences plus grandes et des coûts plus élevés pour les développeurs de l’application.

Les discussions ne font que commencer.

Pascal Wassmer

Publié