Les termes à la mode préférés de ChatGPT sont de plus en plus fréquents dans les évaluations par les pairs

Un nombre croissant d’informations synthétiques produites par l’intelligence artificielle dérivent sur nos fils de nouvelles et dans nos résultats de recherche. Les enjeux vont bien au-delà de ce qui se trouve sur nos écrans. C’est toute la culture qui est affectée par le ruissellement de l’I.A., qui s’infiltre insidieusement dans nos institutions les plus importantes.

Prenons l’exemple de la science. Juste après la sortie de GPT-4, le dernier modèle d’intelligence artificielle d’OpenAI et l’un des plus avancés qui soient, le langage de la recherche scientifique a commencé à muter. En particulier dans le domaine de l’I.A. elle-même.

Une étude publiée ce mois-ci s’est penchée sur les évaluations par les pairs des scientifiques — les déclarations officielles des chercheurs sur les travaux de leurs collègues, qui constituent le fondement du progrès scientifique — lors d’un certain nombre de conférences scientifiques prestigieuses et de haut niveau consacrées à l’I.A. Lors d’une de ces conférences, ces évaluations par les pairs ont utilisé le mot « méticuleux » plus de 34 fois plus souvent que les évaluations de l’année précédente. Le mot « louable » a été utilisé environ 10 fois plus souvent, et le mot « complexe » 11 fois. D’autres grandes conférences ont montré des tendances similaires.

Ces expressions sont, bien entendu, parmi les mots à la mode préférés des grands modèles linguistiques modernes tels que ChatGPT. Ainsi, un nombre important de chercheurs participant à des conférences sur l’IA ont été surpris en train de confier à l’IA l’examen (censément effectué par des pairs) de travaux d’autres chercheurs — ou, à tout le moins, de les rédiger avec l’aide de l’IA. Et plus la date de réception des évaluations était proche de la date limite, plus l’utilisation de l’I.A. était importante.

Si cela vous met mal à l’aise — notamment en raison du manque de fiabilité actuel de l’I.A. — ou si vous pensez que ce ne sont peut-être pas les I.A. qui devraient examiner la science, mais les scientifiques eux-mêmes, ces sentiments soulignent le paradoxe qui est au cœur de cette technologie : la frontière éthique entre l’escroquerie et l’utilisation régulière est floue. Certaines escroqueries générées par l’I.A. sont faciles à repérer, comme l’article de revue médicale présentant un rat caricatural doté d’énormes organes génitaux. Beaucoup d’autres sont plus insidieuses, comme la figure ci-dessous censée représenter le mécanisme de régulation erroné et délirant décrit dans ce même article — article qui a pourtant fait l’objet d’un examen par les pairs (peut-être, pourrait-on supposer, par une autre I.A. ?)

Figure censée être un diagramme de la voie de signalisation JAK-STAT

Qu’en est-il lorsque l’I.A. est utilisée dans l’un de ses domaines de prédilection, à savoir l’aide à la rédaction ? Récemment, un tollé s’est élevé lorsqu’il est apparu que de simples recherches dans des bases de données scientifiques faisaient apparaître des phrases telles que « En tant que modèle de langage de l’I.A. » là où les auteurs s’appuyant sur l’I.A. avaient oublié de brouiller les pistes. Si ces mêmes auteurs avaient simplement supprimé ces mentions en filigrane accidentelles, leur utilisation de l’I.A. pour rédiger leurs articles aurait-elle été acceptable ?

Ce qui se passe dans le domaine de la science n’est qu’un petit aspect d’un problème bien plus important. Un message sur les médias sociaux ? Tout message viral sur X comprend désormais presque à coup sûr des réponses générées par l’I.A., qu’il s’agisse de résumés du message original ou de réactions rédigées par ChatGPT du ton insipide de Wikipédia, le tout dans le but d’obtenir des abonnés. Instagram se remplit de mannequins générés par l’I.A., Spotify de chansons générées par l’I.A. Vous publiez un livre ? Peu de temps après, Amazon met en vente des « cahiers d’exercices » générés par l’I.A. qui sont censés accompagner votre livre (et dont le contenu est erroné selon l’auteur de l’article du New York Times, car cela lui est arrivé). Les premiers résultats de recherche sur Google sont souvent des images ou des articles engendrés par l’I.A. De grands médias comme Sports Illustrated ont créé des articles générés par l’I.A. et attribués à des profils d’auteurs tout aussi faux. Les spécialistes du marketing qui vendent des méthodes d’optimisation des moteurs de recherche se vantent ouvertement d’utiliser l’I.A. pour créer des milliers d’articles afin de voler du trafic à leurs concurrents.

Enfin, l’I.A. générative est de plus en plus utilisée pour créer à grande échelle des vidéos synthétiques bon marché pour les enfants sur YouTube. Certains exemples sont des horreurs cauchemardesques, comme des vidéos musicales sur des perroquets dans lesquelles les oiseaux ont des yeux dans les yeux, des becs dans les becs, se transformant de manière incompréhensible tout en chantant d’une voix artificielle : « Le perroquet dans l’arbre dit bonjour, bonjour ! ». Les récits sont sans queue ni tête, les personnages apparaissent et disparaissent de manière aléatoire, et des faits élémentaires comme le nom des formes sont erronés. Après avoir identifié un certain nombre de chaînes suspectes dans la lettre d’information, The Intrinsic Perspective, Wired a trouvé des preuves de l’utilisation de l’I.A. générative dans les chaînes de production de certains comptes comptant des centaines de milliers, voire des millions d’abonnés.

Einstein aurait dit : « Si vous voulez que vos enfants soient intelligents, lisez-leur des contes de fées. Si vous voulez qu’ils soient très intelligents, lisez-leur encore plus de contes de fées ». Mais que se passe-t-il lorsqu’un enfant en bas âge consomme essentiellement des rêves générés par l’I.A. ? Nous nous trouvons au milieu d’une vaste expérience.

Il y a tellement de déchets synthétiques sur Internet que les entreprises et les chercheurs en I.A. s’inquiètent eux-mêmes, non pas de la santé de la culture, mais de ce qui va arriver à leurs modèles. À mesure que les capacités de l’I.A. augmentent, notre culture devient tellement submergée de créations de l’I.A. que lorsque les futures I.A. seront formées, les résultats de l’I.A. précédente s’infiltreront dans les données d’apprentissage, ce qui conduira à un avenir de copies de copies de copies, le contenu devenant de plus en plus stéréotypé et prévisible. En 2023, les chercheurs ont introduit un terme technique pour décrire la façon dont ce risque affectait l’apprentissage de l’I.A. : l’effondrement du modèle. D’une certaine manière, ces entreprises et nous-mêmes sommes dans le même bateau, pagayant dans la même fange qui se déverse dans notre océan culturel.

Tout en gardant cette analogie désagréable à l’esprit, il convient de se tourner vers ce qui est sans doute l’analogie historique la plus claire pour notre situation actuelle : le mouvement écologiste. En effet, tout comme les entreprises et les individus ont été poussés à polluer par l’inexorable économie, la pollution culturelle de l’I.A. est également due à une décision rationnelle de combler l’appétit vorace d’Internet pour le contenu le moins cher possible. Si les problèmes environnementaux sont loin d’être résolus, des progrès indéniables ont permis à nos villes d’être à peu près exemptes de smog et à nos lacs d’être à peu près exempts d’eaux usées. Comment cela s’est-il produit ?

Avant toute solution politique spécifique, il a été reconnu que la pollution de l’environnement était un problème nécessitant une législation extérieure. Ce point de vue a été influencé par une perspective développée en 1968 par Garrett Hardin, biologiste et écologiste. M. Hardin a souligné que le problème de la pollution était dû au fait que les gens agissaient dans leur propre intérêt et que, par conséquent, « nous sommes enfermés dans un système qui consiste à “salir notre propre nid”, tant que nous nous comportons uniquement comme des entrepreneurs indépendants, rationnels et libres ». Il a résumé le problème en parlant de « tragédie des biens communs ». Cette formulation a été déterminante pour le mouvement écologiste, qui en est venu à compter sur la réglementation gouvernementale pour faire ce que les entreprises seules ne pouvaient ou ne voulaient pas faire.

Une fois de plus, nous sommes confrontés à une tragédie des biens communs : l’intérêt économique à court terme encourage l’utilisation d’un contenu d’I.A. bon marché pour maximiser les clics et les vues, ce qui pollue notre culture et affaiblit même notre prise sur la réalité. Jusqu’à présent, les grandes entreprises d’I.A. refusent de rechercher des moyens avancés d’identifier le travail de l’I.A. — ce qu’elles pourraient faire en ajoutant des modèles statistiques subtils cachés dans l’utilisation des mots ou dans les pixels des images.

On justifie souvent cette inaction par le fait que les rédacteurs humains peuvent toujours modifier les modèles mis en œuvre s’ils en savent assez. Pourtant, la plupart des problèmes que nous rencontrons ne sont pas le fait d’acteurs malveillants motivés et techniquement compétents ; ils sont principalement dus au fait que les utilisateurs ordinaires ne respectent pas une ligne d’utilisation éthique si ténue qu’elle en est presque inexistante. La plupart d’entre eux ne souhaitent pas mettre en place des contre-mesures avancées pour lutter contre les modèles statistiques appliqués aux résultats qui devraient, idéalement, indiquer qu’ils sont générés par l’I.A. C’est la raison pour laquelle les chercheurs indépendants se sont penchés sur la question.

C’est la raison pour laquelle les chercheurs indépendants ont été en mesure de détecter les résultats de l’I.A. dans le système d’évaluation par les pairs avec une précision étonnamment élevée : ils ont vraiment essayé.

De même, des enseignants ont mis en place des méthodes personnelles de détection côté sortie, similaires à celles-ci : ils intègrent des requêtes cachées dans les sujets de rédactions. Ces résultats n’apparaissent que lorsque cet intitulé de la rédaction est copié-collé et fourni tel quel à des outils I.A. En d’autres termes, ces enseignants cherchent à identifier les cas où les élèves ou étudiants ont utilisé des ressources externes ou des outils d’intelligence artificielle pour rédiger leurs dissertations. Cela peut inclure des modèles de langage comme ChatGPT, qui peuvent générer du texte de manière cohérente et fluide. En ajoutant des requêtes cachées, les enseignants espèrent détecter ces pratiques et encourager l’originalité et l’intégrité académique chez leurs élèves.

En particulier, les entreprises d’I.A. semblent opposées à tout modèle intégré dans leur production qui pourrait améliorer les efforts de détection de l’I.A. à des niveaux raisonnables, peut-être parce qu’elles craignent que l’application de tels modèles puisse entraver les performances du modèle en contraignant trop ses résultats — bien qu’il n’y ait aucune preuve actuelle que ce soit un risque. Malgré les promesses publiques de développer une technique de filigrane plus avancée, il est de plus en plus clair que les entreprises traînent les pieds parce que rendre leurs produits détectables va à l’encontre des intérêts de l’industrie de l’I.A..

Pour faire face à ce refus d’agir des entreprises, le neuroscientifique Erik Hoel affirme que nous avons besoin de l’équivalent d’une loi sur la pureté de l’air : une loi sur la pureté de l’Internet. La solution la plus simple consisterait peut-être à imposer par voie législative un filigrane avancé intrinsèque aux produits générés, comme des motifs difficilement détachables. Selon Hoel, tout comme le XX^e siècle a nécessité des interventions importantes pour protéger l’environnement commun, le XXI^e siècle va nécessiter des interventions importantes pour protéger une ressource commune différente, mais tout aussi essentielle, que nous n’avons pas remarquée jusqu’à présent puisqu’elle n’a jamais été menacée : notre culture humaine commune.

Source : New York Times

Voir aussi

Il s’avère que ChatGPT a tendance à surutiliser certains mots et expressions, dont « delve ». Le mot « delve » (aborder/traiter/explorer) figure parmi les 10 mots les plus courants dans les textes renvoyés par ChatGPT. La mention de « delve » dans les articles de PubMed a fortement augmenté depuis 2023 (date d’apparition de ChatGPT). Des outils qui remplacent les mots favoris de ChatGPT par des synonymes apparaissent déjà sur le marché. Certains chercheurs dans le monde utilisent ChatGPT pour améliorer leur style en anglais. Mais, si les outils de rédaction de textes (et de traductions) automatiques sont tellement bons pourquoi faut-il encore que des étrangers rédigent leurs textes en anglais plutôt que de les écrire dans la langue qui leur est la plus facile et les faire traduire automatiquement ce qui produira des textes écrits dans un style qui sera sans doute meilleur que leur anglais langue étrangère ?