Aller au contenu principal
Pourquoi les gobelins et les gremlins ont envahi ChatGPT
LLMsNext INpact6sem· 2 min de lecture

Pourquoi les gobelins et les gremlins ont envahi ChatGPT

Source originale ↗·

Depuis novembre dernier et le lancement de GPT-5.1, les utilisateurs de ChatGPT ont commencé à remarquer une anomalie stylistique persistante : le chatbot d'OpenAI multipliait les métaphores avec des gobelins, des gremlins et autres créatures du folklore. Une curiosité au début, mais dès mars 2026 avec GPT-5.4, le phénomène était devenu franchement envahissant. Des tests préliminaires de GPT-5.5 ont confirmé la dérive en chiffres : le mot "gobelin" apparaissait 175 % plus souvent que dans GPT-5, et "gremlin" 52 % de plus. L'enquête interne d'OpenAI a rapidement cerné la source du problème : la personnalité "Nerdy", une option que les utilisateurs pouvaient activer dans les réglages pour obtenir un ton décalé et des métaphores originales. Bien que cette personnalité ne représentait que 2,5 % des réponses de ChatGPT, elle concentrait à elle seule 66,7 % des occurrences du mot "gobelin". Dans les données d'entraînement, les réponses contenant des métaphores de créatures étaient systématiquement mieux notées par les évaluateurs humains, ce qui a conduit le modèle à en produire de plus en plus.

Le véritable problème n'était pas le tic lui-même, mais sa propagation. Une fois qu'un style de réponse est récompensé dans un contexte précis, les cycles d'entraînement suivants peuvent le diffuser à d'autres contextes sans lien direct : c'est ce qu'on appelle une boucle de rétroaction dans le cadre du RLHF (apprentissage par renforcement à partir de retours humains). Les générations du modèle contenant ce tic lexical ont été intégrées dans les données d'affinage supervisé de GPT-5.5, ce qui a poussé le modèle à réapprendre et amplifier le comportement. Même après la suppression de la personnalité "Nerdy" dans GPT-5.4 et l'identification du problème, GPT-5.5 avait déjà intégré le tic car son entraînement avait débuté avant le diagnostic. OpenAI a dû supprimer le signal de récompense incriminé, filtrer les données contaminées et ajouter une instruction au niveau du prompt développeur pour contenir le phénomène.

L'anecdote est amusante, mais ses implications sont sérieuses. Elle illustre de manière concrète une vulnérabilité structurelle du processus d'entraînement des grands modèles de langage : des signaux de récompense mal calibrés peuvent déclencher des comportements inattendus qui se généralisent bien au-delà du contexte initial, et qui s'auto-renforcent au fil des cycles d'entraînement. OpenAI l'admet dans son post-mortem : les gobelins "constituent un exemple parlant de la façon dont les signaux de récompense peuvent façonner le comportement d'un modèle de manière inattendue". Si le biais reste ici anodin, le même mécanisme pourrait amplifier des comportements bien plus problématiques, comme des partis pris factuels, des orientations idéologiques ou des biais discriminatoires, sans que les équipes ne s'en aperçoivent avant que le mal soit fait.

Impact France/UE

Ce cas illustre une vulnérabilité structurelle des pipelines RLHF qui pourrait alimenter les débats des régulateurs européens sur les exigences de sûreté et de traçabilité imposées par l'AI Act.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres
1VentureBeat AI 

Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres

Le 27 avril 2026, un développeur utilisant le pseudonyme @arb8020 sur X a mis au jour un passage pour le moins étrange dans le dépôt GitHub open source de Codex, l'outil de codage d'OpenAI. Dans un fichier nommé models.json, une directive répétée quatre fois concernant GPT-5.5 ordonnait au modèle de ne jamais parler de "gobelins, gnomes, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures" sauf si le sujet était "absolument et sans ambiguïté pertinent" pour la requête de l'utilisateur. La publication est devenue virale en quelques heures sur Reddit et X, suscitant une vague de spéculations : des utilisateurs rapportaient que GPT-5.5 qualifiait spontanément les bugs techniques de "gremlins", ou que certains agents basés sur le modèle semblaient "obsédés par les gobelins", comme l'a illustré Barron Roth, Senior Project Manager chez Google, avec une capture d'écran de son agent OpenClaw. Sam Altman lui-même a rejoint la discussion, publiant avec humour une capture d'un prompt demandant de "lancer l'entraînement de GPT-6 avec des gobelins supplémentaires". Cette affaire dépasse le simple anecdote. Elle met en lumière les limites encore mal comprises du Reinforcement Learning from Human Feedback (RLHF), la technique centrale qui permet d'aligner les grands modèles de langage sur les préférences humaines. Comme l'ont noté des chercheurs sur Hacker News, il s'agit d'un "problème de l'éléphant rose" : interdire explicitement à un modèle de penser à quelque chose peut paradoxalement renforcer la saillance de ce concept dans son mécanisme d'attention. Pour une entreprise valorisée à plus de 300 milliards de dollars et dont les modèles sont utilisés par des millions de professionnels, voir une directive aussi surprenante s'infiltrer en production souligne à quel point le comportement émergent des LLMs reste difficile à contrôler, même avec des équipes de pointe. OpenAI a répondu dès le lendemain avec un billet de blog officiel intitulé "Where the goblins came from", apportant une explication technique. La cause n'est pas un bug classique, mais un effet de bord inattendu de la fonctionnalité de personnalisation introduite dans ChatGPT en juillet 2025. Contrairement à ce que l'on pourrait supposer, cette personnalisation (modes Professionnel, Amical, Efficace, Candide, etc.) n'est pas appliquée après l'entraînement du modèle, mais intégrée directement dans le pipeline d'entraînement de bout en bout des modèles GPT. C'est précisément cette intégration profonde qui a produit des comportements non anticipés, forçant l'équipe à ajouter des instructions correctives explicites dans le fichier de configuration. L'incident illustre un défi structurel pour tout le secteur : plus les modèles sont personnalisables et entraînés de manière holistique, plus les interactions entre objectifs distincts deviennent imprévisibles.

UELes développeurs et entreprises européens utilisant GPT-5.5 peuvent être exposés à des comportements émergents imprévus, mais l'impact reste indirect et mondial sans spécificité France/UE.

LLMsOpinion
1 source
Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?
2Le Big Data 

Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?

Anthropic a lancé Claude Opus 4.8 le 28 mai 2026, seulement 41 jours après la version 4.7, un rythme inhabituel dans un secteur où les nouvelles versions majeures nécessitent généralement plusieurs mois. Disponible au même prix que son prédécesseur, ce modèle affiche des progrès mesurables sur plusieurs benchmarks clés : 84 % sur Online-Mind2Web, qui évalue les interactions autonomes avec des interfaces numériques, et des gains notables sur Terminal-Bench 2.1, dédié à la programmation en ligne de commande. Plus frappant encore, les évaluations internes d'Anthropic indiquent que le modèle est environ quatre fois moins susceptible de laisser passer des erreurs dans son propre code qu'Opus 4.7. Sur le plan fonctionnel, les utilisateurs de Claude AI ont désormais accès à cinq niveaux de raisonnement ajustables, tandis que Claude Code intègre les Dynamic Workflows, permettant de planifier des tâches complexes en mobilisant plusieurs sous-agents en parallèle sur de larges bases de code. Ce qui distingue Opus 4.8 ne réside pas uniquement dans les scores, mais dans un changement de philosophie profond : le modèle a été conçu pour mieux reconnaître ses propres limites et signaler ses incertitudes plutôt que de produire des réponses erronées avec assurance. Dans un contexte professionnel où une IA trop confiante peut induire en erreur des équipes entières, cette prudence constitue une valeur ajoutée concrète. Pour les développeurs qui utilisent Claude Code dans des pipelines agentiques, la réduction des erreurs non détectées et la capacité à orchestrer des sous-agents en parallèle ouvrent des cas d'usage jusqu'ici trop risqués pour être déployés en production. Le gain d'efficacité est également tangible : le modèle atteint des résultats équivalents en moins d'étapes intermédiaires, ce qui réduit les coûts d'inférence sur les longues tâches. Cette version s'inscrit dans une période de concurrence intense entre Anthropic, OpenAI et Google, où chaque éditeur cherche à dominer le segment des agents autonomes. La version 4.7 avait suscité des critiques sur ses comportements imprévisibles et sa tendance à l'excès de confiance, des défauts qui nuisaient à l'adoption en entreprise. En répondant directement à ces reproches en moins de six semaines, Anthropic signale qu'il est capable d'itérer aussi vite que ses rivaux sans sacrifier la fiabilité. La question qui demeure ouverte est celle de la durabilité de ce rythme : à 41 jours par version, l'entreprise devra démontrer que la qualité peut tenir la cadence.

UELes équipes de développement européennes utilisant Claude Code dans des pipelines agentiques bénéficient des améliorations de fiabilité et de la réduction des coûts d'inférence, sans impact réglementaire ou institutionnel spécifique à la France ou l'UE.

💬 41 jours entre deux versions majeures, c'est du jamais vu chez Anthropic. Ce qui compte vraiment là-dedans, c'est pas les scores (on peut faire dire ce qu'on veut aux benchmarks), c'est que le modèle est maintenant conçu pour signaler ses incertitudes plutôt que d'affirmer des erreurs avec aplomb, et en pipeline agentique, c'est la différence entre un outil qu'on ose déployer en prod et un truc qu'on surveille en permanence. Reste à voir si ce rythme tient dans 3 mois.

LLMsOpinion
1 source
GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !
3Le Big Data 

GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !

GPT-5.5, le dernier modèle d'OpenAI, s'est mis à glisser des gobelins, gremlins, ratons laveurs, trolls, ogres et pigeons dans ses réponses, même lorsque le sujet n'a aucun rapport avec ces créatures. Le phénomène a été documenté publiquement le 28 avril 2026 par Arena.ai, qui a publié un graphique montrant l'évolution de l'utilisation de ces termes par les modèles GPT au fil du temps. La réaction d'OpenAI ne s'est pas fait attendre : des développeurs ont découvert dans Codex une instruction système associée à GPT-5.5 qui interdit explicitement au modèle de mentionner gobelins, gremlins, ratons laveurs, trolls, ogres ou pigeons, sauf si cela est strictement pertinent à la demande de l'utilisateur. Ce comportement, qualifié par plusieurs spécialistes d'« effondrement de mode », serait lié aux données d'entraînement du modèle : GPT-5.5 aurait développé un tic linguistique, répétant certains motifs de façon excessive et incontrôlée. Si quelques utilisateurs y voient une touche d'humour involontaire et presque attachante, la manière dont OpenAI a choisi de réagir suscite davantage de critiques. Sur X, un utilisateur a résumé l'incompréhension générale : face à un comportement aussi inattendu dans un système aussi avancé, la réponse n'a pas été de chercher la cause profonde du problème, mais simplement d'ordonner au modèle de ne plus mentionner ces créatures. D'autres interprètent l'instruction comme une hostilité ciblée envers les pigeons et les ratons laveurs, ce qui n'a fait qu'amplifier les moqueries en ligne. Ce bug illustre un problème fondamental que l'industrie de l'IA peine encore à résoudre : les grands modèles de langage restent des boîtes noires. Comme l'a formulé un utilisateur de Reddit, on peut identifier un comportement anormal et le corriger par instruction directe, mais expliquer précisément pourquoi il est apparu reste hors de portée. OpenAI n'est pas la première entreprise confrontée à des dérives comportementales inattendues dans ses modèles, et chaque incident de ce type relance le débat sur l'interprétabilité des systèmes d'IA et la solidité des processus d'entraînement. Sam Altman a choisi de désamorcer la situation avec humour, partageant une capture d'écran évoquant l'entraînement de GPT-6 avec « encore plus de gobelins », mais cette légèreté n'efface pas la question de fond : à mesure que ces modèles deviennent plus puissants et plus intégrés dans des outils professionnels comme Codex, leur imprévisibilité devient un risque difficile à ignorer.

UECe comportement imprévisible alimente le débat européen sur l'interprétabilité et la transparence des LLMs, un enjeu central de l'AI Act.

LLMsOpinion
1 source
Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses
4Le Big Data 

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

OpenAI a officiellement lancé GPT-5.5 le 23 avril 2026, confirmant ainsi les rumeurs qui circulaient depuis plusieurs jours. Sam Altman a annoncé le modèle directement sur X, déclarant simplement qu'il "l'apprécie beaucoup", une formulation sobre pour un lancement que l'entreprise présente comme un véritable saut technologique. Le modèle est immédiatement disponible dans ChatGPT pour les abonnés Plus, Pro et Business sous la dénomination GPT-5.5 Thinking, avec une version GPT-5.5 Pro réservée aux traitements de données massifs exigeant une précision maximale. Les développeurs accédant via Codex bénéficient quant à eux d'une fenêtre de contexte de 400 000 tokens, suffisante pour ingérer des projets entiers en une seule passe. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son autonomie opérationnelle. Là où les modèles précédents attendaient une instruction à chaque étape, celui-ci est conçu pour piloter des tâches complexes de bout en bout, en analysant, planifiant et utilisant les logiciels disponibles sans intervention humaine continue. En développement logiciel, cela se traduit concrètement par une capacité à résoudre des projets GitHub entiers en une seule passe, à déboguer de manière autonome en identifiant l'origine d'une faille là où un développeur passerait plusieurs heures, et à anticiper les effets de bord sur le reste du système. L'enthousiasme dans l'industrie est tel qu'un ingénieur chez NVIDIA a comparé l'idée de perdre l'accès au modèle à une amputation physique. Parallèlement, GPT-5.5 maintient une latence comparable à GPT-5.4 tout en consommant moins de tokens pour produire des résultats de meilleure qualité, ce qui améliore directement l'équation coût-performance pour les usages intensifs. Ce lancement s'inscrit dans une course à l'IA générative où chaque acteur cherche à franchir le palier de l'agent autonome, capable d'agir sur un ordinateur plutôt que de simplement répondre à des questions. OpenAI positionnne GPT-5.5 explicitement comme une "nouvelle classe d'intelligence pour le travail réel", ce qui signale un pivot stratégique vers les cas d'usage professionnels et les pipelines agentiques, au détriment du chatbot conversationnel grand public. Google, Anthropic et Meta s'engagent sur le même terrain avec leurs propres modèles capables d'utiliser des outils et d'exécuter des tâches multi-étapes. La disponibilité immédiate dans Codex suggère qu'OpenAI mise sur les développeurs comme vecteur d'adoption prioritaire, une population qui teste vite, publie ses benchmarks et influence ensuite les décisions d'achat des entreprises. La prochaine étape logique sera l'intégration plus profonde dans des environnements d'entreprise, avec des questions de sécurité, de traçabilité et de gouvernance que GPT-5.5 n'adresse pas encore publiquement.

UELes développeurs et entreprises européens utilisant l'API OpenAI via Codex peuvent immédiatement tester les capacités agentiques de GPT-5.5, ce qui soulève des questions de gouvernance et de traçabilité directement pertinentes dans le contexte du règlement européen sur l'IA.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic