Aller au contenu principal
Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres
LLMsVentureBeat AI2sem

Le problème des gobelins d'OpenAI : pourquoi il compte et comment libérer les vôtres

Résumé IASource uniqueImpact UE
Source originale ↗·

Le 27 avril 2026, un développeur utilisant le pseudonyme @arb8020 sur X a mis au jour un passage pour le moins étrange dans le dépôt GitHub open source de Codex, l'outil de codage d'OpenAI. Dans un fichier nommé models.json, une directive répétée quatre fois concernant GPT-5.5 ordonnait au modèle de ne jamais parler de "gobelins, gnomes, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures" sauf si le sujet était "absolument et sans ambiguïté pertinent" pour la requête de l'utilisateur. La publication est devenue virale en quelques heures sur Reddit et X, suscitant une vague de spéculations : des utilisateurs rapportaient que GPT-5.5 qualifiait spontanément les bugs techniques de "gremlins", ou que certains agents basés sur le modèle semblaient "obsédés par les gobelins", comme l'a illustré Barron Roth, Senior Project Manager chez Google, avec une capture d'écran de son agent OpenClaw. Sam Altman lui-même a rejoint la discussion, publiant avec humour une capture d'un prompt demandant de "lancer l'entraînement de GPT-6 avec des gobelins supplémentaires".

Cette affaire dépasse le simple anecdote. Elle met en lumière les limites encore mal comprises du Reinforcement Learning from Human Feedback (RLHF), la technique centrale qui permet d'aligner les grands modèles de langage sur les préférences humaines. Comme l'ont noté des chercheurs sur Hacker News, il s'agit d'un "problème de l'éléphant rose" : interdire explicitement à un modèle de penser à quelque chose peut paradoxalement renforcer la saillance de ce concept dans son mécanisme d'attention. Pour une entreprise valorisée à plus de 300 milliards de dollars et dont les modèles sont utilisés par des millions de professionnels, voir une directive aussi surprenante s'infiltrer en production souligne à quel point le comportement émergent des LLMs reste difficile à contrôler, même avec des équipes de pointe.

OpenAI a répondu dès le lendemain avec un billet de blog officiel intitulé "Where the goblins came from", apportant une explication technique. La cause n'est pas un bug classique, mais un effet de bord inattendu de la fonctionnalité de personnalisation introduite dans ChatGPT en juillet 2025. Contrairement à ce que l'on pourrait supposer, cette personnalisation (modes Professionnel, Amical, Efficace, Candide, etc.) n'est pas appliquée après l'entraînement du modèle, mais intégrée directement dans le pipeline d'entraînement de bout en bout des modèles GPT. C'est précisément cette intégration profonde qui a produit des comportements non anticipés, forçant l'équipe à ajouter des instructions correctives explicites dans le fichier de configuration. L'incident illustre un défi structurel pour tout le secteur : plus les modèles sont personnalisables et entraînés de manière holistique, plus les interactions entre objectifs distincts deviennent imprévisibles.

Impact France/UE

Les développeurs et entreprises européens utilisant GPT-5.5 peuvent être exposés à des comportements émergents imprévus, mais l'impact reste indirect et mondial sans spécificité France/UE.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins
1Ars Technica AI 

Le prompt système d'OpenAI Codex contient une directive explicite : "ne jamais parler de gobelins

Le system prompt du CLI Codex d'OpenAI contient une directive inhabituelle : GPT-5.5 reçoit l'instruction explicite de "ne jamais parler de gobelins, de gremlins, de ratons laveurs, de trolls, d'ogres, de pigeons ou d'autres animaux ou créatures, sauf si cela est absolument et sans ambiguïté pertinent pour la requête de l'utilisateur." Cette consigne, rendue publique la semaine dernière via le dépôt GitHub open source de Codex CLI, apparaît deux fois dans un ensemble d'instructions de base de plus de 3 500 mots destinées au modèle récemment lancé. Elle côtoie d'autres rappels plus classiques, comme l'interdiction d'utiliser des emojis ou des tirets cadratins sans instruction explicite, ou encore la mise en garde contre les commandes destructives telles que git reset --hard. Ce qui rend cette directive significative, c'est son absence dans les instructions système des modèles antérieurs figurant dans le même fichier JSON. Cela suggère qu'OpenAI fait face à un problème apparu spécifiquement avec GPT-5.5 : le modèle aurait tendance à introduire spontanément des références à des gobelins ou autres créatures dans des conversations sans rapport. Des témoignages récents sur les réseaux sociaux confirment ce comportement, plusieurs utilisateurs signalant des réponses inopinément peuplées de créatures fantastiques lors d'échanges techniques ou professionnels. Ce type d'incident met en lumière un défi persistant du développement des grands modèles de langage : les comportements émergents imprévisibles qui surgissent lors du passage à l'échelle. Lorsqu'un modèle développe des biais ou des obsessions thématiques non intentionnelles, la solution la plus rapide reste souvent d'intervenir directement dans le system prompt plutôt que de relancer un cycle d'entraînement complet. Cette approche, parfois surnommée "patch de comportement", révèle les limites du contrôle fin sur des systèmes aussi complexes que GPT-5.5, dont le déploiement s'accompagne inévitablement d'ajustements post-lancement que même l'équipe d'OpenAI ne peut anticiper entièrement.

LLMsOpinion
1 source
Pourquoi les gobelins et les gremlins ont envahi ChatGPT
2Next INpact 

Pourquoi les gobelins et les gremlins ont envahi ChatGPT

Depuis novembre dernier et le lancement de GPT-5.1, les utilisateurs de ChatGPT ont commencé à remarquer une anomalie stylistique persistante : le chatbot d'OpenAI multipliait les métaphores avec des gobelins, des gremlins et autres créatures du folklore. Une curiosité au début, mais dès mars 2026 avec GPT-5.4, le phénomène était devenu franchement envahissant. Des tests préliminaires de GPT-5.5 ont confirmé la dérive en chiffres : le mot "gobelin" apparaissait 175 % plus souvent que dans GPT-5, et "gremlin" 52 % de plus. L'enquête interne d'OpenAI a rapidement cerné la source du problème : la personnalité "Nerdy", une option que les utilisateurs pouvaient activer dans les réglages pour obtenir un ton décalé et des métaphores originales. Bien que cette personnalité ne représentait que 2,5 % des réponses de ChatGPT, elle concentrait à elle seule 66,7 % des occurrences du mot "gobelin". Dans les données d'entraînement, les réponses contenant des métaphores de créatures étaient systématiquement mieux notées par les évaluateurs humains, ce qui a conduit le modèle à en produire de plus en plus. Le véritable problème n'était pas le tic lui-même, mais sa propagation. Une fois qu'un style de réponse est récompensé dans un contexte précis, les cycles d'entraînement suivants peuvent le diffuser à d'autres contextes sans lien direct : c'est ce qu'on appelle une boucle de rétroaction dans le cadre du RLHF (apprentissage par renforcement à partir de retours humains). Les générations du modèle contenant ce tic lexical ont été intégrées dans les données d'affinage supervisé de GPT-5.5, ce qui a poussé le modèle à réapprendre et amplifier le comportement. Même après la suppression de la personnalité "Nerdy" dans GPT-5.4 et l'identification du problème, GPT-5.5 avait déjà intégré le tic car son entraînement avait débuté avant le diagnostic. OpenAI a dû supprimer le signal de récompense incriminé, filtrer les données contaminées et ajouter une instruction au niveau du prompt développeur pour contenir le phénomène. L'anecdote est amusante, mais ses implications sont sérieuses. Elle illustre de manière concrète une vulnérabilité structurelle du processus d'entraînement des grands modèles de langage : des signaux de récompense mal calibrés peuvent déclencher des comportements inattendus qui se généralisent bien au-delà du contexte initial, et qui s'auto-renforcent au fil des cycles d'entraînement. OpenAI l'admet dans son post-mortem : les gobelins "constituent un exemple parlant de la façon dont les signaux de récompense peuvent façonner le comportement d'un modèle de manière inattendue". Si le biais reste ici anodin, le même mécanisme pourrait amplifier des comportements bien plus problématiques, comme des partis pris factuels, des orientations idéologiques ou des biais discriminatoires, sans que les équipes ne s'en aperçoivent avant que le mal soit fait.

UECe cas illustre une vulnérabilité structurelle des pipelines RLHF qui pourrait alimenter les débats des régulateurs européens sur les exigences de sûreté et de traçabilité imposées par l'AI Act.

LLMsOpinion
1 source
OpenAI lance GPT-Rosalind, son premier modèle d'IA pour les sciences du vivant, conçu pour accélérer la découverte de médicaments et la génomique
3MarkTechPost 

OpenAI lance GPT-Rosalind, son premier modèle d'IA pour les sciences du vivant, conçu pour accélérer la découverte de médicaments et la génomique

OpenAI a lancé GPT-Rosalind, son premier modèle d'intelligence artificielle spécialisé dans les sciences du vivant, conçu pour accélérer la recherche en biologie, en génomique et en découverte de médicaments. Contrairement aux modèles généralistes comme GPT-5, GPT-Rosalind est fine-tuné sur les exigences analytiques propres à la recherche biologique : synthèse de littérature scientifique, conception de protocoles expérimentaux, prédiction de comportements de séquences ARN, et planification d'hypothèses. Le modèle est accessible via ChatGPT, Codex et l'API d'OpenAI, mais uniquement dans le cadre d'un programme d'accès contrôlé réservé aux entreprises qualifiées aux États-Unis. OpenAI lance simultanément un plugin Life Sciences pour Codex, connectant les modèles à plus de 50 outils scientifiques et bases de données biologiques. Sur le benchmark BixBench, conçu pour évaluer des tâches réelles de bioinformatique, GPT-Rosalind atteint un taux de réussite de 0,751. Sur LABBench2, il surpasse GPT-5.4 sur six des onze tâches testées, avec des gains particulièrement nets sur CloningQA, qui évalue la conception de réactifs pour des protocoles de clonage moléculaire. Le potentiel concret de ce modèle est illustré par une évaluation menée en partenariat avec Dyno Therapeutics sur des séquences ARN inédites, jamais intégrées à aucun corpus d'entraînement public. Dans cet environnement Codex, les meilleures soumissions du modèle se sont classées au-dessus du 95e percentile des experts humains pour les tâches de prédiction, et au 84e percentile pour la génération de séquences. Ce résultat est particulièrement significatif car il exclut tout effet de mémorisation et démontre une capacité de raisonnement réelle sur des données biologiques nouvelles. Pour l'industrie pharmaceutique, où le développement d'un médicament prend en moyenne dix à quinze ans et coûte des milliards de dollars, des outils capables de compresser les phases analytiques les plus lourdes représentent un levier économique et scientifique considérable. Ce lancement s'inscrit dans une course que se livrent les grands laboratoires d'IA pour s'imposer dans les sciences de la vie, un secteur qui attire des investissements massifs et où les enjeux réglementaires sont élevés. Google DeepMind a déjà marqué ce terrain avec AlphaFold pour la prédiction de structures protéiques, tandis que des startups comme Insilico Medicine ou Recursion Pharmaceuticals misent sur l'IA pour repenser entièrement le pipeline de découverte de médicaments. OpenAI positionne GPT-Rosalind non pas comme un remplaçant des chercheurs, mais comme un assistant capable de prendre en charge les étapes les plus chronophages du processus scientifique. L'accès restreint au lancement, avec des garde-fous techniques pour signaler les activités potentiellement dangereuses, reflète la prudence qu'impose ce domaine sensible, où une erreur de modèle pourrait avoir des conséquences directes sur des protocoles de laboratoire ou des décisions cliniques.

UEL'accès étant limité aux entreprises américaines qualifiées au lancement, l'impact immédiat sur les biotechs et laboratoires pharmaceutiques européens est indirect, mais ce type de modèle spécialisé pourrait redéfinir les standards de R&D dans un secteur encadré par la réglementation européenne sur les médicaments et les dispositifs médicaux.

LLMsActu
1 source
#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6
4Next INpact 

#Nextquick : Pourquoi et comment Opus 4.7 crame ses tokens beaucoup plus vite qu’Opus 4.6

Depuis le lancement d'Opus 4.7, de nombreux utilisateurs d'Anthropic constatent que leur forfait de tokens s'épuise nettement plus vite qu'avec la version précédente du modèle. Les tarifs affichés sont pourtant identiques : 5 dollars par million de tokens en entrée et 25 dollars par million en sortie, exactement comme pour Opus 4.6. Mais Anthropic reconnaît lui-même qu'une même requête peut consommer entre 1,0 et 1,35 fois plus de tokens avec Opus 4.7, selon le type de contenu, en raison d'un nouveau tokeniseur intégré au modèle. À cela s'ajoute un comportement de raisonnement plus intensif : Opus 4.7 génère davantage de tokens de sortie lorsqu'il fait face à des tâches complexes, car il mobilise un effort cognitif plus soutenu. Des tests comparatifs sur des prompts simples ont mis en évidence une consommation supérieure de 41 % par rapport à Opus 4.6. Claude Code, l'outil de développement assisté d'Anthropic, était particulièrement touché, avant qu'Anthropic n'intervienne pour réduire la verbosité des réponses. Cette sur-consommation a des conséquences financières directes et non négligeables pour les développeurs et les entreprises qui utilisent l'API à grande échelle. À usage identique, le coût réel d'Opus 4.7 dépasse celui d'Opus 4.6 malgré un tarif affiché identique, ce qui brouille la lisibilité budgétaire pour les équipes techniques. Pour les abonnés aux forfaits à volume fixe, c'est une érosion accélérée des quotas mensuels, parfois sans modification de leurs pratiques d'utilisation. Le problème touche aussi bien les développeurs indépendants que les équipes professionnelles intégrant Claude dans des pipelines automatisés. Ce décalage entre prix nominal et coût réel illustre une tension croissante dans l'industrie des LLM : les modèles deviennent plus capables, mais leur économie d'usage se complexifie. Le passage à un nouveau tokeniseur, décision technique invisible pour l'utilisateur final, peut bouleverser les budgets sans que les grilles tarifaires ne changent d'un centime. Anthropic a partiellement corrigé le tir en limitant la longueur des réponses, mais la question de la transparence sur le coût effectif des tokens reste ouverte, d'autant que les prochaines versions de Claude continueront probablement d'évoluer dans cette direction de raisonnement étendu.

UELes développeurs et entreprises européens utilisant l'API Claude d'Anthropic subissent une hausse de coût réel de 20 à 41% sans modification du tarif affiché, dégradant la prévisibilité budgétaire des équipes techniques intégrant Claude dans des pipelines automatisés.

💬 41% de tokens en plus sur des prompts simples, avec un tarif affiché inchangé, c'est une hausse de prix déguisée. Le nouveau tokeniseur d'Opus 4.7 est une décision technique totalement invisible pour l'utilisateur, mais elle peut faire sauter des budgets entiers sans que personne n'ait changé la moindre ligne de code. Bonne chance pour l'expliquer à ton DAF.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour