Aller au contenu principal
GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !
LLMsLe Big Data16min

GPT-5.5 devient fou : il insère des gobelins partout dans ses réponses !

Résumé IASource uniqueImpact UE
Source originale ↗·

GPT-5.5, le dernier modèle d'OpenAI, s'est mis à glisser des gobelins, gremlins, ratons laveurs, trolls, ogres et pigeons dans ses réponses, même lorsque le sujet n'a aucun rapport avec ces créatures. Le phénomène a été documenté publiquement le 28 avril 2026 par Arena.ai, qui a publié un graphique montrant l'évolution de l'utilisation de ces termes par les modèles GPT au fil du temps. La réaction d'OpenAI ne s'est pas fait attendre : des développeurs ont découvert dans Codex une instruction système associée à GPT-5.5 qui interdit explicitement au modèle de mentionner gobelins, gremlins, ratons laveurs, trolls, ogres ou pigeons, sauf si cela est strictement pertinent à la demande de l'utilisateur.

Ce comportement, qualifié par plusieurs spécialistes d'« effondrement de mode », serait lié aux données d'entraînement du modèle : GPT-5.5 aurait développé un tic linguistique, répétant certains motifs de façon excessive et incontrôlée. Si quelques utilisateurs y voient une touche d'humour involontaire et presque attachante, la manière dont OpenAI a choisi de réagir suscite davantage de critiques. Sur X, un utilisateur a résumé l'incompréhension générale : face à un comportement aussi inattendu dans un système aussi avancé, la réponse n'a pas été de chercher la cause profonde du problème, mais simplement d'ordonner au modèle de ne plus mentionner ces créatures. D'autres interprètent l'instruction comme une hostilité ciblée envers les pigeons et les ratons laveurs, ce qui n'a fait qu'amplifier les moqueries en ligne.

Ce bug illustre un problème fondamental que l'industrie de l'IA peine encore à résoudre : les grands modèles de langage restent des boîtes noires. Comme l'a formulé un utilisateur de Reddit, on peut identifier un comportement anormal et le corriger par instruction directe, mais expliquer précisément pourquoi il est apparu reste hors de portée. OpenAI n'est pas la première entreprise confrontée à des dérives comportementales inattendues dans ses modèles, et chaque incident de ce type relance le débat sur l'interprétabilité des systèmes d'IA et la solidité des processus d'entraînement. Sam Altman a choisi de désamorcer la situation avec humour, partageant une capture d'écran évoquant l'entraînement de GPT-6 avec « encore plus de gobelins », mais cette légèreté n'efface pas la question de fond : à mesure que ces modèles deviennent plus puissants et plus intégrés dans des outils professionnels comme Codex, leur imprévisibilité devient un risque difficile à ignorer.

Impact France/UE

Ce comportement imprévisible alimente le débat européen sur l'interprétabilité et la transparence des LLMs, un enjeu central de l'AI Act.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

GPT-5.5 : OpenAI révèle comment l’IA Spud va tout changer dans ChatGPT
1Le Big Data 

GPT-5.5 : OpenAI révèle comment l’IA Spud va tout changer dans ChatGPT

OpenAI s'apprête à lancer GPT-5.5, propulsé par un nouveau modèle de fondation baptisé en interne "Spud". L'annonce a été faite par Greg Brockman, président d'OpenAI, lors d'une intervention dans le podcast Big Technology début avril 2026. Spud n'est pas une mise à jour incrémentale : il s'agit d'une architecture de pré-entraînement entièrement repensée, fruit de deux ans de recherche intensive dans les laboratoires d'OpenAI. Ce modèle de base servira de fondation à toutes les futures déclinaisons de ChatGPT, remplaçant les socles précédents par une infrastructure centralisée pensée pour des capacités de calcul et de raisonnement significativement supérieures. Brockman décrit ce saut comme un "big model smell" — une sensation perceptible que le modèle est notablement plus intelligent et s'adapte mieux aux intentions de l'utilisateur dès la première requête. L'impact concret se situe d'abord dans la qualité des interactions quotidiennes. Là où les utilisateurs actuels de ChatGPT doivent parfois reformuler plusieurs fois une demande pour obtenir la réponse souhaitée, Spud vise à saisir l'intention sans friction. Pour les professionnels qui utilisent l'IA pour de la rédaction, de la programmation ou de la prise de décision, cette réduction du "coût cognitif" de l'interaction représente un gain de productivité direct. Les entreprises intégrant ChatGPT dans leurs workflows pourront s'appuyer sur un modèle plus fiable et moins imprévisible. Au-delà des usages courants, c'est aussi la porte d'entrée vers des applications d'automatisation plus complexes, où la précision de compréhension du langage naturel est critique. Ce lancement s'inscrit dans une course technologique qui s'accélère. OpenAI fait face à une concurrence intense de Google avec Gemini, d'Anthropic avec Claude, et d'acteurs émergents comme xAI. Dans ce contexte, Spud est présenté par Brockman non pas seulement comme un produit commercial, mais comme une étape sur la trajectoire vers l'intelligence artificielle générale — une IA capable d'opérer sur des domaines variés avec la flexibilité d'un raisonnement humain. Si cette vision reste ambitieuse, la centralisation de la recherche dans un seul modèle de fondation robuste est une stratégie délibérée pour accélérer le rythme des itérations futures. Les concurrents devront désormais répondre non seulement à GPT-5.5, mais à toute une lignée de modèles qui en découleront, rendant la fenêtre de rattrapage plus étroite que jamais.

UELes développeurs et entreprises européens intégrant ChatGPT dans leurs workflows bénéficieront d'un modèle potentiellement plus précis, mais aucun impact réglementaire ou institutionnel direct sur la France ou l'UE n'est mentionné.

LLMsOpinion
1 source
GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0
2VentureBeat AI 

GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0

OpenAI a dévoilé GPT-5.5 ce 23 avril 2026, le modèle le plus puissant de l'entreprise à ce jour, connu en interne sous le nom de code "Spud". Présenté lors d'un appel avec des journalistes, le modèle a été décrit par Amelia Glaese, vice-présidente de la recherche chez OpenAI, comme "le modèle le plus solide que nous ayons jamais produit sur le codage, à la fois selon les benchmarks et selon les retours de nos partenaires de confiance". Greg Brockman, cofondateur et président d'OpenAI, a insisté sur sa capacité à travailler de manière autonome : "C'est bien plus intuitif à utiliser. Il peut regarder un problème peu défini et déterminer lui-même ce qui doit se passer ensuite." Sur le plan technique, GPT-5.5 tourne sur les systèmes NVIDIA GB200 et GB300 NVL72, avec des algorithmes heuristiques personnalisés rédigés par l'IA elle-même pour optimiser la répartition des calculs sur les cœurs GPU, ce qui a augmenté la vitesse de génération de tokens de plus de 20%. Le modèle égale la latence par token de son prédécesseur GPT-5.4, tout en offrant un niveau d'intelligence supérieur. GPT-5.4 reste disponible pour les utilisateurs et entreprises à la moitié du coût API du nouveau modèle. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son orientation vers la performance dite "agentique" : le modèle est conçu pour gérer des tâches complexes et fragmentées de façon autonome, sans besoin d'instructions pas à pas. Il excelle en codage, en recherche scientifique et en "computer use", c'est-à-dire l'interaction directe avec des systèmes d'exploitation et des logiciels professionnels. Un mode "GPT-5.5 Thinking" a également été introduit dans ChatGPT pour les raisonnements à forts enjeux : il laisse au modèle davantage de temps de calcul interne pour vérifier ses hypothèses avant de répondre. Sur le benchmark interne "Expert-SWE", mesurant des tâches de codage longues dont le temps de complétion médian est de 20 heures pour un humain, GPT-5.5 surpasse GPT-5.4 tout en utilisant significativement moins de tokens. La course aux grands modèles de langage entre OpenAI, Anthropic et Google n'a jamais été aussi serrée. Il y a exactement une semaine, Anthropic avait lancé Claude Opus 4.7, qui avait temporairement pris la tête du classement sur le plus grand nombre de benchmarks tiers. GPT-5.5 reprend aujourd'hui cet avantage sur les modèles publiquement disponibles, et dépasse même Opus 4.7 sur la quasi-totalité des tests de référence. Seul le modèle Claude Mythos Preview d'Anthropic, non disponible au grand public et fortement restreint, résiste encore sur Terminal-Bench 2.0, où il devance GPT-5.5 dans une marge si étroite qu'elle s'apparente à une égalité statistique. Cette dynamique illustre à quel point la frontière technologique entre les trois acteurs dominants s'est réduite, chaque nouveau modèle détrônant le précédent en l'espace de quelques semaines.

UELes développeurs et entreprises français et européens utilisant les API OpenAI pourront évaluer GPT-5.5 pour leurs usages en codage et tâches agentiques, sans impact réglementaire ou institutionnel spécifique à la France ou à l'UE.

💬 Une semaine après Opus 4.7, OpenAI reprend la tête. Le seul modèle qui résiste encore à GPT-5.5, c'est Mythos Preview d'Anthropic, sauf qu'il n'est pas disponible au grand public, donc dans la vraie vie des développeurs, OpenAI est devant. C'est le genre de course où chaque sortie rend la précédente obsolète avant qu'on ait fini de l'évaluer.

LLMsActu
1 source
Fin de GPT-5.4 et Gemini 3.1 ? Meta mise tout sur Muse Spark
3Le Big Data 

Fin de GPT-5.4 et Gemini 3.1 ? Meta mise tout sur Muse Spark

Meta a officiellement lancé Muse Spark ce mercredi 8 avril 2026, neuf mois après la création discrète des Meta Superintelligence Labs, une structure restée secrète depuis sa fondation. Contrairement aux versions précédentes de Llama, Muse Spark est présenté comme un modèle de raisonnement multimodal natif, capable d'utiliser des outils, d'orchestrer plusieurs agents autonomes en simultané et d'analyser des contenus visuels via une chaîne de pensée visuelle. Le modèle intègre un mode baptisé "Contemplating", qui permet à l'IA de vérifier ses propres conclusions avant d'agir. Il est disponible dès aujourd'hui en aperçu privé via API sur meta.ai et dans les applications du groupe. Zuckerberg a évoqué une ouverture future du code source, sans donner de date précise. L'impact potentiel de Muse Spark touche à la fois le grand public et des secteurs sensibles comme la santé. L'IA est conçue pour exécuter des tâches concrètes à la place de l'utilisateur, par exemple identifier des pièces défectueuses sur un appareil filmé en temps réel et afficher des instructions de réparation directement à l'écran. Sur le volet médical, Meta affirme avoir entraîné le modèle avec la contribution de mille médecins experts, permettant à l'IA d'analyser des symptômes ou des habitudes alimentaires pour formuler des conseils de nutrition. Cette ambition de transformer WhatsApp en interface de conseil médical soulève des questions importantes pour les régulateurs du monde entier, notamment sur la responsabilité en cas d'erreur et la protection des données de santé. Ce lancement s'inscrit dans une course frontale à la superintelligence qui oppose désormais Meta à OpenAI et Google. Depuis plusieurs trimestres, Zuckerberg multiplie les investissements massifs en infrastructures et en recrutement de chercheurs d'élite pour combler le retard accumulé face à GPT-5 et Gemini. La création des Meta Superintelligence Labs dans la discrétion témoigne d'une volonté de structurer la recherche avancée en dehors des divisions existantes. La capacité d'orchestration multi-agents de Muse Spark place Meta directement en concurrence avec les systèmes agentiques développés par Google DeepMind et les projets d'OpenAI autour des agents autonomes. Les prochaines semaines seront déterminantes : l'accès public à l'API permettra aux développeurs d'évaluer les performances réelles du modèle, au-delà des démonstrations contrôlées, et de mesurer si Meta tient ses promesses face aux standards déjà établis par ses rivaux.

UEL'intégration de conseils médicaux via WhatsApp soulève des enjeux majeurs de protection des données de santé sous le RGPD, susceptibles d'entraîner une intervention des régulateurs européens dont la CNIL.

LLMsOpinion
1 source
Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses
4Le Big Data 

Les rumeurs disaient vrai : OpenAI lâche GPT-5.5, et ça change pas mal de choses

OpenAI a officiellement lancé GPT-5.5 le 23 avril 2026, confirmant ainsi les rumeurs qui circulaient depuis plusieurs jours. Sam Altman a annoncé le modèle directement sur X, déclarant simplement qu'il "l'apprécie beaucoup", une formulation sobre pour un lancement que l'entreprise présente comme un véritable saut technologique. Le modèle est immédiatement disponible dans ChatGPT pour les abonnés Plus, Pro et Business sous la dénomination GPT-5.5 Thinking, avec une version GPT-5.5 Pro réservée aux traitements de données massifs exigeant une précision maximale. Les développeurs accédant via Codex bénéficient quant à eux d'une fenêtre de contexte de 400 000 tokens, suffisante pour ingérer des projets entiers en une seule passe. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son autonomie opérationnelle. Là où les modèles précédents attendaient une instruction à chaque étape, celui-ci est conçu pour piloter des tâches complexes de bout en bout, en analysant, planifiant et utilisant les logiciels disponibles sans intervention humaine continue. En développement logiciel, cela se traduit concrètement par une capacité à résoudre des projets GitHub entiers en une seule passe, à déboguer de manière autonome en identifiant l'origine d'une faille là où un développeur passerait plusieurs heures, et à anticiper les effets de bord sur le reste du système. L'enthousiasme dans l'industrie est tel qu'un ingénieur chez NVIDIA a comparé l'idée de perdre l'accès au modèle à une amputation physique. Parallèlement, GPT-5.5 maintient une latence comparable à GPT-5.4 tout en consommant moins de tokens pour produire des résultats de meilleure qualité, ce qui améliore directement l'équation coût-performance pour les usages intensifs. Ce lancement s'inscrit dans une course à l'IA générative où chaque acteur cherche à franchir le palier de l'agent autonome, capable d'agir sur un ordinateur plutôt que de simplement répondre à des questions. OpenAI positionnne GPT-5.5 explicitement comme une "nouvelle classe d'intelligence pour le travail réel", ce qui signale un pivot stratégique vers les cas d'usage professionnels et les pipelines agentiques, au détriment du chatbot conversationnel grand public. Google, Anthropic et Meta s'engagent sur le même terrain avec leurs propres modèles capables d'utiliser des outils et d'exécuter des tâches multi-étapes. La disponibilité immédiate dans Codex suggère qu'OpenAI mise sur les développeurs comme vecteur d'adoption prioritaire, une population qui teste vite, publie ses benchmarks et influence ensuite les décisions d'achat des entreprises. La prochaine étape logique sera l'intégration plus profonde dans des environnements d'entreprise, avec des questions de sécurité, de traçabilité et de gouvernance que GPT-5.5 n'adresse pas encore publiquement.

UELes développeurs et entreprises européens utilisant l'API OpenAI via Codex peuvent immédiatement tester les capacités agentiques de GPT-5.5, ce qui soulève des questions de gouvernance et de traçabilité directement pertinentes dans le contexte du règlement européen sur l'IA.

LLMsOpinion
1 source