Aller au contenu principal
Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude
LLMsVentureBeat AI6sem

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude

Résumé IASource uniqueImpact UE
Source originale ↗·

Pendant plusieurs semaines, des développeurs et utilisateurs avancés d'Anthropic ont signalé une dégradation notable des performances de Claude, le modèle phare de la startup. Le 24 avril 2026, Anthropic a publié un post-mortem technique détaillé reconnaissant que trois modifications distinctes apportées à l'environnement d'exécution du modèle, et non aux poids du modèle lui-même, étaient responsables des problèmes signalés. Premier changement : le 4 mars, le niveau d'effort de raisonnement par défaut dans Claude Code a été abaissé de "élevé" à "moyen" pour réduire la latence d'interface. Deuxième changement : le 26 mars, un bug dans une optimisation de cache supprimait l'historique de raisonnement du modèle à chaque tour de conversation après une heure d'inactivité, plutôt qu'une seule fois, privant le modèle de sa mémoire à court terme. Troisième changement : le 16 avril, des instructions limitant les réponses à 25 mots entre les appels d'outils et 100 mots pour les réponses finales ont provoqué une baisse de 3 % sur les évaluations de qualité de code. Anthropic affirme avoir résolu les trois problèmes dans la version v2.1.116.

Ces dysfonctionnements ont eu des conséquences concrètes et mesurables. Stella Laurenzo, directrice senior dans le groupe IA d'AMD, a publié sur GitHub une analyse de 6 852 fichiers de session Claude Code et plus de 234 000 appels d'outils, montrant une chute significative de la profondeur de raisonnement et une tendance du modèle à privilégier "la correction la plus simple" plutôt que la bonne. Le cabinet BridgeMind a quant à lui documenté une chute du taux de précision de Claude Opus 4.6 de 83,3 % à 68,3 %, faisant chuter son classement de la 2e à la 10e place dans leurs tests. Les effets ne se sont pas limités à l'interface CLI Claude Code : le Claude Agent SDK et Claude Cowork ont également été touchés, bien que l'API Claude directe soit restée indemne. La confiance des développeurs, particulièrement des équipes d'ingénierie qui s'appuyaient sur Claude pour des tâches complexes, a subi un coup sérieux.

La controverse avait commencé à prendre de l'ampleur début avril 2026, alimentée par des analyses techniques détaillées circulant sur GitHub, X et Reddit sous le terme "AI shrinkflation". Anthropic avait d'abord repoussé les accusations de dégradation volontaire du modèle, notamment les soupçons de bridage délibéré pour gérer une demande en forte hausse. Le post-mortem publié marque un changement de posture : l'entreprise reconnaît explicitement que ces modifications ont donné l'impression que le modèle était "moins intelligent". Pour l'avenir, Anthropic annonce la mise en place de garde-fous supplémentaires pour détecter ce type de régressions avant déploiement, et s'engage à communiquer plus rapidement en cas de problèmes similaires. L'épisode soulève une question structurelle pour l'industrie : à mesure que les modèles d'IA s'intègrent dans des workflows critiques, la frontière entre modèle et infrastructure d'exécution devient un vecteur de dégradation silencieuse difficile à diagnostiquer de l'extérieur.

Impact France/UE

Les développeurs européens utilisant Claude Code ou le Claude Agent SDK ont subi la même dégradation de performances documentée, affectant leurs workflows critiques jusqu'au correctif publié dans la version v2.1.116.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Anthropic lance Claude Opus 4.8 : L’IA délivrée des hallucinations enfin arrivée ?
1Le Big Data 

Anthropic lance Claude Opus 4.8 : L’IA délivrée des hallucinations enfin arrivée ?

Anthropic a lancé le 28 mai 2026 Claude Opus 4.8, la nouvelle version de son modèle phare, disponible immédiatement au même tarif que son prédécesseur Opus 4.7. Le modèle affiche des performances notables sur les benchmarks techniques : 69,2 % sur SWE-Bench Pro et 74,6 % sur Agentic Terminal Coding, des scores qui le placent devant GPT-5.5 d'OpenAI et Gemini 3.1 Pro de Google selon les comparatifs publiés par Anthropic. Dans Claude Code, l'entreprise introduit un système de flux de travail dynamiques capable de générer des scripts JavaScript pour orchestrer des centaines de sous-agents en parallèle. Un utilisateur a rapporté avoir réécrits 750 000 lignes de code en 11 jours grâce à ce système. Un mode rapide est également disponible via la commande /fast : même modèle, vitesse 2,5 fois supérieure, coût réduit de près des deux tiers. La principale promesse d'Opus 4.8 n'est pas spectaculaire mais potentiellement décisive : la fiabilité. Anthropic cible directement le problème des hallucinations et de la fausse confiance qui plombe l'adoption des IA en contexte professionnel. Le modèle serait désormais capable de reconnaître ses propres limites, de signaler ses incertitudes et d'identifier des incohérences dans ses propres analyses avant que l'utilisateur ne s'en aperçoive. Michael Ran de Bridgewater Associates, la plus grande société de gestion de fonds au monde, témoigne que Claude Opus 4.8 repère de lui-même certains problèmes dans les analyses produites, là où d'autres modèles laissaient passer les erreurs silencieusement. Anthropic affirme également avoir réduit les risques de comportements désalignés et amélioré la gestion des contenus sensibles. Opus 4.8 s'inscrit dans un cycle de publication accéléré chez Anthropic : Opus 4.7 n'avait été lancé que quelques semaines auparavant. L'entreprise prend soin de qualifier cette nouvelle version d'amélioration « modeste mais tangible », une prudence qui répond aux critiques adressées à Opus 4.7, accusé d'une réflexion adaptative mal calibrée, trop de temps sur les tâches simples, trop peu sur les complexes. Pour corriger ce défaut, Anthropic introduit un panneau de contrôle de l'effort permettant aux utilisateurs d'ajuster le niveau de réflexion du modèle selon la nature de la tâche. La course à la fiabilité devient ainsi le nouveau front concurrentiel entre les grands laboratoires, après la course aux paramètres et aux benchmarks bruts qui a dominé les deux dernières années.

💬 La promesse anti-hallucinations, c'est l'angle qui m'accroche ici, pas les benchmarks SWE. Un modèle qui repère ses propres incohérences avant que tu t'en aperçoives, ça débloque l'adoption en contexte pro mieux que n'importe quel score sur un leaderboard. Le `/fast` à moins 65% de coût en prime, c'est du concret.

LLMsOpinion
1 source
2MarkTechPost 

Anthropic lance Claude Opus 4.7 : une mise à jour majeure pour le codage par agents, la vision haute résolution et les tâches autonomes longues

Anthropic a lancé Claude Opus 4.7, successeur direct d'Opus 4.6, en le positionnant comme une amélioration ciblée plutôt qu'un saut générationnel complet. Le modèle se place au sommet de la gamme Anthropic, au-dessus de Haiku et Sonnet, juste en dessous du mystérieux Claude Mythos, encore en accès restreint. Sur un benchmark de 93 tâches de programmation, Opus 4.7 améliore le taux de résolution de 13 % par rapport à Opus 4.6, dont quatre tâches qu'aucun modèle précédent ne parvenait à résoudre. Sur CursorBench, référence populaire chez les développeurs, il atteint 70 % contre 58 % pour son prédécesseur. Les gains sont encore plus nets sur les workflows complexes : un testeur rapporte une amélioration de 14 % sur des tâches multi-étapes, avec moins de tokens consommés et un tiers des erreurs d'outils, et Opus 4.7 est le premier modèle à réussir leurs tests de "besoins implicites", continuant à exécuter même quand des outils échouent en cours de route. Ce qui rend cette version particulièrement significative pour les équipes engineering, c'est la capacité du modèle à vérifier ses propres sorties avant de rendre la main. Les versions précédentes produisaient des résultats sans validation interne ; Opus 4.7 intègre cette boucle de contrôle de façon autonome, ce qui a des implications directes pour les pipelines CI/CD et les workflows agentiques longue durée. En parallèle, la résolution des images passe à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la capacité des modèles Claude précédents. L'impact en production est immédiat : un testeur travaillant sur des workflows "computer-use" rapporte un score de 98,5 % sur leur benchmark de précision visuelle, contre 54,5 % pour Opus 4.6. Les agents qui lisent des captures d'écran denses, extraient des données de diagrammes complexes ou travaillent sur des interfaces pixel-perfect bénéficient directement de cette amélioration, sans modifier leur code, les images sont simplement traitées avec une meilleure fidélité. Du côté de l'API, Anthropic introduit deux nouveaux leviers. Un niveau d'effort "xhigh" (extra high) s'intercale entre "high" et "max", offrant un contrôle plus fin sur le compromis entre qualité de raisonnement et latence. Claude Code passe d'ailleurs à xhigh par défaut pour tous les abonnements. Ces annonces s'inscrivent dans une course à l'agent autonome où Anthropic se positionne clairement : après les améliorations de Sonnet 4.6 sur les tâches longues durée, Opus 4.7 cible les cas les plus difficiles, ceux qui nécessitaient jusqu'ici une supervision humaine rapprochée. Avec Claude Mythos en coulisses et une gamme qui s'étoffe à tous les niveaux, Anthropic consolide son avance sur le segment des développeurs professionnels et des applications d'IA en production.

LLMsOpinion
1 source
Claude Opus 4.8 d'Anthropic disponible : mode rapide 3 fois moins cher et alignement proche de Mythos
3VentureBeat AI 

Claude Opus 4.8 d'Anthropic disponible : mode rapide 3 fois moins cher et alignement proche de Mythos

Anthropic a lancé le 28 mai 2026 Claude Opus 4.8, une mise à jour de son modèle phare, disponible immédiatement sur claude.ai, Claude Code, l'API et Cowork. La tarification standard reste inchangée par rapport à Opus 4.7 : 5 dollars par million de tokens en entrée et 25 dollars par million de tokens en sortie. La grande nouveauté est le mode rapide ("fast mode"), qui génère les tokens à environ 2,5 fois la vitesse normale et voit son prix chuter à 10 dollars par million de tokens en entrée et 50 dollars en sortie, soit une réduction de trois fois par rapport aux 30/150 dollars du mode rapide d'Opus 4.7. Sur les benchmarks, les progrès sont réels mais modestes : 88,6 % sur SWE-bench Verified (contre 87,6 % pour Opus 4.7), 69,2 % sur SWE-bench Pro (contre 64,3 %) et 74,6 % sur Terminal-Bench 2.1 (contre 66,1 %). Opus 4.8 surpasse également GPT-5.5 d'OpenAI sur au moins 12 benchmarks, notamment en raisonnement, en codage et en utilisation d'outils agentiques. Cette baisse tarifaire sur le mode rapide est significative pour l'industrie : elle rend l'inférence à haut débit accessible aux applications de production sensibles à la latence, un segment jusqu'ici réservé aux modèles moins puissants. Databricks a rapporté une réduction de 61 % du coût en tokens par rapport à Opus 4.7, grâce à une meilleure efficacité multimodale sur les PDF et diagrammes. La startup Cognition, éditrice de Devin, confirme que le modèle corrige des problèmes de verbosité et d'appels d'outils présents dans Opus 4.7. Un fournisseur spécialisé en computer-use a atteint 84 % sur le benchmark Online-Mind2Web, dépassant à la fois Opus 4.7 et GPT-5.5. Anthropic introduit également en préversion les "dynamic workflows" dans Claude Code, permettant de lancer des centaines de sous-agents en parallèle pour des tâches dépassant la capacité d'une seule fenêtre de contexte. Opus 4.8 s'inscrit dans une trajectoire d'accélération chez Anthropic, qui positionne ce modèle entre Opus 4.7 et Claude Mythos Preview, un modèle plus puissant actuellement limité à un petit nombre d'organisations dans le cadre du Project Glasswing, dédié à la cybersécurité. Anthropic a annoncé vouloir mettre des "modèles de classe Mythos" à la disposition de l'ensemble de ses clients dans les prochaines semaines, une fois des garde-fous cyber supplémentaires en place. La course au sommet se joue désormais sur plusieurs fronts simultanément : la puissance brute, le coût d'inférence et les capacités agentiques, trois axes où OpenAI, Google et les acteurs chinois comme DeepSeek ou Alibaba exercent une pression croissante sur Anthropic.

UELa réduction tarifaire du mode rapide (3x moins cher) rend l'inférence haute performance directement accessible aux développeurs et entreprises européens qui déploient des LLMs en production.

💬 Le vrai truc, c'est pas les benchmarks (modestes, clairement), c'est le fast mode à 10 dollars le million de tokens, trois fois moins cher qu'Opus 4.7 : ça rend enfin l'inférence haute vitesse viable en prod sans sacrifier un modèle plus faible. Les dynamic workflows dans Claude Code, des centaines de sous-agents en parallèle, c'est le genre de truc qu'on attendait depuis 2 ans. Et Mythos pour tout le monde dans les semaines qui viennent, bon, sur le papier c'est prometteur.

LLMsActu
1 source
4Le Big Data 

Bilan IA Mars 2026 : GPT-5.4, Claude Mythos, Gemini 3.1 et la révolution des agents

Mars 2026 restera dans les annales de l'intelligence artificielle comme le mois où l'industrie a basculé dans une nouvelle ère. Entre le 10 et le 16 mars, douze modèles majeurs ont été déployés simultanément par OpenAI, Google, Anthropic, xAI et Mistral, une cadence sans précédent qui compresse en sept jours ce qui prenait auparavant plusieurs années. OpenAI a lancé la gamme GPT-5.4 déclinée en cinq variantes (Standard, Pro, Thinking, mini, nano), avec une architecture d'orchestration inédite basée sur la récupération dynamique des outils (tool search) qui réduit l'utilisation de jetons de 47 %. Le modèle atteint 75 % sur le benchmark OSWorld-Verified, dépassant pour la première fois la ligne de base humaine fixée à 72,4 %, et réduit les hallucinations de 33 % par rapport à GPT-5.2. Google a riposté avec Gemini 3.1 Flash-Lite à 0,25 dollar le million de jetons, déclenchant un effondrement généralisé des tarifs API. De son côté, Anthropic a stabilisé Claude Sonnet 4.6 comme référence développeur avec une fenêtre de contexte d'un million de tokens. Le changement de paradigme dépasse la simple guerre des benchmarks : l'IA conversationnelle est morte, l'IA agentique lui a succédé. Ces nouveaux systèmes ne se contentent plus de générer du texte, ils naviguent sur des interfaces, remplissent des tableurs, orchestrent des workflows complexes de bout en bout, et communiquent en multimodal temps réel (full-duplex). Pour les développeurs et les entreprises, cela signifie qu'il est désormais possible de déléguer des séquences d'actions longues à des agents autonomes avec un niveau de fiabilité qui n'existait pas six mois auparavant. Mais c'est l'événement Anthropic qui a le plus secoué les marchés : une erreur de configuration a provoqué la fuite de 3 000 documents internes révélant l'existence de Claude Mythos, un modèle non publié aux capacités offensives en cybersécurité. Le secteur a immédiatement chuté de 14,5 milliards de dollars en capitalisation boursière. Cette accélération s'inscrit dans une course aux armements financière et géopolitique à grande échelle. OpenAI a levé 3 milliards de dollars supplémentaires, portant sa valorisation à 852 milliards, tandis que la Chine renforçait son initiative stratégique "AI Plus" en réponse directe. En Europe, AMI Labs, la startup fondée par Yann LeCun, a levé plus d'un milliard de dollars en amorçage pour développer des architectures alternatives aux modèles américains dominants. La fuite de Claude Mythos pose une question qui dépassera largement mars 2026 : comment réguler des modèles dont les capacités offensives restent secrètes jusqu'à leur divulgation accidentelle ? Les suites législatives, notamment en Europe et aux États-Unis, s'annoncent déterminantes pour la prochaine phase du déploiement agentique à l'échelle industrielle.

UEAMI Labs, la startup européenne fondée par Yann LeCun, a levé plus d'un milliard de dollars pour développer des architectures alternatives aux modèles américains, et la fuite de Claude Mythos relance en urgence le débat réglementaire européen sur l'encadrement des modèles aux capacités offensives non divulguées dans le cadre de l'AI Act.

LLMsActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour