Aller au contenu principal
LLMsVentureBeat AI6sem

Anthropic affaiblit-il Claude ? Les utilisateurs signalent des baisses de performances, les dirigeants démentent

Résumé IASource uniqueImpact UE
Source originale ↗·

Depuis plusieurs semaines, une vague de plaintes monte sur GitHub, X et Reddit contre Anthropic : des développeurs et utilisateurs avancés accusent l'entreprise d'avoir dégradé les performances de Claude Opus 4.6 et de son outil de coding Claude Code, intentionnellement ou sous la pression de contraintes de calcul. Parmi les voix les plus documentées figure Stella Laurenzo, Senior Director au sein du groupe IA d'AMD, qui a publié le 2 avril 2026 une analyse détaillée sur GitHub portant sur 6 852 sessions Claude Code, 17 871 blocs de raisonnement et 234 760 appels d'outils. Ses conclusions : à partir de février, la profondeur estimée du raisonnement de Claude a chuté significativement, accompagnée d'une hausse des arrêts prématurés, d'un comportement orienté vers "la correction la plus simple", de boucles de raisonnement et d'un glissement de l'approche recherche-d'abord vers édition-d'abord. Relayée le 11 avril sur X par le compte @Hesamation, cette analyse est devenue virale, transformant une frustration diffuse en grief structuré porté par une cadre senior d'une grande entreprise de semi-conducteurs.

L'enjeu est significatif pour les professionnels qui dépendent de Claude dans des workflows d'ingénierie complexes. Pour eux, le raisonnement étendu n'est pas un luxe mais une condition de base de l'utilisabilité du modèle. Le phénomène a été qualifié de "shrinkflation de l'IA" : payer le même tarif pour un produit moins performant. Si les accusations de throttling délibéré restent non prouvées, elles témoignent d'une érosion de confiance mesurable chez une frange d'utilisateurs à forte valeur, précisément ceux qu'Anthropic cherche à fidéliser dans le segment enterprise et développeur.

Anthropic a répondu via Boris Cherny, lead de Claude Code, dans un commentaire épinglé sur le fil GitHub. Il a reconnu deux changements produit récents : le passage d'Opus 4.6 au mode "adaptive thinking" par défaut le 9 février, et une transition vers un niveau d'effort "medium" le 3 mars. Sur le point technique central de l'analyse de Laurenzo, il a précisé que l'en-tête "redact-thinking-2026-02-12" est une modification purement visuelle qui masque le raisonnement dans l'interface et réduit la latence perçue, sans affecter le raisonnement sous-jacent ni les budgets de réflexion alloués. Ces clarifications n'ont pas totalement calmé la controverse : VentureBeat a contacté Anthropic pour obtenir des précisions sur d'éventuels changements de paramètres d'inférence, de gestion du contexte ou de méthodologie de benchmark, et attendait toujours une réponse au moment de la publication. L'épisode illustre la tension croissante entre les entreprises d'IA qui ajustent leurs modèles en production et des utilisateurs experts capables désormais d'instrumenter et de quantifier ces évolutions.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude
1VentureBeat AI 

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude

Pendant plusieurs semaines, des développeurs et utilisateurs avancés d'Anthropic ont signalé une dégradation notable des performances de Claude, le modèle phare de la startup. Le 24 avril 2026, Anthropic a publié un post-mortem technique détaillé reconnaissant que trois modifications distinctes apportées à l'environnement d'exécution du modèle, et non aux poids du modèle lui-même, étaient responsables des problèmes signalés. Premier changement : le 4 mars, le niveau d'effort de raisonnement par défaut dans Claude Code a été abaissé de "élevé" à "moyen" pour réduire la latence d'interface. Deuxième changement : le 26 mars, un bug dans une optimisation de cache supprimait l'historique de raisonnement du modèle à chaque tour de conversation après une heure d'inactivité, plutôt qu'une seule fois, privant le modèle de sa mémoire à court terme. Troisième changement : le 16 avril, des instructions limitant les réponses à 25 mots entre les appels d'outils et 100 mots pour les réponses finales ont provoqué une baisse de 3 % sur les évaluations de qualité de code. Anthropic affirme avoir résolu les trois problèmes dans la version v2.1.116. Ces dysfonctionnements ont eu des conséquences concrètes et mesurables. Stella Laurenzo, directrice senior dans le groupe IA d'AMD, a publié sur GitHub une analyse de 6 852 fichiers de session Claude Code et plus de 234 000 appels d'outils, montrant une chute significative de la profondeur de raisonnement et une tendance du modèle à privilégier "la correction la plus simple" plutôt que la bonne. Le cabinet BridgeMind a quant à lui documenté une chute du taux de précision de Claude Opus 4.6 de 83,3 % à 68,3 %, faisant chuter son classement de la 2e à la 10e place dans leurs tests. Les effets ne se sont pas limités à l'interface CLI Claude Code : le Claude Agent SDK et Claude Cowork ont également été touchés, bien que l'API Claude directe soit restée indemne. La confiance des développeurs, particulièrement des équipes d'ingénierie qui s'appuyaient sur Claude pour des tâches complexes, a subi un coup sérieux. La controverse avait commencé à prendre de l'ampleur début avril 2026, alimentée par des analyses techniques détaillées circulant sur GitHub, X et Reddit sous le terme "AI shrinkflation". Anthropic avait d'abord repoussé les accusations de dégradation volontaire du modèle, notamment les soupçons de bridage délibéré pour gérer une demande en forte hausse. Le post-mortem publié marque un changement de posture : l'entreprise reconnaît explicitement que ces modifications ont donné l'impression que le modèle était "moins intelligent". Pour l'avenir, Anthropic annonce la mise en place de garde-fous supplémentaires pour détecter ce type de régressions avant déploiement, et s'engage à communiquer plus rapidement en cas de problèmes similaires. L'épisode soulève une question structurelle pour l'industrie : à mesure que les modèles d'IA s'intègrent dans des workflows critiques, la frontière entre modèle et infrastructure d'exécution devient un vecteur de dégradation silencieuse difficile à diagnostiquer de l'extérieur.

UELes développeurs européens utilisant Claude Code ou le Claude Agent SDK ont subi la même dégradation de performances documentée, affectant leurs workflows critiques jusqu'au correctif publié dans la version v2.1.116.

LLMsOpinion
1 source
Claude Mythos : la prochaine IA surpuissante d’Anthropic vient de fuiter
2Le Big Data 

Claude Mythos : la prochaine IA surpuissante d’Anthropic vient de fuiter

Une fuite technique a exposé l'existence de Claude Mythos, le prochain grand modèle d'Anthropic, bien avant toute annonce officielle. Deux experts en cybersécurité ont découvert près de 3 000 fichiers internes accessibles librement en ligne, parmi lesquels un brouillon détaillant ce projet baptisé en interne « Capybara ». La publication Fortune a confirmé l'affaire, et Anthropic n'a pas nié : l'entreprise a elle-même qualifié Mythos de « bond de capacité » par rapport à Claude Opus 4.6, actuellement considéré comme l'un des modèles les plus puissants du marché. Les premiers benchmarks évoqués dans les documents montrent des gains significatifs en programmation, en raisonnement académique et surtout en cybersécurité, où l'écart avec Opus serait particulièrement marqué. Mythos s'inscrit au-delà de la gamme actuelle Haiku / Sonnet / Opus — un quatrième palier inédit, plus puissant et plus coûteux que tout ce qu'Anthropic a jamais déployé. Ce qui rend la situation délicate, c'est qu'Anthropic refuse pour l'instant tout déploiement grand public. La raison avancée en interne est claire : le modèle est jugé trop risqué pour une diffusion ouverte, en particulier à cause de ses capacités en cybersécurité, qui dépassent les protocoles de sécurité habituels de la firme. L'accès est donc limité à un cercle restreint de clients professionnels triés sur le volet, sans calendrier de lancement public annoncé. À cela s'ajoute un coût d'infrastructure sans précédent — faire tourner Mythos consomme des ressources massives, ce qui rend son déploiement à grande échelle à la fois risqué et économiquement complexe. Pour Anthropic, entreprise qui a construit toute sa réputation sur la sécurité responsable de l'IA, la fuite est doublement embarrassante : elle expose non seulement un produit non finalisé, mais aussi les tensions internes autour de la gestion du risque. La fuite survient à un moment particulièrement sensible pour Anthropic. L'entreprise est en pleine offensive commerciale en Europe, avec un sommet privé prévu au Royaume-Uni réunissant des dirigeants européens, en présence de Dario Amodei lui-même — signal fort d'une stratégie d'expansion assumée sur le marché professionnel continental. L'objectif est de s'imposer comme fournisseur d'automatisation intelligente de référence face à OpenAI et Google, en misant sur des standards de fiabilité stricts. En arrière-plan, une introduction en bourse (IPO) serait dans les plans, ce qui rend toute controverse publique particulièrement mal venue. La question que pose désormais Claude Mythos dépasse la performance pure : jusqu'où une entreprise peut-elle retenir un modèle qu'elle juge elle-même trop capable, et qui décide des conditions de son accès ?

UELe sommet privé d'Anthropic au Royaume-Uni réunissant des dirigeants européens en présence de Dario Amodei signale une offensive commerciale directe sur le marché professionnel continental, susceptible d'accélérer l'adoption de l'automatisation IA dans les entreprises européennes.

💬 C'est la première fois qu'Anthropic dit publiquement qu'un de leurs modèles est trop risqué pour le marché, et c'est pas rien. La fuite est gênante pour eux, surtout avec l'IPO en vue, mais le vrai sujet c'est ce palier au-dessus d'Opus qu'on n'attendait pas si tôt. Reste à voir si le "trop dangereux" c'est du marketing safety ou une vraie ligne rouge.

LLMsActu
1 source
3Latent Space 

Anthropic Claude Opus 4.7 : une longueur d'avance sur 4.6 dans chaque dimension

Anthropic a lancé Claude Opus 4.7 le jeudi 14 avril 2026, positionnant ce nouveau modèle comme une amélioration nette et systématique par rapport à son prédécesseur Opus 4.6 sur l'ensemble des dimensions mesurées. Le tarif reste inchangé à 5 dollars par million de tokens en entrée et 25 dollars par million en sortie. La progression est quantifiable : le niveau d'effort 4.7-low surpasse le 4.6-medium, le 4.7-medium dépasse le 4.6-high, et le 4.7-high efface le 4.6-max. Anthropic introduit par ailleurs un nouveau palier d'effort baptisé "xhigh", immédiatement adopté comme niveau par défaut dans Claude Code. Sur SWE-Bench Pro, le benchmark de référence pour l'évaluation des agents de développement, Claude Code gagne 11 points. La vision est également revue en profondeur : Opus 4.7 accepte désormais des images jusqu'à 2 576 pixels sur le grand côté, soit environ 3,75 mégapixels, plus de trois fois la résolution supportée par les versions précédentes. Ces améliorations ont des répercussions concrètes pour plusieurs catégories d'utilisateurs professionnels. Les développeurs utilisant Claude Code bénéficient immédiatement du gain de performance en programmation, avec une meilleure gestion des tâches longues, un suivi plus précis des instructions et une auto-vérification renforcée avant de répondre. La résolution d'image étendue ouvre des cas d'usage auparavant impossibles : agents d'utilisation de l'ordinateur lisant des captures d'écran denses, extraction de données depuis des schémas complexes, travail nécessitant des références pixel par pixel. Autre point notable sur l'économie des tokens : malgré un nouveau tokenizer qui peut générer jusqu'à 35 % de tokens supplémentaires sur un même texte, les gains d'efficacité de raisonnement sont suffisants pour réduire la consommation totale de tokens de jusqu'à 50 % par rapport aux niveaux équivalents de la génération précédente. Anthropic lance également en bêta publique un système de "task budgets", un outil /ultrareview dans Claude Code, et un accès élargi au mode Auto pour les abonnés Claude Code Max. Ce lancement s'inscrit dans une séquence de publications majeures qui rythment le marché de l'IA depuis début 2026. OpenAI avait publié le même jour GPT-Rosalind et une nouvelle version de Codex, mais la trajectoire d'Anthropic a capté l'essentiel de l'attention technique. La communauté débat encore du statut exact d'Opus 4.7 : successeur direct d'Opus 4.6, modèle sur nouvelle base d'entraînement, ou système partiellement distillé depuis une architecture interne de plus grande taille ? Le nouveau tokenizer découvert par plusieurs chercheurs alimente cette interrogation sur la nature des changements en préentraînement. Les semaines à venir permettront de mesurer si les gains de benchmark se traduisent en gains réels dans les usages quotidiens des développeurs et des entreprises qui intègrent Claude dans leurs produits.

UELes développeurs et entreprises européennes intégrant Claude via l'API bénéficient immédiatement des gains de performance et de la réduction de consommation de tokens, sans surcoût tarifaire.

💬 Le même prix, et chaque palier 4.7-low dépasse le 4.6-medium, le 4.7-medium écrase le 4.6-high. C'est le genre de saut qu'on attendait. Sur le tokenizer qui génère 35% de tokens supplémentaires, Anthropic annonce -50% de consommation globale en raisonnement, mais bon, faut voir ce que ça donne sur de vrais contextes longs avant de se réjouir.

LLMsActu
1 source
Anthropic lance Claude Opus 4.8 : L’IA délivrée des hallucinations enfin arrivée ?
4Le Big Data 

Anthropic lance Claude Opus 4.8 : L’IA délivrée des hallucinations enfin arrivée ?

Anthropic a lancé le 28 mai 2026 Claude Opus 4.8, la nouvelle version de son modèle phare, disponible immédiatement au même tarif que son prédécesseur Opus 4.7. Le modèle affiche des performances notables sur les benchmarks techniques : 69,2 % sur SWE-Bench Pro et 74,6 % sur Agentic Terminal Coding, des scores qui le placent devant GPT-5.5 d'OpenAI et Gemini 3.1 Pro de Google selon les comparatifs publiés par Anthropic. Dans Claude Code, l'entreprise introduit un système de flux de travail dynamiques capable de générer des scripts JavaScript pour orchestrer des centaines de sous-agents en parallèle. Un utilisateur a rapporté avoir réécrits 750 000 lignes de code en 11 jours grâce à ce système. Un mode rapide est également disponible via la commande /fast : même modèle, vitesse 2,5 fois supérieure, coût réduit de près des deux tiers. La principale promesse d'Opus 4.8 n'est pas spectaculaire mais potentiellement décisive : la fiabilité. Anthropic cible directement le problème des hallucinations et de la fausse confiance qui plombe l'adoption des IA en contexte professionnel. Le modèle serait désormais capable de reconnaître ses propres limites, de signaler ses incertitudes et d'identifier des incohérences dans ses propres analyses avant que l'utilisateur ne s'en aperçoive. Michael Ran de Bridgewater Associates, la plus grande société de gestion de fonds au monde, témoigne que Claude Opus 4.8 repère de lui-même certains problèmes dans les analyses produites, là où d'autres modèles laissaient passer les erreurs silencieusement. Anthropic affirme également avoir réduit les risques de comportements désalignés et amélioré la gestion des contenus sensibles. Opus 4.8 s'inscrit dans un cycle de publication accéléré chez Anthropic : Opus 4.7 n'avait été lancé que quelques semaines auparavant. L'entreprise prend soin de qualifier cette nouvelle version d'amélioration « modeste mais tangible », une prudence qui répond aux critiques adressées à Opus 4.7, accusé d'une réflexion adaptative mal calibrée, trop de temps sur les tâches simples, trop peu sur les complexes. Pour corriger ce défaut, Anthropic introduit un panneau de contrôle de l'effort permettant aux utilisateurs d'ajuster le niveau de réflexion du modèle selon la nature de la tâche. La course à la fiabilité devient ainsi le nouveau front concurrentiel entre les grands laboratoires, après la course aux paramètres et aux benchmarks bruts qui a dominé les deux dernières années.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour