Aller au contenu principal
Anthropic affaiblit-il Claude ? Les utilisateurs signalent des baisses de performances, les dirigeants démentent
LLMsVentureBeat AI1j

Anthropic affaiblit-il Claude ? Les utilisateurs signalent des baisses de performances, les dirigeants démentent

1 source couvre ce sujet·Source originale ↗·

Depuis plusieurs semaines, une vague de plaintes monte sur GitHub, X et Reddit contre Anthropic : des développeurs et utilisateurs avancés accusent l'entreprise d'avoir dégradé les performances de Claude Opus 4.6 et de son outil de coding Claude Code, intentionnellement ou sous la pression de contraintes de calcul. Parmi les voix les plus documentées figure Stella Laurenzo, Senior Director au sein du groupe IA d'AMD, qui a publié le 2 avril 2026 une analyse détaillée sur GitHub portant sur 6 852 sessions Claude Code, 17 871 blocs de raisonnement et 234 760 appels d'outils. Ses conclusions : à partir de février, la profondeur estimée du raisonnement de Claude a chuté significativement, accompagnée d'une hausse des arrêts prématurés, d'un comportement orienté vers "la correction la plus simple", de boucles de raisonnement et d'un glissement de l'approche recherche-d'abord vers édition-d'abord. Relayée le 11 avril sur X par le compte @Hesamation, cette analyse est devenue virale, transformant une frustration diffuse en grief structuré porté par une cadre senior d'une grande entreprise de semi-conducteurs.

L'enjeu est significatif pour les professionnels qui dépendent de Claude dans des workflows d'ingénierie complexes. Pour eux, le raisonnement étendu n'est pas un luxe mais une condition de base de l'utilisabilité du modèle. Le phénomène a été qualifié de "shrinkflation de l'IA" : payer le même tarif pour un produit moins performant. Si les accusations de throttling délibéré restent non prouvées, elles témoignent d'une érosion de confiance mesurable chez une frange d'utilisateurs à forte valeur, précisément ceux qu'Anthropic cherche à fidéliser dans le segment enterprise et développeur.

Anthropic a répondu via Boris Cherny, lead de Claude Code, dans un commentaire épinglé sur le fil GitHub. Il a reconnu deux changements produit récents : le passage d'Opus 4.6 au mode "adaptive thinking" par défaut le 9 février, et une transition vers un niveau d'effort "medium" le 3 mars. Sur le point technique central de l'analyse de Laurenzo, il a précisé que l'en-tête "redact-thinking-2026-02-12" est une modification purement visuelle qui masque le raisonnement dans l'interface et réduit la latence perçue, sans affecter le raisonnement sous-jacent ni les budgets de réflexion alloués. Ces clarifications n'ont pas totalement calmé la controverse : VentureBeat a contacté Anthropic pour obtenir des précisions sur d'éventuels changements de paramètres d'inférence, de gestion du contexte ou de méthodologie de benchmark, et attendait toujours une réponse au moment de la publication. L'épisode illustre la tension croissante entre les entreprises d'IA qui ajustent leurs modèles en production et des utilisateurs experts capables désormais d'instrumenter et de quantifier ces évolutions.

À lire aussi

[AINews] Classement des meilleurs modèles locaux - avril 2026
1Latent Space 

[AINews] Classement des meilleurs modèles locaux - avril 2026

En avril 2026, la communauté des modèles d'IA locaux a établi un nouveau consensus sur les meilleurs modèles disponibles, après une veille régulière des forums Reddit comme r/localLlama et r/localLLM. Le classement ne repose pas sur les benchmarks théoriques mais sur ce que les utilisateurs recommandent concrètement au quotidien. Qwen 3.5 s'impose comme la famille la plus recommandée toutes catégories confondues, tandis que Gemma 4 de Google gagne rapidement en popularité pour les déploiements locaux de petite et moyenne taille. GLM-5 et GLM-4.7 figurent désormais dans les discussions sur les "meilleurs modèles open-source", aux côtés de MiniMax M2.5 et M2.7, particulièrement cités pour les tâches agentiques et les workflows à forte utilisation d'outils. DeepSeek V3.2 reste solidement dans le peloton de tête des modèles open-weight généralistes, et GPT-oss 20B émerge comme option pratique pour un usage local, notamment pour ses variantes non censurées. Pour le code, le verdict est sans appel : Qwen3-Coder-Next domine largement. Ce palmarès reflète un basculement significatif dans la manière dont les développeurs et les passionnés consomment l'IA : plutôt que de dépendre de services cloud payants, ils privilégient des modèles qu'ils peuvent faire tourner sur leur propre matériel. Cette dynamique démocratise l'accès à des capacités avancées tout en préservant la confidentialité des données. La performance de Qwen 3.5 sur un large spectre d'usages indique que les modèles de taille intermédiaire ont atteint un niveau de maturité suffisant pour remplacer des API commerciales dans de nombreux contextes professionnels. Ce relevé s'inscrit dans une accélération générale de l'écosystème open-weight depuis fin 2024, portée par des acteurs comme Alibaba (Qwen), Google (Gemma), Zhipu AI (GLM) et DeepSeek. La compétition s'est déplacée des grands laboratoires fermés vers un terrain où les sorties se succèdent à un rythme soutenu et où la communauté joue un rôle d'arbitre. La prochaine génération de modèles locaux, notamment Qwen3-Coder-Next pour le développement logiciel, laisse entrevoir des capacités agentiques croissantes qui pourraient transformer les workflows d'ingénierie sans nécessiter de connexion à des services externes.

UEL'adoption croissante de modèles open-weight locaux offre aux développeurs et entreprises européens une alternative concrète aux API cloud américaines, réduisant l'exposition aux risques de dépendance et renforçant la souveraineté des données.

LLMsActu
1 source
NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant
2MarkTechPost 

NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant

Des chercheurs de NVIDIA et de l'Université du Maryland ont publié Audio Flamingo Next (AF-Next), le modèle le plus puissant de la série Audio Flamingo et l'un des grands modèles audio-langage (LALM) open source les plus avancés à ce jour. AF-Next est disponible en trois variantes spécialisées : AF-Next-Instruct pour les questions-réponses générales, AF-Next-Think pour le raisonnement multi-étapes complexe, et AF-Next-Captioner pour la description détaillée de contenus audio. L'architecture repose sur quatre composants : un encodeur audio AF-Whisper (basé sur Whisper, pré-entraîné sur un corpus plus large incluant de la parole multilingue), un adaptateur MLP à deux couches, un backbone LLM Qwen-2.5-7B à 7 milliards de paramètres avec une fenêtre de contexte étendue à 128 000 tokens, et un module de synthèse vocale en streaming. Une innovation clé est l'introduction des Rotary Time Embeddings (RoTE), qui ancrent chaque token audio à son horodatage réel plutôt qu'à sa position dans la séquence, ce qui améliore significativement le raisonnement temporel sur de longs enregistrements. L'entraînement a mobilisé plus d'un million d'heures de données audio. AF-Next représente une avancée concrète pour toutes les applications nécessitant une compréhension fine de l'audio : transcription de réunions longues, analyse de podcasts, surveillance sonore, ou encore assistants vocaux capables de raisonner sur le contexte temporel d'une conversation. La technique dite de Temporal Audio Chain-of-Thought oblige le modèle à ancrer chaque étape de raisonnement à un timestamp précis avant de produire une réponse, ce qui réduit les hallucinations et améliore la fiabilité sur des enregistrements longs. Pour entraîner cette capacité, les chercheurs ont constitué AF-Think-Time, un jeu de données d'environ 43 000 exemples issus de bandes-annonces, résumés de films, histoires à suspense et conversations multi-participants, avec une moyenne de 446 mots par chaîne de raisonnement. L'audio a toujours été le parent pauvre du multimodal : là où les modèles vision-langage comme GPT-4V ou LLaVA ont rapidement mûri, les équivalents audio peinaient à traiter simultanément parole, sons environnementaux et musique, surtout sur de longues durées. AF-Next s'attaque directement à cette lacune en proposant une architecture unifiée et entièrement ouverte, à l'heure où les grands laboratoires comme OpenAI et Google gardent leurs modèles audio les plus puissants propriétaires. En publiant les poids du modèle et le dataset AF-Think-Time, NVIDIA et l'Université du Maryland offrent à la communauté de recherche une base solide pour faire progresser l'audio compréhension ouverte, un domaine stratégique pour les prochaines générations d'interfaces vocales et d'agents autonomes capables d'agir sur des flux audio en temps réel.

💬 L'audio était vraiment le grand oublié du multimodal, et là c'est NVIDIA qui comble le trou avec une architecture ouverte. Les Rotary Time Embeddings pour ancrer les tokens à leur timestamp réel, c'est le genre de détail qui change tout quand tu travailles sur des enregistrements longs. Reste à voir si les 128k tokens de contexte tiennent vraiment en pratique, mais les poids sont là, le dataset aussi, bonne base.

LLMsOpinion
1 source
Kimi de Moonshot AI : l’outil IA de nouvelle génération
3Le Big Data 

Kimi de Moonshot AI : l’outil IA de nouvelle génération

Moonshot AI, startup pékinoise fondée par Yang Zhilin, a lancé fin 2023 un assistant conversationnel nommé Kimi, propulsé par de grands modèles de langage. En 2026, la version Kimi K2.5 s'impose comme une référence dans le domaine de l'IA multimodale : l'outil traite simultanément texte et images, gère des fenêtres contextuelles atteignant 2 millions de caractères, et repose sur une architecture Mixture of Experts (MoE) totalisant environ mille milliards de paramètres. Concrètement, ce modèle n'active qu'une fraction de ses neurones artificiels à chaque requête, ce qui lui permet d'être à la fois massivement capable et relativement efficace en ressources. La version K2.5 marque également l'intégration native d'une dimension visuelle, rendant l'outil capable d'interpréter des images sans module externe. La proposition de valeur centrale de Kimi repose sur sa capacité à traiter des documents de très grande taille sans dégradation de la cohérence : rapports de 200 pages, dossiers juridiques complexes, livres entiers peuvent être analysés en quelques dizaines de secondes, avec extraction de données précises et réponses croisées entre plusieurs fichiers. Là où d'autres modèles perdent le fil ou génèrent des hallucinations sur des contextes longs, Kimi maintient une vision globale stable. Son environnement de développement bilingue chinois-anglais lui confère également une sensibilité culturelle et linguistique que les modèles entraînés principalement sur des corpus anglophones peinent à reproduire, notamment sur les nuances et les références contextuelles non occidentales. Moonshot AI s'inscrit dans la vague des acteurs chinois de l'IA qui défient ouvertement les leaders américains, OpenAI en tête. Si ChatGPT reste la référence pour la polyvalence créative et la notoriété grand public, Kimi se positionne comme concurrent direct sur les tâches techniques avancées, la recherche documentaire approfondie et le codage assisté. Le marché de l'IA générative est désormais structuré autour d'une poignée de modèles ultra-performants issus de plusieurs géographies, avec une compétition intense sur les benchmarks de raisonnement et de traitement long contexte. La montée en puissance de Moonshot AI reflète plus largement l'émergence d'un écosystème IA chinois mature, capable de rivaliser techniquement avec la Silicon Valley, et dont les prochaines versions pourraient intégrer encore davantage de capacités agentiques, notamment l'orchestration de tâches automatisées en parallèle.

LLMsOpinion
1 source
MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2
4MarkTechPost 

MiniMax publie en open source MiniMax M2.7, un modèle à agents auto-évolutif : 56,22 % sur SWE-Pro et 57 % sur Terminal Bench 2

MiniMax a rendu public les poids de son modèle MiniMax M2.7 sur Hugging Face, officiellement annoncé le 18 mars 2026. Il s'agit du modèle open source le plus performant de l'entreprise à ce jour, construit sur une architecture Mixture-of-Experts (MoE) qui n'active qu'une fraction des paramètres à chaque inférence, rendant le modèle nettement plus rapide et moins coûteux à faire tourner qu'un modèle dense de qualité comparable. M2.7 est conçu autour de trois axes : l'ingénierie logicielle professionnelle, la productivité bureautique avancée, et ce que MiniMax appelle les "Agent Teams", une capacité native de collaboration multi-agents. Sur le benchmark SWE-Pro, qui évalue la maîtrise de plusieurs langages de programmation à travers des tâches d'analyse de logs, débogage, revue de sécurité et workflows machine learning, M2.7 atteint 56,22 %, à égalité avec GPT-5.3-Codex. Il obtient également 57,0 % sur Terminal Bench 2, 39,8 % sur NL2Repo, et 55,6 % sur VIBE-Pro, benchmark de génération de code à l'échelle d'un dépôt, plaçant le modèle au niveau de Claude Opus 4.6 sur des tâches couvrant Web, Android, iOS et simulation. Ce qui distingue M2.7, c'est sa capacité à intervenir sur des systèmes en production réels. Face à une alerte critique, le modèle peut corréler des métriques de monitoring avec des timelines de déploiement, conduire une analyse statistique sur des traces d'échantillonnage, se connecter proactivement à des bases de données pour vérifier la cause racine, identifier des fichiers de migration d'index manquants dans un dépôt, puis appliquer une création d'index non bloquante avant de soumettre une merge request, le tout en moins de trois minutes selon les équipes MiniMax. Ce positionnement dépasse largement la génération de code : il s'agit d'un modèle capable de raisonnement causal de niveau SRE (Site Reliability Engineering), un profil rare parmi les modèles disponibles en open source. Le détail le plus frappant de M2.7 est son architecture d'auto-évolution. Le modèle a été chargé d'optimiser lui-même ses propres performances sur un scaffold interne, sans intervention humaine. Il a conduit plus de 100 itérations autonomes selon une boucle : analyser les trajectoires d'échec, planifier des modifications, toucher au code du scaffold, relancer des évaluations, comparer les résultats, décider de conserver ou annuler les changements. Au fil de ce processus, M2.7 a découvert seul des optimisations efficaces, notamment la recherche systématique de la combinaison optimale de paramètres d'échantillonnage (température, frequency penalty, presence penalty), la conception de guidelines de workflow plus précises, et l'ajout d'une détection de boucles infinies dans l'agent loop. Résultat : une amélioration de 30 % sur les ensembles d'évaluation internes. Au sein des équipes de reinforcement learning de MiniMax, M2.7 gère désormais 30 à 50 % des workflows de bout en bout, les chercheurs humains n'intervenant que pour les décisions critiques, un signal fort que la frontière entre outil et collaborateur est en train de se déplacer.

UELes développeurs et entreprises européens peuvent déployer librement les poids de ce modèle open source pour des tâches d'ingénierie logicielle avancée, réduisant leur dépendance aux API propriétaires.

💬 Un modèle open source qui a passé 100 itérations à modifier son propre scaffold et s'est amélioré de 30 % tout seul, c'est le truc qu'on lisait dans les papiers de recherche il y a 18 mois. Là c'est sorti sur Hugging Face, avec les poids, et des benchmarks qui le placent au niveau de Claude Opus 4.6 sur du code à l'échelle d'un dépôt réel. Reste à voir si ça tient hors du contexte lab, mais pour une fois l'architecture MoE n'est pas juste un argument marketing pour réduire les coûts d'inférence : ça donne un modèle qu'on peut faire tourner sans louer un datacenter.

LLMsActu
1 source