Claude Sonnet 5 est là, et il sait utiliser un…

Claude Sonnet 5 : plus agentique, plus malin et bientôt plus cher

60

1Next INpact

Claude Sonnet 5 : plus agentique, plus malin et bientôt plus cher

Le résumé de l'article Sonnet 5 (le skill claude-api n'a pas pu se charger, mais la tâche est une simple synthèse du texte source fourni, donc je continue directement) : Anthropic a annoncé le 1er juillet 2026 le déploiement de Sonnet 5, la nouvelle version de son modèle « milieu de gamme », qui succède directement à la version 4.6. L'entreprise structure sa gamme en trois familles : Haiku (rapide et économique), Sonnet (le meilleur compromis prix/vitesse/intelligence) et Opus (le haut de gamme, plus coûteux). Sonnet 5 apporte des gains significatifs sur les tâches agentiques : planification d'actions, navigation web, utilisation d'un terminal, écriture et correction de code, et vérification autonome du travail effectué. Sur le benchmark SWE-bench Pro, le modèle atteint 63,2 %, contre 69,2 % pour Opus 4.8, réduisant ainsi l'écart entre les deux modèles. Côté tarifs, Sonnet 5 reste affiché à 3 dollars par million de tokens en entrée et 15 dollars en sortie, soit les mêmes prix que la version 4.6. Mais le nouveau modèle reprend le tokenizer introduit par Opus 4.7, plus gourmand : Anthropic reconnaît une consommation pouvant grimper jusqu'à 35 % de tokens supplémentaires pour un texte équivalent. Pour amortir ce surcoût, l'entreprise propose une remise promotionnelle ramenant le prix à 2 dollars en entrée et 10 dollars en sortie, mais uniquement jusqu'au 31 août. Passé cette date, la facture des utilisateurs intensifs de l'API devrait donc augmenter mécaniquement, même sans changement de tarif affiché. Cette mise à jour compte pour les développeurs et entreprises qui s'appuient sur Sonnet au quotidien via l'API, Claude Code, ou les offres Team et Enterprise, puisque Sonnet 5 devient désormais le modèle par défaut pour les utilisateurs gratuits et les abonnés Pro. L'amélioration des capacités agentiques est particulièriement pertinente pour les cas d'usage de codage automatisé et d'exécution de tâches longues sans supervision constante. Anthropic met aussi en avant une réduction des hallucinations et une meilleure résistance aux injections de prompt et aux requêtes malveillantes, un argument de poids pour les déploiements en production. En matière de cybersécurité, toutefois, Sonnet 5 reste volontairement limité : il peut gérer certaines tâches courantes et non nuisibles, mais ses performances sur le développement d'outils d'exploitation de vulnérabilités restent nettement inférieures à celles d'Opus 4.8 et de Mythos 5, ses grands frères dotés de garde-fous différents. Cette annonce s'inscrit dans une stratégie plus large de refonte de la gamme Anthropic autour d'une nouvelle nomenclature de version 5, probablement pour harmoniser Sonnet avec les autres modèles de la famille. En parallèle, l'entreprise a lancé Mythos, son modèle expérimental le plus avancé à ce jour, dont la déclinaison grand public Fable a été temporairement bloquée par l'administration Trump jusqu'au 30 juin, un dossier qu'Anthropic prévoit de détailler séparément. Le choix de maintenir Sonnet 5 au même prix affiché que la version précédente, tout en admettant une hausse cachée de la consommation de tokens via le nouveau tokenizer, illustre une tension récurrente dans l'industrie des grands modèles de langage entre affichage tarifaire stable et coûts réels croissants liés à la complexité computationnelle. La fenêtre de rabais jusqu'au 31 août laisse present à penser qu'Anthropic anticipe une adoption rapide de Sonnet 5 avant d'aligner ses prix sur le coût réel du nouveau tokenizer, une dynamique que les entreprises clientes devront surveiller de près dans leurs budgets d'infrastructure IA.

💬 Le vrai prix de Sonnet 5, c'est pas les 3 dollars par million de tokens en entrée, c'est le tokenizer : jusqu'à 35% de tokens en plus pour le même texte, ça revient à gonfler la facture sans toucher au tarif affiché. Le rabais jusqu'au 31 août, c'est une fenêtre pour faire adopter le modèle avant que la vraie note tombe, malin mais pas franchement transparent. Sur l'agentique ça progresse bien, l'écart avec Opus se resserre, mais côté cybersécurité ils ont clairement laissé la bride serrée, sans surprise.

LLMsOpinion

1 source

GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0

53

2VentureBeat AI

GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0

OpenAI a dévoilé GPT-5.5 ce 23 avril 2026, le modèle le plus puissant de l'entreprise à ce jour, connu en interne sous le nom de code "Spud". Présenté lors d'un appel avec des journalistes, le modèle a été décrit par Amelia Glaese, vice-présidente de la recherche chez OpenAI, comme "le modèle le plus solide que nous ayons jamais produit sur le codage, à la fois selon les benchmarks et selon les retours de nos partenaires de confiance". Greg Brockman, cofondateur et président d'OpenAI, a insisté sur sa capacité à travailler de manière autonome : "C'est bien plus intuitif à utiliser. Il peut regarder un problème peu défini et déterminer lui-même ce qui doit se passer ensuite." Sur le plan technique, GPT-5.5 tourne sur les systèmes NVIDIA GB200 et GB300 NVL72, avec des algorithmes heuristiques personnalisés rédigés par l'IA elle-même pour optimiser la répartition des calculs sur les cœurs GPU, ce qui a augmenté la vitesse de génération de tokens de plus de 20%. Le modèle égale la latence par token de son prédécesseur GPT-5.4, tout en offrant un niveau d'intelligence supérieur. GPT-5.4 reste disponible pour les utilisateurs et entreprises à la moitié du coût API du nouveau modèle. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son orientation vers la performance dite "agentique" : le modèle est conçu pour gérer des tâches complexes et fragmentées de façon autonome, sans besoin d'instructions pas à pas. Il excelle en codage, en recherche scientifique et en "computer use", c'est-à-dire l'interaction directe avec des systèmes d'exploitation et des logiciels professionnels. Un mode "GPT-5.5 Thinking" a également été introduit dans ChatGPT pour les raisonnements à forts enjeux : il laisse au modèle davantage de temps de calcul interne pour vérifier ses hypothèses avant de répondre. Sur le benchmark interne "Expert-SWE", mesurant des tâches de codage longues dont le temps de complétion médian est de 20 heures pour un humain, GPT-5.5 surpasse GPT-5.4 tout en utilisant significativement moins de tokens. La course aux grands modèles de langage entre OpenAI, Anthropic et Google n'a jamais été aussi serrée. Il y a exactement une semaine, Anthropic avait lancé Claude Opus 4.7, qui avait temporairement pris la tête du classement sur le plus grand nombre de benchmarks tiers. GPT-5.5 reprend aujourd'hui cet avantage sur les modèles publiquement disponibles, et dépasse même Opus 4.7 sur la quasi-totalité des tests de référence. Seul le modèle Claude Mythos Preview d'Anthropic, non disponible au grand public et fortement restreint, résiste encore sur Terminal-Bench 2.0, où il devance GPT-5.5 dans une marge si étroite qu'elle s'apparente à une égalité statistique. Cette dynamique illustre à quel point la frontière technologique entre les trois acteurs dominants s'est réduite, chaque nouveau modèle détrônant le précédent en l'espace de quelques semaines.

UELes développeurs et entreprises français et européens utilisant les API OpenAI pourront évaluer GPT-5.5 pour leurs usages en codage et tâches agentiques, sans impact réglementaire ou institutionnel spécifique à la France ou à l'UE.

💬 Une semaine après Opus 4.7, OpenAI reprend la tête. Le seul modèle qui résiste encore à GPT-5.5, c'est Mythos Preview d'Anthropic, sauf qu'il n'est pas disponible au grand public, donc dans la vraie vie des développeurs, OpenAI est devant. C'est le genre de course où chaque sortie rend la précédente obsolète avant qu'on ait fini de l'évaluer.

LLMsActu

1 source

70

3AI News

Anthropic déploie Claude Sonnet 5, restaure Fable et Mythos

Anthropic a officiellement levé la suspension de ses modèles les plus avancés, Fable et Mythos, et lancé Claude Sonnet 5, mettant fin à dix-huit jours de blocage imposé par une directive fédérale américaine sur le contrôle des exportations entrée en vigueur le 12 juin. La suspension avait été déclenchée après que des chercheurs d'Amazon eurent documenté une méthode permettant de contourner les garde-fous de sécurité de Fable 5, la poussant à identifier des failles logicielles et à produire du code d'exploitation. Faute de système de vérification de nationalité en temps réel, les autorités avaient exigé un blocage total de l'accès pour l'ensemble des utilisateurs dans le monde. Des évaluations menées pendant l'interruption ont montré que ce comportement n'était pas propre à Fable 5 : des architectures plus anciennes et moins puissantes, dont Claude Opus 4.8, GPT-5.5 et Kimi K2.7, reproduisaient exactement les mêmes résultats. Pour répondre à l'exigence fédérale, les ingénieurs d'Anthropic ont entraîné un nouveau classificateur de sécurité ciblant précisément la faille signalée par Amazon, avec un taux de blocage supérieur à 99 % lors des tests internes. Ce correctif ouvre la voie à un déploiement commercial complet sur la plateforme, l'infrastructure cloud et les réseaux partenaires d'Anthropic, mais il introduit un compromis pour les équipes de développement. Le nouveau classificateur, volontairement large dans sa marge de sécurité, signale plus fréquemment des requêtes bénignes lors de tâches courantes de développement ou de débogage. Lorsqu'une invite déclenche ce filtre, la charge de travail est automatiquement redirigée vers l'ancienne architecture Opus 4.8 pour assurer la continuité du service. Le vrai enjeu commercial se concentre toutefois sur Claude Sonnet 5, que de nombreuses équipes techniques adoptent pour leurs agents autonomes afin de réduire les coûts tout en conservant une forte capacité d'exécution. Sur les benchmarks SWE-bench Pro et Terminal-Bench 2.1, Sonnet 5 atteint respectivement 63,2 % et 80,4 %, contre 58,1 % et 67 % pour Sonnet 4.6, pour un prix inchangé de 3 dollars par million de tokens en entrée et 15 dollars en sortie, avec un tarif de lancement réduit à 2 et 10 dollars jusqu'au 31 août 2026. Plusieurs entreprises ont déjà déployé le modèle en production. Chez Rakuten, les équipes techniques l'ont utilisé pour traiter des dizaines de pull requests parmi les plus complexes, le système exécutant et vérifiant lui-même les tests avant validation humaine finale. Zapier l'a intégré à ses flux de travail pour automatiser des tâches administratives à plusieurs étapes, comme la mise à jour de comptes Salesforce suivie de l'envoi d'annonces de lancement à des clients entreprise, une séquence que les versions précédentes du modèle peinaient souvent à mener à terme sans intervention humaine. L'éditeur d'outils de développement Zed a de son côté utilisé le modèle pour automatiser des procédures de débogage complexes. Cet épisode illustre la pression réglementaire croissante qui pèse sur les systèmes d'intelligence artificielle les plus avancés, à mesure que leurs capacités techniques se rapprochent de zones jugées sensibles par les gouvernements.

UELe blocage mondial ayant aussi affecté les utilisateurs europeens de la plateforme Anthropic, la levée de la suspension et le déploiement de Claude Sonnet 5 profitent indirectement aux entreprises et développeurs francais et europeens, sans qu'aucune entité francaise ou europeenne ne soit directement citée.

LLMsActu

1 source

Claude Opus 4.8 est-il enfin honnête ? Le test de l’honnêteté

48

4Le Big Data

Claude Opus 4.8 est-il enfin honnête ? Le test de l’honnêteté

Anthropic a lancé Claude Opus 4.8 le 28 mai 2026, avec une promesse inhabituelle dans le secteur : moins d'affirmations non étayées et davantage de doutes assumés. Disponible immédiatement sur Claude et via l'API sous la référence claude-opus-4-8, le modèle conserve la tarification de son prédécesseur Opus 4.7, soit 5 dollars par million de tokens en entrée et 25 dollars en sortie. La nouveauté la plus concrète concerne la fiabilité du code : selon Anthropic, Opus 4.8 serait environ quatre fois moins susceptible de laisser passer sans avertissement des failles dans le code qu'il a lui-même généré. Le modèle vérifie davantage ses propres sorties avant de les restituer, et signale plus systématiquement ses incertitudes. Un mode rapide promet en outre une vitesse 2,5 fois supérieure à coût réduit. L'enjeu n'est pas anodin. Le vrai problème des modèles de langage n'est pas tant l'erreur que l'erreur présentée avec aplomb, transformant un bug en dette technique invisible. Dans les usages professionnels, revues de code, migrations de systèmes, analyses de documents longs, une approximation confiante peut contaminer l'ensemble d'un travail. Si Opus 4.8 tient sa promesse d'honnêteté, l'impact est direct pour les équipes d'ingénierie qui utilisent l'IA comme copilote. En parallèle, le modèle intègre en avant-première une capacité étendue dans Claude Code : planifier des tâches complexes et lancer des centaines de sous-agents en parallèle pour s'attaquer à des migrations de bases de code comptant des centaines de milliers de lignes. Cette montée en puissance vers l'orchestration rend la question de l'honnêteté encore plus structurante. Plus un modèle délègue à des agents autonomes, moins l'utilisateur peut surveiller chaque étape intermédiaire. Anthropic s'inscrit ici dans une tendance lourde : tous les grands laboratoires, OpenAI, Google DeepMind, cherchent à faire de leurs modèles de véritables chefs de projet capables de superviser des pipelines automatisés. Le risque, si la vérification interne n'est pas à la hauteur, est d'obtenir une usine à erreurs distribuées à grande échelle. Le verdict d'Opus 4.8 ne viendra pas des benchmarks officiels mais des développeurs confrontés à des migrations réelles, des audits de sécurité ou des analyses juridiques où une réponse prudente vaut mieux qu'une réponse rapide et fausse.

UELes équipes de développement françaises et européennes utilisant Claude via l'API peuvent adopter immédiatement Opus 4.8 pour leurs audits de code et migrations, sans surcoût par rapport à Opus 4.7.

💬 C'est le vrai problème des LLMs qu'Anthropic cible enfin : pas l'erreur, mais l'erreur dite avec confiance. Quatre fois moins de failles passées en silence dans le code généré, si ça tient hors benchmarks maison, tu peux commencer à lui confier des migrations réelles sans te retrouver avec une usine à dette technique. Le verdict ne viendra pas des slides Anthropic.

LLMsOpinion

1 source

Claude Sonnet 5 est là, et il sait utiliser un navigateur et un terminal tout seul

À lire aussi

Claude Sonnet 5 : plus agentique, plus malin et bientôt plus cher

GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0

Anthropic déploie Claude Sonnet 5, restaure Fable et Mythos

Claude Opus 4.8 est-il enfin honnête ? Le test de l’honnêteté