Aller au contenu principal
Claude Sonnet 5 : plus agentique, plus malin et bientôt plus cher
LLMsNext INpact4h· 3 min de lecture

Claude Sonnet 5 : plus agentique, plus malin et bientôt plus cher

Source originale ↗·

Le résumé de l'article Sonnet 5 (le skill claude-api n'a pas pu se charger, mais la tâche est une simple synthèse du texte source fourni, donc je continue directement) :

Anthropic a annoncé le 1er juillet 2026 le déploiement de Sonnet 5, la nouvelle version de son modèle « milieu de gamme », qui succède directement à la version 4.6. L'entreprise structure sa gamme en trois familles : Haiku (rapide et économique), Sonnet (le meilleur compromis prix/vitesse/intelligence) et Opus (le haut de gamme, plus coûteux). Sonnet 5 apporte des gains significatifs sur les tâches agentiques : planification d'actions, navigation web, utilisation d'un terminal, écriture et correction de code, et vérification autonome du travail effectué. Sur le benchmark SWE-bench Pro, le modèle atteint 63,2 %, contre 69,2 % pour Opus 4.8, réduisant ainsi l'écart entre les deux modèles. Côté tarifs, Sonnet 5 reste affiché à 3 dollars par million de tokens en entrée et 15 dollars en sortie, soit les mêmes prix que la version 4.6. Mais le nouveau modèle reprend le tokenizer introduit par Opus 4.7, plus gourmand : Anthropic reconnaît une consommation pouvant grimper jusqu'à 35 % de tokens supplémentaires pour un texte équivalent. Pour amortir ce surcoût, l'entreprise propose une remise promotionnelle ramenant le prix à 2 dollars en entrée et 10 dollars en sortie, mais uniquement jusqu'au 31 août. Passé cette date, la facture des utilisateurs intensifs de l'API devrait donc augmenter mécaniquement, même sans changement de tarif affiché.

Cette mise à jour compte pour les développeurs et entreprises qui s'appuient sur Sonnet au quotidien via l'API, Claude Code, ou les offres Team et Enterprise, puisque Sonnet 5 devient désormais le modèle par défaut pour les utilisateurs gratuits et les abonnés Pro. L'amélioration des capacités agentiques est particulièriement pertinente pour les cas d'usage de codage automatisé et d'exécution de tâches longues sans supervision constante. Anthropic met aussi en avant une réduction des hallucinations et une meilleure résistance aux injections de prompt et aux requêtes malveillantes, un argument de poids pour les déploiements en production. En matière de cybersécurité, toutefois, Sonnet 5 reste volontairement limité : il peut gérer certaines tâches courantes et non nuisibles, mais ses performances sur le développement d'outils d'exploitation de vulnérabilités restent nettement inférieures à celles d'Opus 4.8 et de Mythos 5, ses grands frères dotés de garde-fous différents.

Cette annonce s'inscrit dans une stratégie plus large de refonte de la gamme Anthropic autour d'une nouvelle nomenclature de version 5, probablement pour harmoniser Sonnet avec les autres modèles de la famille. En parallèle, l'entreprise a lancé Mythos, son modèle expérimental le plus avancé à ce jour, dont la déclinaison grand public Fable a été temporairement bloquée par l'administration Trump jusqu'au 30 juin, un dossier qu'Anthropic prévoit de détailler séparément. Le choix de maintenir Sonnet 5 au même prix affiché que la version précédente, tout en admettant une hausse cachée de la consommation de tokens via le nouveau tokenizer, illustre une tension récurrente dans l'industrie des grands modèles de langage entre affichage tarifaire stable et coûts réels croissants liés à la complexité computationnelle. La fenêtre de rabais jusqu'au 31 août laisse present à penser qu'Anthropic anticipe une adoption rapide de Sonnet 5 avant d'aligner ses prix sur le coût réel du nouveau tokenizer, une dynamique que les entreprises clientes devront surveiller de près dans leurs budgets d'infrastructure IA.

💬 L'analyse de Mathieu

Le vrai prix de Sonnet 5, c'est pas les 3 dollars par million de tokens en entrée, c'est le tokenizer : jusqu'à 35% de tokens en plus pour le même texte, ça revient à gonfler la facture sans toucher au tarif affiché. Le rabais jusqu'au 31 août, c'est une fenêtre pour faire adopter le modèle avant que la vraie note tombe, malin mais pas franchement transparent. Sur l'agentique ça progresse bien, l'écart avec Opus se resserre, mais côté cybersécurité ils ont clairement laissé la bride serrée, sans surprise.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Claude Sonnet 5 arrive sur AWS : le modèle Sonnet le plus performant d'Anthropic
1AWS ML Blog 

Claude Sonnet 5 arrive sur AWS : le modèle Sonnet le plus performant d'Anthropic

Anthropic a annoncé le déploiement de Claude Sonnet 5 sur Amazon Bedrock et sur la Claude Platform disponible via AWS. Il s'agit du premier modèle Sonnet de la dernière génération d'Anthropic, conçu pour offrir une intelligence de premier plan au tarif Sonnet, destiné au code, aux agents autonomes et aux tâches professionnelles courantes à grande échelle. Sur Amazon Bedrock, les entreprises peuvent l'intégrer directement dans leur environnement AWS existant, en conservant la sécurité de niveau entreprise et la résidence régionale des données. Le modèle est également accessible via la Claude Platform sur AWS, ce qui permet d'utiliser les mêmes API et fonctionnalités que la plateforme native d'Anthropic, mais avec une facturation et une authentification unifiées sous AWS. Pour démarrer, les développeurs peuvent passer par la console Amazon Bedrock, sélectionner Claude Sonnet 5 dans l'espace de test Playground, ou y accéder par programmation via l'API Messages d'Anthropic, les points d'accès bedrock-runtime ou bedrock-mantle, ou encore les API Invoke et Converse via la ligne de commande AWS ou le SDK AWS. Cette annonce marque un changement concret pour les équipes techniques qui développent des produits d'intelligence artificielle à grande échelle. Claude Sonnet 5 vise à offrir une intelligence proche de celle d'Opus tout en conservant l'équilibre coût-performance propre à la gamme Sonnet, ce qui en fait une option par défaut pour les usages quotidiens, là où Opus reste réservé aux tâches qui justifient un coût plus élevé. Le modèle est présenté comme capable de suivre un plan sur plusieurs étapes, de garder la trace de ce qui a déjà été fait et de corriger ses erreurs avec moins d'allers-retours, ce qui se traduit par un comportement plus prévisible en production. Pour le code, Anthropic met en avant sa capacité à naviguer dans des bases de code réelles, à appliquer des modifications sur plusieurs fichiers et à mener à bien des tâches longues de débogage ou de refactorisation. Pour les agents autonomes, il sert de socle plus fiable pour gérer des chaînes de dépendances complexes et des usages d'outils en plusieurs étapes, aussi bien pour des agents internes que pour des agents en contact avec les clients. Anthropic cite plusieurs secteurs où ce nouveau modèle devrait avoir un impact direct. Dans la finance, Sonnet 5 est positionné pour la modélisation de tableurs, l'analyse financière et des agents de reporting capables de vérifier eux-mêmes leurs calculs tout au long du flux de travail, de l'ingestion des données jusqu'à la validation des résultats. Pour la productivité de bureau, il est annoncé pour la rédaction de rapports, leur audit, la rédaction de documents et l'analyse structurée, avec en complément des capacités d'utilisation d'ordinateur permettant d'automatiser des tâches de navigateur ou de bureau auparavant réalisées manuellement. Le modèle est présenté comme une mise à niveau directe par rapport à Sonnet 4.6, dans un contexte où la concurrence entre fournisseurs de cloud pour héberger les meilleurs modèles de langage s'intensifie, chaque acteur cherchant à attirer les entreprises qui veulent déployer de l'intelligence artificielle générative sans quitter leur infrastructure cloud existante.

UELes entreprises europeennes utilisant Amazon Bedrock pourront deployer Claude Sonnet 5 en conservant la residence des donnees dans l'UE, sans impact reglementaire direct mentionne.

LLMsActu
1 source
Claude Sonnet 5, Sonnet 4.6 et Opus 4.8 : benchmarks de codage autonome, prix API et coût-performance comparés
2MarkTechPost 

Claude Sonnet 5, Sonnet 4.6 et Opus 4.8 : benchmarks de codage autonome, prix API et coût-performance comparés

Anthropic a lancé Claude Sonnet 5 le 30 juin 2026, présenté comme son modèle Sonnet le plus agentique à ce jour, capable de planifier des tâches, de piloter des navigateurs et des terminaux, et de fonctionner de façon autonome sur des missions longues. Il devient le modèle par défaut des offres Free et Pro, tandis que les utilisateurs Max, Team et Enterprise peuvent le sélectionner manuellement ; il est également disponible dans Claude Code et sur la Claude Platform. Sur les benchmarks publiés par Anthropic, Sonnet 5 dépasse son prédécesseur Sonnet 4.6 sur tous les tests : 63,2% contre 58,1% sur SWE-bench Pro (l'évaluation de codage agentique), 81,2% contre 78,5% sur OSWorld-Verified (usage d'ordinateur), et 80,4% contre 67,0% sur Terminal-Bench 2.1. Sur Humanity's Last Exam avec outils, il atteint 57,4%, un score qui talonne celui d'Opus 4.8, le modèle haut de gamme d'Anthropic, à 57,9%. Fait notable, sur le benchmark de travail de connaissance GDPval-AA v2, Sonnet 5 devance même Opus 4.8, avec 1 618 points contre 1 615. Cette montée en puissance intervient à un prix inférieur à celui du modèle phare de la firme. Anthropic propose un tarif de lancement de 2 dollars pour un million de tokens en entrée et 10 dollars en sortie, valable jusqu'au 31 août 2026, avant de passer à 3 et 15 dollars ; Opus 4.8, lui, reste à 5 et 25 dollars. Le modèle expose quatre niveaux d'effort de raisonnement (bas, moyen, élevé et extra-élevé), chaque palier supplémentaire augmentant à la fois la qualité des réponses et leur coût en tokens. Pour les développeurs, cela dessine une politique de routage claire : confier la majorité des tâches de codage agentique, d'utilisation d'outils et de travail de connaissance à Sonnet 5 aux niveaux d'effort bas ou moyen, où il offre le meilleur rapport qualité-prix, et réserver Opus 4.8 aux tâches critiques nécessitant une précision maximale, d'autant qu'à l'effort le plus élevé, Sonnet 5 peut finir par coûter plus cher qu'Opus pour une qualité comparable. Anthropic indique aussi avoir volontairement limité les capacités offensives en cybersécurité du modèle, le rendant plus sûr que Sonnet 4.6 mais moins fiable qu'Opus sur les usages où l'exactitude prime. Sonnet 5 succède à Sonnet 4.6, lancé en février 2026, et occupe la position intermédiaire de la gamme d'Anthropic, au-dessus du modèle économique Haiku 4.5 et en dessous d'Opus 4.8. Il utilise un tokenizer mis à jour, identique à celui introduit avec Opus 4.7, qui peut faire gonfler le nombre de tokens nécessaires pour un même texte d'un facteur allant jusqu'à 1,35, un détail à prendre en compte dans le calcul des coûts réels. Cette sortie illustre la stratégie d'Anthropic consistant à concentrer l'innovation sur la fiabilité agentique plutôt que sur un seul score record, dans un marché où la concurrence entre modèles se joue de plus en plus sur l'autonomie et l'efficacité économique en production, plus que sur la performance brute isolée.

LLMsOpinion
1 source
Claude Sonnet 5 d'Anthropic réduit l'écart avec la gamme Opus, plus chère
3The Decoder 

Claude Sonnet 5 d'Anthropic réduit l'écart avec la gamme Opus, plus chère

Voici la traduction/résumé en français (3 paragraphes, sans titres) : Anthropic a dévoilé Claude Sonnet 5, la dernière évolution de sa gamme de modèles de langage. Selon l'entreprise, ce nouveau modèle surpasse son prédécesseur, Sonnet 4.6, sur l'ensemble des benchmarks utilisés pour l'évaluer. Fait notable, Sonnet 5 devance même Opus 4.8, le modèle haut de gamme et plus coûteux de la même famille, sur le test GDPval-AA v2, qui évalue les compétences en travail de connaissance : il y obtient un score de 1 618 points. Anthropic précise également que Sonnet 5 affiche des résultats nettement inférieurs, sur les tâches liées à la cybersécurité, à ceux des modèles que le gouvernement américain a actuellement interdits pour ce type d'usage. Cette annonce a une portée qui dépasse la simple mise à jour technique. En rattrapant, voire en dépassant sur certains critères, un modèle plus onéreux, Sonnet 5 permet aux entreprises et développeurs d'obtenir des performances de premier plan à moindre coût, ce qui pourrait redistribuer les usages entre les différentes gammes de modèles d'Anthropic. La mention explicite des scores en cybersécurité n'est pas anodine : elle intervient alors que les autorités américaines examinent de près les capacités offensives de l'intelligence artificielle et envisagent de restreindre l'accès à certains modèles jugés trop performants dans ce domaine. Ce positionnement s'inscrit dans un contexte plus large de compétition entre laboratoires d'IA, où chaque nouvelle génération de modèle cherche à combiner puissance et maîtrise des risques. En insistant sur le fait que Sonnet 5 reste loin des seuils jugés problématiques par Washington, Anthropic cherche à démontrer sa capacité à proposer des modèles à la fois performants et conformes aux exigences réglementaires émergentes, dans un débat toujours en cours sur l'encadrement des IA les plus avancées.

LLMsActu
1 source
Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)
4Le Big Data 

Anthropic force son IA Claude à… « rêver », (et c’est pour votre bien)

Anthropic a présenté le 6 mai 2026, lors de sa conférence développeurs Code with Claude à San Francisco, une nouvelle fonctionnalité baptisée « Dreaming » pour sa plateforme Claude Managed Agents. Disponible en avant-première de recherche, ce système place les agents IA dans un état d'analyse récurrente des sessions passées et des données mémorisées par plusieurs agents simultanément. Contrairement à la compaction classique, qui résume les conversations longues pour alléger la mémoire d'un seul agent, Dreaming opère de manière transversale : il inspecte les historiques de multiples agents, détecte des schémas récurrents, des erreurs fréquentes, des méthodes de travail adoptées spontanément, ou encore des préférences communes au sein d'une équipe. Les utilisateurs pourront choisir entre un mode automatique, où les ajustements s'appliquent sans intervention, et un mode manuel permettant de valider chaque modification avant son intégration. Lors de la même conférence, Anthropic a annoncé en version bêta publique trois autres fonctionnalités : « Results » (un évaluateur indépendant qui vérifie si une tâche a réellement atteint son objectif, et relance l'agent si ce n'est pas le cas), l'orchestration multi-agents (jusqu'à 20 agents spécialisés collaborant en parallèle sous la direction d'un agent principal), et les notifications webhook pour des alertes en temps réel vers des systèmes externes. L'enjeu central que Dreaming cherche à résoudre est structurel : les modèles de langage disposent d'une fenêtre de contexte limitée, et sur des projets longs, des informations critiques finissent inévitablement par disparaître. Pour les entreprises qui déploient des agents IA sur des semaines ou des mois, cette perte de continuité représente un frein opérationnel concret. En permettant à la mémoire de se restructurer automatiquement à partir de données croisées entre agents, Anthropic entend rendre les systèmes multi-agents plus cohérents, moins redondants dans leurs erreurs, et capables d'apprendre des comportements collectifs plutôt que de repartir de zéro à chaque session. La fonctionnalité Results, de son côté, répond à un problème tout aussi pragmatique : garantir que l'agent a bien produit ce qui était demandé, et non une approximation acceptable. Ces annonces s'inscrivent dans une course que se livrent OpenAI, Google DeepMind et Anthropic autour des agents autonomes capables de gérer des tâches complexes sur la durée. Claude Managed Agents est la réponse d'Anthropic aux frameworks agentiques concurrents, avec une philosophie axée sur la sécurité et la contrôlabilité, ce qui explique l'option de validation manuelle dans Dreaming plutôt qu'une automatisation totale. En restant en avant-première de recherche pour la fonctionnalité phare et en bêta publique pour les autres, Anthropic adopte une posture prudente avant un déploiement général, probablement dans les mois à venir, à mesure que les retours des développeurs consolideront le système.

UELes entreprises européennes déployant des agents Claude sur des projets longs bénéficieront d'une meilleure continuité mémorielle, mais la fonctionnalité reste en avant-première de recherche sans calendrier de déploiement général annoncé.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic