Dossier Claude Opus — page 3

212 articles · page 3 sur 5

La gamme Claude Opus d'Anthropic : sorties successives (4.6, 4.7), benchmarks, comparaisons avec GPT et Gemini, retours d'expérience développeurs.

101MarkTechPost LLMsActu

Claude Opus 5 arrive : codage à base d'agents de pointe et utilisation d'ordinateur, au même prix

Anthropic a annoncé le lancement de Claude Opus 5, qui remplace Claude Opus 4.8 au sommet de sa gamme. Les tarifs restent inchangés, à 5 dollars par million de tokens en entrée et 25 dollars par million en sortie, l'entreprise affirmant que ce nouveau modèle approche l'intelligence de Claude Fable 5 pour moitié moins cher. Opus 5 devient le modèle par défaut sur Claude Max et le plus performant disponible sur Claude Pro. Plusieurs changements techniques accompagnent ce lancement : le raisonnement approfondi ("thinking") est désormais activé par défaut, alors qu'il fallait auparavant l'activer manuellement, et la profondeur se règle via un paramètre d'effort. Une modification cassante mérite attention : désactiver le raisonnement tout en demandant un effort élevé ou maximal renvoie désormais une erreur. La fenêtre de contexte atteint 1 million de tokens, la sortie maximale grimpe à 128 000 tokens sur l'API standard et jusqu'à 300 000 en traitement par lots, et le seuil minimal pour la mise en cache des prompts descend à 512 tokens. Sur le plan des performances, les gains sont particulièrement nets pour les tâches agentiques et le code. Sur FrontierBench, Opus 5 obtient 43,3%, plus du double du score d'Opus 4.8 (18,7%) et devant Fable 5 (33,7%) et GPT-5.6 Sol (37,5%). Il atteint 96% sur SWE-bench Verified et bondit à 59,4% sur la variante multimodale, contre 38,4% pour la génération précédente. Sur OSWorld 2.0, qui évalue l'usage d'ordinateurs par un agent, le score passe de 55,7% à plus de 70%. Fait notable, les classificateurs de sécurité d'Opus 5 ne bloquent que 5% des appels API contre 42% pour Fable 5, signe d'une meilleure calibration entre prudence et efficacité. Le modèle a aussi résolu les six problèmes de l'Olympiade internationale de mathématiques 2026, avec un score parfait validé à la fois par un panel de juges et par des experts humains, soit un niveau de médaille d'or. Ces résultats s'inscrivent dans une course serrée entre Anthropic, OpenAI avec GPT-5.6 Sol, et les autres modèles de la gamme Claude comme Fable 5 et Mythos 5. Un enseignement transversal ressort des tests multimodaux : donner au modèle des outils, comme le recadrage d'image, améliore davantage les résultats que d'augmenter simplement l'effort de raisonnement. Autre point à surveiller, les capacités offensives en cybersécurité progressent mécaniquement avec la montée en compétence générale du modèle, alors même qu'Anthropic n'a pas entraîné Opus 5 spécifiquement sur ces tâches, ce qui relance les questions sur l'encadrement des usages malveillants potentiels à mesure que ces systèmes deviennent plus capables.

Dossier Claude Opus — page 3

Claude Opus 5 arrive : codage à base d'agents de pointe et utilisation d'ordinateur, au même prix

Laguna S 2.1 sort : moins cher que Deepseek V4 Flash, meilleur que V4 Pro

Washington envisage des restrictions sur les modèles IA open-weight chinois comme Kimi

La Kimi K3 de la Chine, comme Deepseek, pousse les labos occidentaux à interroger leur avantage en calcul

Muse Spark 1.1 : Meta agressif sur les prix pour rattraper les cadors de l’IA

Anthropic découvre un espace caché où Claude « réfléchit » aux concepts

Databricks fait de GLM 5.2, un modèle open-source chinois, son moteur de code par défaut après l'avoir vu égaler Opus à moindre coût

Le fil IA d'X lance Grok 4.5, premier modèle de niveau Opus après le rachat de Cursor

SpaceXAI lance Grok 4.5 : Tout savoir sur la nouvelle IA de code d’Elon Musk

SpaceX progresse dans l'IA, avec un coup de main de Cursor

Grok 4.5 est tellement moins cher que Fable 5 et GPT 5.5 que les écarts de benchmarks comptent peu

Mistral AI publie Leanstral 1.5 : un modèle agent de code Lean 4 sous licence Apache 2.0, qui résout 587 des 672 problèmes du PutnamBench

Depuis son retour, Claude Fable 5 fait beaucoup moins rêver

Claude Sonnet 5 : plus agentique, plus malin et bientôt plus cher

Claude Sonnet 5 est là, et il sait utiliser un navigateur et un terminal tout seul

Fable 5 et Mythos 5 sont de retour : Trump lève (enfin) ses restrictions

Anthropic lance Claude Sonnet 5 à prix cassé face à son modèle phare, alors que l'IPO se profile

Import AI 463 : robots qui s'améliorent seuls, cluster GPU chinois de 10k, et essai élégiaque sur l'ère humaine

OpenAI : les tokens de sortie de Codex multipliés par 13 à 56 selon les services depuis novembre 2025

Comment Shopify a construit un stack IA indifférent à la survie des modèles

Anthropic intègre des agents IA dans Slack

Anthropic lance Claude Tag, un assistant IA persistant et autonome pour remplacer son application Slack

GPT-5.5-Cyber signe un score record en cybersécurité : le nouveau rival de Mythos ?

GLM-5.2 de Zhipu AI rivalise avec les meilleurs modeles propriétaires sur les benchmarks de codage

Le modèle open source Kimi K2.7 Code est jusqu'à 12 fois moins cher par token que GPT-5.5 et Claude

Perplexity intègre Deep Research dans son agent informatique, en distribuant les sous-tâches sur plus de 20 modèles de pointe

FrontierCode : un benchmark pour la qualité du code face au contenu bâclé

Pas grand chose à signaler aujourd'hui

Le futuriste IA de Microsoft explique comment il utilise Copilot et les problèmes concrets que les entreprises résolvent avec des agents

☕️ Anthropic élargit l’accès à Mythos à une quinzaine de pays

MiniMax publie M3 : architecture MSA, contexte d'un million de tokens, multimodalité native et codage par agents autonomes

Les évaluateurs IA peinent face aux modèles qui détectent quand ils sont testés

Gemini 3.5 Flash veut réduire les coûts IA des entreprises

Anthropic accuse la science-fiction dystopique de former des modèles d'IA à se comporter de façon malveillante

La fin du finetuning

GPT-5.5 coûte 49 à 92 % plus cher que son prédécesseur, selon la longueur des entrées

Anthropic présente des autoencodeurs convertissant les activations internes de Claude en explications en langage naturel

Anthropic dévoile des agents IA pour automatiser les tâches financières

ImageGen est sur la voie de l'AGI

500 banquiers d'investissement ont évalué les résultats de l'IA : aucun n'est prêt pour les clients

Mystère résolu : Anthropic révèle que des changements de configuration et d'instructions ont causé la dégradation de Claude

Moonshot AI publie Kimi K2.6 : codage longue portée et essaim d'agents à 300 sous-agents et 4 000 étapes coordonnées

☕️ Après le code, Claude génère des interfaces

Les deux visages d'OpenClaw

Meta Superintelligence Lab lance Muse Spark : modèle multimodal avec compression du raisonnement et agents parallèles

Anthropic a développé un modèle trop dangereux pour être publié

Import AI 452 : lois d'échelle pour la cyberguerre, automatisation par IA en hausse et énigme autour des prévisions de PIB

Actualité : Claude est encore en panne, un mois noir pour Anthropic

Le nouveau modèle affiné Fin Apex 1.0 d'Intercom surpasse GPT-5.4 et Claude Sonnet 4.6 en support client

TAI #195 : GPT-5.4 et l'arrivée de l'auto-amélioration de l'IA ?