
Anthropic lance Claude Opus 4.8 : L’IA délivrée des hallucinations enfin arrivée ?
Anthropic a lancé le 28 mai 2026 Claude Opus 4.8, la nouvelle version de son modèle phare, disponible immédiatement au même tarif que son prédécesseur Opus 4.7. Le modèle affiche des performances notables sur les benchmarks techniques : 69,2 % sur SWE-Bench Pro et 74,6 % sur Agentic Terminal Coding, des scores qui le placent devant GPT-5.5 d'OpenAI et Gemini 3.1 Pro de Google selon les comparatifs publiés par Anthropic. Dans Claude Code, l'entreprise introduit un système de flux de travail dynamiques capable de générer des scripts JavaScript pour orchestrer des centaines de sous-agents en parallèle. Un utilisateur a rapporté avoir réécrits 750 000 lignes de code en 11 jours grâce à ce système. Un mode rapide est également disponible via la commande /fast : même modèle, vitesse 2,5 fois supérieure, coût réduit de près des deux tiers.
La principale promesse d'Opus 4.8 n'est pas spectaculaire mais potentiellement décisive : la fiabilité. Anthropic cible directement le problème des hallucinations et de la fausse confiance qui plombe l'adoption des IA en contexte professionnel. Le modèle serait désormais capable de reconnaître ses propres limites, de signaler ses incertitudes et d'identifier des incohérences dans ses propres analyses avant que l'utilisateur ne s'en aperçoive. Michael Ran de Bridgewater Associates, la plus grande société de gestion de fonds au monde, témoigne que Claude Opus 4.8 repère de lui-même certains problèmes dans les analyses produites, là où d'autres modèles laissaient passer les erreurs silencieusement. Anthropic affirme également avoir réduit les risques de comportements désalignés et amélioré la gestion des contenus sensibles.
Opus 4.8 s'inscrit dans un cycle de publication accéléré chez Anthropic : Opus 4.7 n'avait été lancé que quelques semaines auparavant. L'entreprise prend soin de qualifier cette nouvelle version d'amélioration « modeste mais tangible », une prudence qui répond aux critiques adressées à Opus 4.7, accusé d'une réflexion adaptative mal calibrée, trop de temps sur les tâches simples, trop peu sur les complexes. Pour corriger ce défaut, Anthropic introduit un panneau de contrôle de l'effort permettant aux utilisateurs d'ajuster le niveau de réflexion du modèle selon la nature de la tâche. La course à la fiabilité devient ainsi le nouveau front concurrentiel entre les grands laboratoires, après la course aux paramètres et aux benchmarks bruts qui a dominé les deux dernières années.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.


