LLMsLe Big Data · 24 avr. 2026, 08:49· 2 min de lecture

GPT-5.5 pulvérise les benchmarks : une vraie boucherie pour la concurrence !

OpenAI a lancé GPT-5.5 le 23 mars 2026, soit à peine six semaines après GPT-5.4, confirmant un rythme de déploiement qui tient en haleine toute l'industrie. Le nouveau modèle se distingue sur plusieurs fronts : écriture et correction de code, recherche en ligne, analyse de données, création de documents et de feuilles de calcul, mais aussi interaction directe avec les logiciels et enchaînement d'outils pour mener une tâche à son terme. En développement front-end, il repère et corrige bugs visuels et incohérences d'interface avec une fluidité remarquée. Sur les benchmarks, les chiffres sont nets : GPT-5.5 atteint 82,7 % sur Terminal-Bench 2.0, qui mesure la capacité à exécuter des tâches réelles dans un terminal comme le ferait un développeur, dépassant notamment Claude Opus 4.7 d'Anthropic. Il affiche 58,6 % sur SWE-Bench Pro, dédié à l'ingénierie logicielle, et enregistre un gain de 3,7 points sur HealthBench Professional par rapport à son prédécesseur. En matière de vitesse, les tâches complexes de programmation s'exécutent jusqu'à 40 % plus rapidement qu'avec GPT-5.4. Au total, le modèle domine 14 benchmarks commerciaux, avec des scores particulièrement élevés en économie via GDPval à 84,9 % et en cybersécurité via CyberGym à 81,8 %.

Ces résultats positionnent GPT-5.5 comme le modèle de référence actuel pour les usages professionnels intensifs, notamment en développement logiciel et en automatisation de tâches complexes. Un gain de vitesse de 40 % sur la programmation n'est pas anodin : pour les équipes qui utilisent ces modèles en production, cela se traduit directement en économies de temps et en réduction des coûts d'inférence. La domination sur Terminal-Bench 2.0 est particulièrement significative, ce test étant conçu pour simuler des conditions proches du travail réel d'un ingénieur, là où d'autres benchmarks restent plus académiques. Le léger retard sur SWE-Bench Pro face à certains concurrents sur le raisonnement pur nuance néanmoins le tableau et rappelle qu'aucun modèle ne rafle encore tous les usages.

Cette sortie s'inscrit dans une période de compétition intense entre OpenAI, Anthropic et Google, où les cycles de mise à jour se sont drastiquement raccourcis. Six semaines entre deux versions majeures illustre une course à l'armement qui ne laisse plus de répit aux équipes concurrentes. OpenAI consolide ainsi sa position dominante en ciblant précisément les cas d'usage professionnels et les pipelines d'automatisation, là où la vitesse et la fiabilité d'exécution comptent autant que le raisonnement pur. La concurrence dispose toutefois de modèles plus spécialisés qui conservent l'avantage sur certains segments, et les prochaines réponses d'Anthropic et Google sont attendues dans les semaines à venir.

Impact France/UE

Les équipes tech européennes utilisant ces modèles pour le développement logiciel et l'automatisation bénéficieront d'un gain de vitesse de 40 % sur les tâches complexes de programmation.

Dans nos dossiers

GPT-5.5 OpenAI Anthropic Claude Opus

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder

GPT-5.6 Sol égale presque Fable 5 sur les benchmarks agrégés, pour un tiers du coût

OpenAI a présenté GPT-5.6 Sol, une nouvelle version de son modèle phare, qui obtient 59 points sur l'Artificial Analysis Intelligence Index, un indice qui agrège plusieurs benchmarks pour évaluer les capacités des grands modèles de langage. Ce score place Sol à seulement un point derrière Claude Fable 5, le modèle le plus avancé d'Anthropic, considéré jusqu'ici comme la référence du secteur. La différence la plus marquante se situe toutefois du côté du prix : chaque tâche traitée par Sol coûte 1,04 dollar, soit environ un tiers du tarif facturé par Anthropic pour Fable 5. Sur les benchmarks de codage agentique, qui évaluent la capacité d'un modèle à exécuter des tâches complexes de façon autonome, Sol devance même l'ensemble de ses concurrents, Fable 5 y compris. Pour les entreprises et les développeurs qui choisissent quel modèle intégrer dans leurs produits, cet écart de prix change la donne : obtenir des performances quasiment équivalentes à celles du modèle le plus coté du marché, pour un tiers du coût, rend Sol particulièrement attractif pour les usages à grande échelle, où la facture de l'API pèse lourd. Le secteur du codage agentique, en pleine expansion avec la multiplication des assistants capables d'écrire et d'exécuter du code sans supervision constante, est particulièrement concerné. En prenant la tête sur ces benchmarks tout en restant nettement moins cher, OpenAI met une pression tarifaire directe sur Anthropic, qui devra soit baisser ses prix, soit justifier son positionnement premium par des gains de performance plus nets. Cette annonce s'inscrit dans une compétition de plus en plus serrée entre les grands laboratoires d'IA, où les écarts de performance entre modèles concurrents se resserrent d'une génération à l'autre, tandis que la guerre des prix s'intensifie. Anthropic, OpenAI et leurs rivaux misent de plus en plus sur les capacités agentiques, jugées déterminantes pour convaincre les entreprises d'automatiser des tâches de développement logiciel. L'Artificial Analysis Intelligence Index, devenu une référence pour comparer les modèles de façon indépendante, illustre à quel point les positions en tête de classement peuvent désormais basculer en quelques mois. Reste à voir comment Anthropic réagira à cette pression sur ses tarifs, et si d'autres acteurs suivront la stratégie d'OpenAI consistant à combiner performances de pointe et prix agressifs.

LLMsOpinion

1 source

2Le Big Data

Pourquoi Claude Opus 4.8 change vraiment la donne (tests et benchmarks) ?

Anthropic a lancé Claude Opus 4.8 le 28 mai 2026, seulement 41 jours après la version 4.7, un rythme inhabituel dans un secteur où les nouvelles versions majeures nécessitent généralement plusieurs mois. Disponible au même prix que son prédécesseur, ce modèle affiche des progrès mesurables sur plusieurs benchmarks clés : 84 % sur Online-Mind2Web, qui évalue les interactions autonomes avec des interfaces numériques, et des gains notables sur Terminal-Bench 2.1, dédié à la programmation en ligne de commande. Plus frappant encore, les évaluations internes d'Anthropic indiquent que le modèle est environ quatre fois moins susceptible de laisser passer des erreurs dans son propre code qu'Opus 4.7. Sur le plan fonctionnel, les utilisateurs de Claude AI ont désormais accès à cinq niveaux de raisonnement ajustables, tandis que Claude Code intègre les Dynamic Workflows, permettant de planifier des tâches complexes en mobilisant plusieurs sous-agents en parallèle sur de larges bases de code. Ce qui distingue Opus 4.8 ne réside pas uniquement dans les scores, mais dans un changement de philosophie profond : le modèle a été conçu pour mieux reconnaître ses propres limites et signaler ses incertitudes plutôt que de produire des réponses erronées avec assurance. Dans un contexte professionnel où une IA trop confiante peut induire en erreur des équipes entières, cette prudence constitue une valeur ajoutée concrète. Pour les développeurs qui utilisent Claude Code dans des pipelines agentiques, la réduction des erreurs non détectées et la capacité à orchestrer des sous-agents en parallèle ouvrent des cas d'usage jusqu'ici trop risqués pour être déployés en production. Le gain d'efficacité est également tangible : le modèle atteint des résultats équivalents en moins d'étapes intermédiaires, ce qui réduit les coûts d'inférence sur les longues tâches. Cette version s'inscrit dans une période de concurrence intense entre Anthropic, OpenAI et Google, où chaque éditeur cherche à dominer le segment des agents autonomes. La version 4.7 avait suscité des critiques sur ses comportements imprévisibles et sa tendance à l'excès de confiance, des défauts qui nuisaient à l'adoption en entreprise. En répondant directement à ces reproches en moins de six semaines, Anthropic signale qu'il est capable d'itérer aussi vite que ses rivaux sans sacrifier la fiabilité. La question qui demeure ouverte est celle de la durabilité de ce rythme : à 41 jours par version, l'entreprise devra démontrer que la qualité peut tenir la cadence.

UELes équipes de développement européennes utilisant Claude Code dans des pipelines agentiques bénéficient des améliorations de fiabilité et de la réduction des coûts d'inférence, sans impact réglementaire ou institutionnel spécifique à la France ou l'UE.

💬 41 jours entre deux versions majeures, c'est du jamais vu chez Anthropic. Ce qui compte vraiment là-dedans, c'est pas les scores (on peut faire dire ce qu'on veut aux benchmarks), c'est que le modèle est maintenant conçu pour signaler ses incertitudes plutôt que d'affirmer des erreurs avec aplomb, et en pipeline agentique, c'est la différence entre un outil qu'on ose déployer en prod et un truc qu'on surveille en permanence. Reste à voir si ce rythme tient dans 3 mois.

LLMsOpinion

1 source

3MarkTechPost

Les 7 benchmarks qui comptent vraiment pour le raisonnement des agents autonomes dans les LLM

Alors que les agents d'intelligence artificielle quittent les laboratoires pour entrer dans les environnements de production, une question s'impose : comment évaluer concrètement leurs capacités ? Les métriques classiques comme les scores MMLU ou la perplexité ne disent rien sur la capacité d'un modèle à naviguer sur un site web, à résoudre un ticket GitHub ou à gérer un flux de service client sur des centaines d'interactions. Face à ce vide, la communauté a développé une nouvelle génération de benchmarks agentiques, dont sept ont émergé comme de véritables signaux de capacité. Premier avertissement fondamental : ces scores dépendent fortement du scaffolding utilisé. Le design du prompt, les outils disponibles, le budget de tentatives, l'environnement d'exécution et la version de l'évaluateur peuvent tous modifier significativement les résultats publiés. Un chiffre isolé ne vaut rien sans son contexte de production. Le benchmark SWE-bench, disponible sur swebench.com, est aujourd'hui la référence la plus citée pour l'ingénierie logicielle. Il soumet les agents à 2 294 problèmes réels tirés d'issues GitHub sur 12 dépôts Python populaires : le modèle doit produire un patch fonctionnel qui passe les tests unitaires, pas simplement décrire une solution. Le sous-ensemble Verified, composé de 500 échantillons validés par des ingénieurs professionnels en collaboration avec OpenAI, est la version standard des évaluations actuelles. Sa trajectoire est éloquente : en 2023, Claude 2 ne résolvait que 1,96 % des problèmes ; fin 2025 et début 2026, les modèles frontier les plus avancés franchissent la barre des 80 % sur ce même jeu de données. GAIA, hébergé sur Hugging Face, teste quant à lui des capacités d'assistance généraliste : raisonnement en plusieurs étapes, navigation web, usage d'outils et compréhension multimodale. Ses tâches paraissent simples en surface mais exigent des chaînes d'opérations non triviales, ce qui en fait un détecteur efficace de fragilité dans l'usage des outils. WebArena, sur webarena.dev, évalue la navigation web autonome dans des environnements fonctionnels simulant e-commerce, forums, développement collaboratif et gestion de contenus. Ces benchmarks reflètent une transformation profonde de ce que l'on attend des LLMs. L'ère des modèles évalués sur des QCM académiques est révolue : l'enjeu est désormais de mesurer leur capacité à agir de façon autonome dans des environnements complexes et bruités. Un score élevé sur SWE-bench indique une force spécifique en réparation de code, pas une autonomie universelle, ce qui explique pourquoi les équipes sérieuses croisent plusieurs benchmarks. Les modèles propriétaires tendent à surpasser les modèles open source, mais la performance dépend autant du harness d'exécution que du modèle sous-jacent. À mesure que les déploiements agentiques se généralisent en entreprise, ces outils d'évaluation deviennent des instruments de pilotage essentiels, non plus de simples curiosités académiques.

💬 SWE-bench à 80%, c'est le chiffre qui claque, mais le vrai message est ailleurs : un score sans son contexte de scaffolding ne vaut rien, et les équipes qui déploient des agents en prod commencent à l'intégrer. Passer de 2% à 80% sur ce benchmark en deux ans, ça donne le vertige, mais ça mesure la réparation de code Python sur GitHub, pas l'autonomie universelle. Reste à voir si les prochains modèles seront entraînés dessus et rendront ces évaluations caduques avant même qu'elles soient adoptées en entreprise.

LLMsPaper

1 source

4VentureBeat AI

SpaceX lance Grok 4.5 a moitie prix de la concurrence, un defi pour Anthropic et OpenAI

SpaceX a dévoilé mercredi Grok 4.5, le tout premier modèle d'intelligence artificielle qu'elle a entraîné spécifiquement pour la programmation et les agents autonomes. Il s'agit du premier produit concret issu du rachat pour 60 milliards de dollars de la startup de coding Cursor, finalisé quelques semaines plus tôt. Sur X, l'entreprise a présenté Grok 4.5 comme un modèle offrant "une intelligence de pointe avec une vitesse et une efficacité de coût inégalées", entraîné en partie avec les données de Cursor. Côté tarifs, SpaceX facture 2 dollars par million de tokens en entrée et 6 dollars par million en sortie, soit moins de la moitié du prix des offres haut de gamme d'Anthropic (Claude Opus) et d'OpenAI, tout en consommant deux fois moins de tokens par tâche. Elon Musk a lui-même reconnu que Grok 4.5 est "à peu près comparable à Opus 4.7, mais bien plus rapide". Le cabinet d'évaluation indépendant Artificial Analysis a classé le modèle quatrième sur son indice GDPval-AA v2, qui mesure les performances sur des tâches réelles de travail agentique, avec un score Elo de 1543, juste derrière les dernières versions de Claude. En revanche, sur le plan du coût, Grok 4.5 se démarque nettement : 0,49 dollar par tâche accomplie, près de 90% moins cher que les modèles qui le devancent au classement. Cet écart de prix pourrait bousculer l'équilibre du marché des agents IA en entreprise. Les charges de travail agentiques, où un modèle opère seul pendant plusieurs minutes voire plusieurs heures en lisant du code, en appelant des outils et en itérant sur ses propres résultats, consomment énormément de tokens. Un modèle 90% moins cher par tâche, même légèrement moins performant, change radicalement les calculs économiques pour toute organisation qui déploie des agents auprès de centaines de développeurs. L'investisseur Gavin Baker a résumé cette dynamique en évoquant un modèle "dominant au sens de Pareto" pour le coding, tout en restant prudent sur le ressenti réel des utilisateurs. Ce lancement s'inscrit dans une stratégie bâtie en plusieurs étapes. En avril, SpaceX avait obtenu le droit de racheter Cursor pour 60 milliards de dollars, ou de verser des milliards en frais et en capacité de calcul en cas de désistement. Quelques jours après son entrée en bourse au Nasdaq en juin, l'entreprise a exercé cette option via une opération entièrement en actions, entraînant une dilution d'environ 3,4% à la valorisation de l'introduction, tandis que le titre SpaceX bondissait de 16%. L'intérêt stratégique tient autant aux données qu'au produit : l'éditeur de code de Cursor génère un flux massif d'interactions de développeurs expérimentés, directement injecté dans l'entraînement de Grok, tandis que Cursor a obtenu en retour l'accès au supercalculateur Colossus de SpaceX à Memphis.

UEImpact indirect : la baisse du cout des agents IA pourrait beneficier les entreprises europeennes qui deploient ces outils, sans lien direct avec une entite ou reglementation francaise ou europeenne.

💬 Le vrai coup ici, c'est pas la perf, c'est le prix : 90% moins cher par tâche que les modèles qui le devancent au classement, ça change le calcul économique pour toute boîte qui fait tourner des agents à l'échelle. Sur le papier Grok 4.5 reste juste derrière Claude en qualité, mais en pratique une entreprise qui fait bosser des agents des heures durant va regarder la facture avant le score Elo. Anthropic et OpenAI ont un problème de marge à gérer, pas un problème technique.

LLMsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic