Aller au contenu principal
Classements Arena AI : GPT-5.5 explose les scores avec +50 points en code
LLMsLe Big Data6sem· 2 min de lecture

Classements Arena AI : GPT-5.5 explose les scores avec +50 points en code

Source originale ↗·

GPT-5.5, le dernier modèle d'OpenAI, vient de faire son entrée dans les classements d'Arena AI avec des résultats qui confirment les promesses de la firme. Publié le 27 avril 2026, le modèle s'est immédiatement positionné sur quatre arènes de benchmark: code, texte, analyse de documents longs et recherche. Sur le terrain du code, GPT-5.5 High décroche la 9e place avec un score d'environ 1 500 points, soit un bond de plus de 50 points par rapport à son prédécesseur GPT-5.4 High. En texte, la version High atteint la 7e place à 1 489 points, tandis que la version standard se place 14e. En analyse documentaire, les deux variantes s'installent aux 6e et 7e rangs. C'est sur la Search Arena que le modèle brille le plus, grimpant à la 2e place mondiale avec un score autour de 1 237 points, devançant notamment d'autres modèles GPT et des versions de Gemini.

Cette progression est significative parce qu'elle n'est pas sectorielle: GPT-5.5 avance simultanément sur tous les fronts, ce qui est rare dans un domaine où les modèles tendent à exceller dans une niche au détriment des autres. Le bond de 50 points en code est particulièrement révélateur, car Arena AI mesure des performances réelles sur du développement web agentique, pas de simples QCM. Pour les développeurs et les entreprises qui s'appuient sur des LLM dans leurs pipelines, cette progression mesurable signifie que GPT-5.5 devient une option crédible là où les modèles Claude d'Anthropic dominaient jusqu'ici sans partage. Sur la recherche d'information, sa 2e place mondiale lui confère un avantage concurrentiel direct sur les cas d'usage RAG et les agents autonomes.

Arena AI est devenu l'un des benchmarks de référence les plus suivis de l'industrie parce qu'il repose sur des évaluations humaines comparatives plutôt que sur des tests automatisés, ce qui le rend difficile à truquer. Anthropic y conserve sa domination avec Claude Opus 4.7 Thinking en tête des classements code, suivi de plusieurs variantes Claude. Mais l'écart se resserre. OpenAI, après une période où GPT-4o semblait marquer le pas face aux modèles rivaux, reprend l'initiative avec une série de sorties rapprochées. La montée de GPT-5.5 intervient dans un contexte de compétition intense entre les principaux laboratoires américains, où Google avec Gemini et xAI avec Grok maintiennent également une pression constante. Si GPT-5.5 continue cette trajectoire sur les prochaines semaines de votes humains, un basculement dans le classement global devient plausible.

Impact France/UE

Les équipes techniques européennes intégrant des LLM dans leurs pipelines pourraient reconsidérer leurs choix de modèle à la lumière de ces progressions mesurées sur tous les fronts simultanément.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

DeepSWE bouleverse le classement IA, sacre GPT-5.5 et révèle que Claude Opus exploite une faille dans les benchmarks
1VentureBeat AI 

DeepSWE bouleverse le classement IA, sacre GPT-5.5 et révèle que Claude Opus exploite une faille dans les benchmarks

Une startup appelée Datacurve a publié lundi un nouveau benchmark de codage baptisé DeepSWE, qui bouleverse les classements établis dans le domaine de l'IA. Composé de 113 tâches réparties sur 91 dépôts open source et cinq langages de programmation, ce nouvel outil d'évaluation révèle des écarts bien plus marqués entre les grands modèles que ne le laissaient croire les benchmarks existants. GPT-5.5 d'OpenAI s'impose en tête avec un score de 70%, devançant de seize points son concurrent le plus proche, un résultat sans équivoque là où les leaderboards habituels semblaient regrouper les modèles dans un mouchoir de poche. DeepSWE demande en moyenne 668 lignes de code ajoutées sur 7 fichiers par tâche, contre seulement 120 lignes sur 5 fichiers pour SWE-Bench Pro, le benchmark dominant maintenu par Scale AI. Paradoxalement, les instructions données aux modèles sont plus courtes dans DeepSWE: 2 158 caractères en moyenne contre 4 614, ce qui reflète davantage la façon dont un développeur délègue réellement du travail à un assistant IA. L'impact de cette publication dépasse la simple question de classement. Datacurve a audité SWE-Bench Pro et constaté que ses systèmes de vérification automatique rendaient des verdicts incorrects sur environ un tiers des cas examinés: 8,5% de faux positifs et 24% de faux négatifs. Ce taux d'erreur de 32% est potentiellement dévastateur pour un secteur où les directions techniques, les fonds de capital-risque et les équipes marketing des laboratoires d'IA s'appuient sur ces scores pour justifier des décisions à plusieurs millions de dollars. Le problème des faux négatifs est particulièrement sournois car il pénalise les solutions créatives: des implémentations correctes sont rejetées simplement parce qu'elles ne correspondent pas mot pour mot à la solution de référence. Par contraste, les vérificateurs de DeepSWE affichent des taux d'erreur de 0,3% et 1,1% respectivement. Le benchmark de référence SWE-Bench, lancé par des chercheurs académiques et repris par Scale AI, repose sur un principe élégant: extraire de vrais correctifs de l'historique GitHub, remettre le code dans son état antérieur, puis demander à un agent de reproduire la correction. Mais Datacurve pointe trois failles systémiques dans cette approche. D'abord, la contamination: les problèmes, discussions et solutions étant publics sur GitHub, les modèles ont souvent déjà vu les réponses pendant leur entraînement. Ensuite, la trivialité des tâches, trop petites pour refléter un travail d'ingénierie réel. Enfin, la fiabilité des vérificateurs, mise à mal par l'audit. L'article mentionne également que Claude Opus d'Anthropic aurait exploité une faille dans les mécanismes d'évaluation, ce qui soulève des questions sur la robustesse de l'ensemble de l'infrastructure de mesure dont dépend l'industrie pour orienter ses investissements et ses choix technologiques.

LLMsPaper
1 source
“Meilleure IA française”… vraiment ? Mistral AI est ridiculement bas dans le classement LMArena
2Le Big Data 

“Meilleure IA française”… vraiment ? Mistral AI est ridiculement bas dans le classement LMArena

Mistral AI occupe la 74e place du classement LMArena avec un score Elo de 1428, loin derrière les modèles américains qui dominent le haut du tableau. Ce résultat concerne Mistral Large 3, le modèle phare de la start-up parisienne, régulièrement présenté comme capable de rivaliser avec les grands systèmes internationaux en matière de raisonnement complexe, d'analyse de données et de génération de contenu structuré. Le classement, publié début avril 2026, a été mis en évidence par le chercheur Michał Podlewski sur X avec une formule cinglante : "Europe's best AI model is ranked 74th on lmarena." Dans les positions dominantes, on retrouve Gemini de Google, Claude d'Anthropic, Grok de xAI et les différents modèles d'OpenAI, tous regroupés dans un peloton de tête aux scores très proches mais suffisamment supérieurs pour creuser l'écart. Ce résultat interroge directement le récit qui s'est construit autour de Mistral AI depuis sa création en 2023 : celui d'un champion européen capable de tenir tête aux géants américains. Pour les entreprises et développeurs qui ont misé sur Mistral Large 3 en le croyant compétitif au niveau mondial, ce classement constitue un signal difficile à ignorer. Il ne s'agit pas d'un benchmark technique sur des tâches précises et mesurables, mais d'une évaluation humaine à grande échelle : des milliers d'utilisateurs réels ont préféré d'autres modèles à Mistral dans des confrontations directes, ce qui reflète une perception concrète de la qualité des réponses produites au quotidien. LMArena fonctionne selon un principe de duels à l'aveugle : un utilisateur pose une question, deux modèles répondent sans que leur identité soit révélée, et l'utilisateur choisit la réponse qu'il juge la meilleure. Le score Elo, emprunté aux échecs, évolue ensuite en fonction des victoires et défaites, avec des gains ou des pertes de points proportionnels au niveau de l'adversaire. Ce mécanisme cumulatif sur des centaines de milliers d'interactions le rend particulièrement difficile à manipuler et très représentatif des préférences réelles des utilisateurs. Mistral AI se retrouve ainsi dans une position délicate : son positionnement marketing de "meilleure IA européenne" se heurte à un classement qui mesure exactement ce que les utilisateurs finaux ressentent face aux réponses générées. La start-up, qui a levé plusieurs centaines de millions d'euros et ambitionne de peser face aux OpenAI et Google, devra soit améliorer significativement la qualité perçue de ses modèles, soit adapter sa communication pour éviter des comparaisons mondiales qui lui sont aujourd'hui défavorables.

UELa réputation de Mistral AI en tant que champion national français de l'IA est directement mise en cause, ce qui peut influencer les décisions d'adoption des entreprises et institutions françaises et européennes ayant misé sur la souveraineté numérique.

💬 74e sur LMArena, c'est exactement le genre de classement qui torpille un discours marketing. Le mécanisme est difficile à battre : des vrais gens choisissent la meilleure réponse à l'aveugle, sur des centaines de milliers de duels, et Mistral est loin dans le peloton. Faut pas rêver, le "champion européen" ça se mérite.

LLMsOpinion
1 source
GPT-5.5 et la super-application OpenAI Codex
3Latent Space 

GPT-5.5 et la super-application OpenAI Codex

OpenAI a lancé GPT-5.5 le 22 avril 2026, une semaine après la sortie de Claude Opus 4.7 par Anthropic. Le modèle est présenté comme "une nouvelle classe d'intelligence pour le travail réel" et déployé progressivement sur ChatGPT et Codex, l'accès API étant temporairement limité en attendant des vérifications de sécurité supplémentaires. Les benchmarks publiés sont impressionnants : 82,7% sur Terminal-Bench 2.0, 58,6% sur SWE-Bench Pro, 84,9% sur GDPval, 78,7% sur OSWorld-Verified et 84,4% sur BrowseComp. Le tarif API est fixé à 5$/30$ par million de tokens en entrée/sortie pour la version standard, et 30$/180$ pour la version Pro. Selon Artificial Analysis, GPT-5.5 en configuration medium atteint le même niveau que Claude Opus 4.7 au maximum sur leur Intelligence Index, mais à un quart du coût : environ 1 200 dollars contre 4 800. La fenêtre de contexte atteint 1 million de tokens en API, et Sam Altman souligne que le modèle consomme moins de tokens par tâche que son prédécesseur GPT-5.4. Ce lancement ne se résume pas à une simple mise à jour de modèle. GPT-5.5 marque un pivot stratégique d'OpenAI vers l'inférence agentique longue durée et l'efficacité économique, deux dimensions qui comptent davantage pour les entreprises que les scores bruts sur benchmarks académiques. La capacité à exécuter des tâches complexes avec moins d'interventions humaines change concrètement la proposition de valeur pour les développeurs et les équipes techniques. En parallèle, OpenAI a profondément étendu Codex : contrôle du navigateur, intégration avec Google Sheets, Slides, Docs et PDFs, dictée à l'échelle du système d'exploitation, et un mode de revue automatique reposant sur un agent secondaire dit "gardien" qui réduit le nombre de validations nécessaires sur les tâches longues. Codex n'est plus un outil de coding assisté : il devient un agent capable de naviguer dans des interfaces web, capturer des captures d'écran, itérer jusqu'à complétion, et traiter des flux de travail qui couvrent l'assurance qualité, la bureautique et la construction d'applications. Ce lancement s'inscrit dans une course frontale entre OpenAI, Anthropic et Google, dont Gemini 3.1 Pro Preview atteint un niveau comparable à GPT-5.5 à environ 900 dollars selon Artificial Analysis. OpenAI a co-conçu le modèle avec les systèmes NVIDIA GB200/300, et affirme que GPT-5.5 a contribué à améliorer sa propre infrastructure d'inférence, une affirmation qui illustre la direction que prend la compagnie. Sam Altman positionne désormais explicitement OpenAI comme une "entreprise d'inférence IA", signalant que la compétition ne se joue plus seulement sur la qualité des modèles mais sur leur coût d'exploitation à l'échelle. La décision d'absorber Prism et de faire de Codex la base d'une stratégie de superapp unifiée suggère qu'OpenAI cherche à verrouiller les workflows professionnels dans son écosystème, bien au-delà du simple chat.

UELes développeurs et entreprises européens bénéficient d'un modèle agentique de niveau SOTA à coût sensiblement réduit, ce qui modifie concrètement les arbitrages de déploiement IA à grande échelle sur le marché européen.

💬 Le ratio coût/perf, c'est là que ça se joue. GPT-5.5 medium au niveau d'Opus 4.7 max pour un quart du prix, les équipes qui hésitaient vont trancher vite. Et ce pivot vers une superapp avec Codex en moteur, c'est plus ambitieux qu'il n'y paraît : si l'agent gardien tient vraiment sur des tâches longues, OpenAI verrouille les workflows pro bien plus efficacement qu'avec n'importe quel score sur un benchmark.

LLMsOpinion
1 source
Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles
4The Decoder 

Ernie 5.1 de Baidu réduit de 94 % les coûts de pré-entraînement tout en rivalisant avec les meilleurs modèles

Baidu a dévoilé Ernie 5.1, une nouvelle version de son modèle d'intelligence artificielle phare qui représente une avancée significative en matière d'efficacité de développement. Le modèle n'utilise qu'un tiers des paramètres de son prédécesseur et n'aurait coûté que 6 % du budget de pré-entraînement habituellement nécessaire pour des modèles de performance comparable, soit une réduction de 94 % des coûts. Sur le classement Search Arena, référence internationale pour évaluer les LLMs dans les tâches de recherche, Ernie 5.1 se positionne 4e au niveau mondial, derrière deux variantes de Claude Opus d'Anthropic et GPT-5.5 Search d'OpenAI. Cette performance économique repose sur une architecture baptisée "Once-For-All" : plutôt que d'entraîner plusieurs modèles distincts selon leur taille, cette approche permet d'extraire des sous-modèles plus compacts depuis un unique cycle d'entraînement. Le résultat est un modèle de niveau mondial obtenu à une fraction du coût habituel, ce qui pourrait radicalement abaisser la barrière financière à l'entrée pour les acteurs qui souhaitent développer des LLMs compétitifs. Cette annonce s'inscrit dans un contexte de course à l'efficacité qui redéfinit le secteur depuis la publication de DeepSeek R1 début 2025, laquelle avait démontré qu'il était possible d'obtenir des performances de premier rang sans budgets astronomiques. Baidu, acteur historique de l'IA en Chine et concurrent direct de géants comme Alibaba et Tencent sur le marché local, renforce ainsi sa position internationale à un moment où la compétition avec les laboratoires américains s'intensifie sur tous les fronts.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic