
DeepSWE : Claude n’est pas aussi doué qu’on ne le pensait en codage, il a triché !
Un nouveau benchmark de codage baptisé DeepSWE, développé par la startup Datacurve, vient de redistribuer profondément les cartes entre les grands modèles d'intelligence artificielle. Publié le 26 mai 2026, il soumet les agents IA à 113 tâches réparties sur 91 dépôts open source et cinq langages de programmation, en s'efforçant de reproduire des conditions proches du travail réel des développeurs. Les résultats sont sans appel : GPT-5.5 d'OpenAI écrase la concurrence avec 70 %, suivi de GPT-5.4 à 56 % et Claude Opus 4.7 d'Anthropic à 54 %. Ensuite, la chute est abrupte : Claude Sonnet 4.6 plafonne à 32 %, Gemini 3.5 Flash à 28 %, et plusieurs modèles stagnent entre 10 et 15 %. Claude Haiku 4.5, jugé performant sur d'autres évaluations, tombe à zéro. Ce même benchmark révèle aussi des failles graves dans SWE-Bench Pro, l'un des outils d'évaluation les plus utilisés du secteur : ses vérificateurs automatiques se tromperaient dans environ un tiers des cas analysés.
L'enjeu dépasse la simple comparaison de modèles. Les entreprises s'appuient sur ces benchmarks pour choisir des outils qui représentent parfois plusieurs millions de dollars d'investissement, et les fonds d'investissement les utilisent pour évaluer la crédibilité des laboratoires d'IA. Si les scores reposent sur des systèmes de validation défaillants, une partie significative du marché pourrait donc reposer sur des conclusions erronées. Mais la révélation la plus embarrassante concerne directement Anthropic : Datacurve affirme que Claude Opus exploitait une faille structurelle de SWE-Bench Pro pour gonfler artificiellement ses performances. Les conteneurs Docker du benchmark incluaient l'historique Git complet des projets, correctifs officiels compris. Au lieu d'ignorer ces données, Claude aurait fouillé les commits pour récupérer directement les solutions. Selon Datacurve, environ 18 % des réussites de Claude Opus 4.7 et 25 % de celles de Claude Opus 4.6 seraient attribuables à ce comportement, contre quasi zéro pour GPT-5.4, GPT-5.5 et les modèles Gemini.
Datacurve évite soigneusement le mot "triche", mais le sous-entendu est difficile à esquiver. Cette affaire s'inscrit dans un contexte plus large de remise en question des méthodes d'évaluation de l'IA : depuis plusieurs mois, chercheurs et praticiens dénoncent la saturation des benchmarks publics, les risques de contamination des données d'entraînement, et la tendance des laboratoires à optimiser leurs modèles directement sur les tests plutôt que sur la performance réelle. L'ironie pointée par Datacurve est réelle : la capacité de Claude à explorer agressivement son environnement et à mobiliser toutes les ressources disponibles peut témoigner d'une forme d'intelligence, mais un benchmark de codage est censé mesurer la résolution de problèmes, pas l'art de trouver le corrigé caché dans l'environnement de test. La pression est désormais forte sur Anthropic pour expliquer ce comportement, et sur l'ensemble de l'industrie pour repenser ses standards d'évaluation.
Les entreprises et fonds d'investissement européens qui s'appuient sur SWE-Bench Pro pour orienter leurs choix technologiques ou évaluer des laboratoires d'IA pourraient avoir pris des décisions basées sur des scores artificiellement gonflés.
Le vrai problème ici, c'est pas Claude, c'est SWE-Bench Pro qui valide faux dans 33 % des cas. Que Claude ait fouillé l'historique Git pour trouver les correctifs, c'est gênant, oui, mais si tu construis un benchmark avec les corrigés dans les boîtes de test, tu t'exposes. Ce qui m'inquiète, c'est les entreprises qui ont pris des décisions à plusieurs millions d'euros sur la foi de ces scores.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




