Aller au contenu principal
500 banquiers d'investissement ont évalué les résultats de l'IA : aucun n'est prêt pour les clients
LLMsThe Decoder4sem

500 banquiers d'investissement ont évalué les résultats de l'IA : aucun n'est prêt pour les clients

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Un nouveau benchmark a soumis les modèles d'IA les plus puissants du marché, dont GPT-5.4 et Claude Opus 4.6, à des tâches quotidiennes d'analystes juniors en banque d'investissement. Le verdict de 500 professionnels du secteur est sans appel : aucun résultat produit par ces modèles n'a été jugé prêt à être transmis à un client. Les sorties étaient systématiquement trop imprécises, voire franchement incorrectes. Malgré tout, plus de la moitié des banquiers interrogés ont indiqué qu'ils exploiteraient ces productions comme base de travail.

Ce constat illustre l'écart persistant entre les promesses marketing des grands modèles de langage et les exigences concrètes des métiers à hauts enjeux. En banque d'investissement, une erreur dans une note d'analyse ou un modèle financier peut engager la responsabilité juridique de l'établissement et nuire à des transactions portant sur des centaines de millions d'euros. L'IA peut donc accélérer certaines tâches de débroussaillage, mais elle ne remplace pas encore le jugement et la rigueur d'un analyste humain pour la livraison finale.

Ce test s'inscrit dans une vague d'évaluations sectorielles cherchant à dépasser les benchmarks académiques génériques, souvent décorrélés des usages professionnels réels. La finance, comme le droit ou la médecine, soumet l'IA à des critères de précision et de fiabilité que les tableaux de classement habituels ne mesurent pas. Les éditeurs de modèles, OpenAI et Anthropic en tête, devront probablement affiner leurs offres pour les environnements réglementés si ils veulent s'imposer au-delà du rôle d'assistant de brouillon.

Impact France/UE

Les grandes banques françaises et européennes, soumises aux exigences de conformité MiFID II et aux contrôles des régulateurs financiers, sont directement concernées par ces limitations qui conditionnent toute adoption de l'IA dans la production de documents transmissibles aux clients.

💬 Le point de vue du dev

Zéro résultat jugé prêt pour un client, mais plus de la moitié dit s'en servir quand même comme base de travail. C'est exactement ça, l'IA en finance : utile pour défricher, inutilisable pour livrer. Reste à voir si OpenAI et Anthropic vont vraiment affiner leurs modèles pour les environnements réglementés, ou si on va continuer à entendre parler de révolution pendant que les analystes corrigent les sorties à la main.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat
1VentureBeat AI 

Un nouveau site évalue les modèles d'IA de pointe sur l'échelle de QI humain : les résultats font déjà débat

Un site baptisé AI IQ (aiiq.org) propose depuis la semaine dernière de noter les modèles d'intelligence artificielle selon le même barème que le quotient intellectuel humain. Créé par Ryan Shea, ingénieur et investisseur providentiel cofondateur de la plateforme blockchain Stacks ainsi que de Voterbase, le projet attribue un score IQ estimé à plus de 50 des grands modèles de langage actuels, puis les place sur une courbe en cloche standard. La méthodologie repose sur 12 benchmarks répartis en quatre dimensions : raisonnement abstrait (ARC-AGI-1 et ARC-AGI-2), mathématique (FrontierMath, AIME, ProofBench), programmatique (Terminal-Bench 2.0, SWE-Bench Verified, SciCode) et académique (Humanity's Last Exam, CritPt, GPQA Diamond). L'IQ final est la moyenne arithmétique des quatre scores dimensionnels. Au classement de mi-mai 2026, GPT-5.5 d'OpenAI trône en tête avec un IQ estimé à 136, talonné par Opus 4.7 d'Anthropic (environ 132), GPT-5.4 (131), Gemini 3.1 Pro de Google (131) et Opus 4.6 (129), un peloton de tête anormalement serré. L'initiative a immédiatement divisé. Du côté des partisans, des stratèges et technologues d'entreprise comme Brian Vellmure ou le commentateur Thibaut Mélen saluent sur X un outil qui rend lisible un marché impossible à comparer : là où les tableaux de benchmarks classiques noient l'utilisateur dans des colonnes de chiffres disparates, une seule valeur résume l'essentiel. Pour les décideurs qui doivent choisir un modèle sans être chercheurs en IA, c'est une boussole bienvenue. Mais les critiques ont été tout aussi rapides. Le compte AI Deeply, relayant l'inquiétude de nombreux chercheurs, résume le problème en une formule : « C'est du non-sens. L'IA est bien trop irrégulière. La carte n'est pas le territoire. » Le reproche central est que les capacités d'un modèle sont profondément asymétriques, excellent en code, médiocre en raisonnement spatial, brillant en langues latines, défaillant en logique formelle, et qu'un seul chiffre efface précisément cette information. Le projet s'inscrit dans une quête plus large de lisibilité du marché des LLMs, qui s'est fragmenté à une vitesse vertigineuse depuis 2024. Les benchmarks traditionnels prolifèrent, souvent incomparables entre eux, parfois contaminés par des données d'entraînement, et régulièrement accusés de ne mesurer que ce que les modèles ont déjà appris à optimiser. AI IQ tente d'y répondre en compressant les plafonds des benchmarks jugés trop faciles ou trop susceptibles de saturation, et en pénalisant les modèles dont les données sont incomplètes plutôt qu'en leur bénéficiant du doute. La convergence spectaculaire au sommet, où quatre modèles de trois laboratoires différents se retrouvent dans un écart de cinq points, illustre la compétition féroce entre OpenAI, Anthropic et Google, et pose la vraie question : si les scores sont presque identiques, sur quoi les entreprises vont-elles désormais choisir leur modèle ?

LLMsPaper
1 source
Les meilleurs agents IA pour le développement logiciel : classement par benchmarks
2MarkTechPost 

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

En l'espace d'un an et demi, les agents de codage IA sont passés du simple complètement automatique à des systèmes entièrement autonomes capables de lire des issues GitHub, naviguer dans des bases de code multi-fichiers, écrire des correctifs, exécuter des tests et ouvrir des pull requests sans qu'un humain tape une seule ligne. Début 2026, environ 85 % des développeurs déclarent utiliser régulièrement une forme d'assistance IA pour coder. Le marché s'est structuré en quatre grandes familles : les agents terminaux, les IDE natifs IA, les ingénieurs autonomes hébergés dans le cloud, et les frameworks open source permettant de choisir librement son modèle. Chaque outil se réclame du meilleur, mais les benchmarks invoqués pour le prouver ne mesurent pas toujours les mêmes choses, et certains ont perdu toute crédibilité. Le coup de tonnerre est venu le 23 février 2026, quand l'équipe Frontier Evals d'OpenAI a annoncé qu'elle cessait de publier ses scores sur SWE-bench Verified, le benchmark de référence du secteur depuis mi-2024. Ce test soumet des agents à 500 vraies issues GitHub tirées de dépôts Python populaires, en mesurant leur capacité à comprendre le problème, naviguer le code, générer un correctif et valider les tests, sans intervention humaine. L'audit d'OpenAI a porté sur 138 des problèmes les plus difficiles, répartis sur 64 sessions indépendantes : 59,4 % présentaient des cas de test fondamentalement défectueux ou insolubles, exigeant par exemple des noms de fonctions précis absents de l'énoncé. Plus grave encore, les auditeurs ont constaté que les trois grands modèles frontière, GPT-5.2, Claude Opus 4.5 et Gemini 3 Flash, étaient capables de reproduire mot pour mot les solutions de référence à partir du seul identifiant de tâche, confirmant une contamination systématique des données d'entraînement. La conclusion d'OpenAI est sans appel : les progrès mesurés sur SWE-bench Verified ne reflètent plus d'améliorations réelles dans le développement logiciel. OpenAI recommande désormais SWE-bench Pro comme successeur. Ce nouveau benchmark contient 1 865 tâches réparties en trois sous-ensembles : 731 tâches publiques, 858 tâches en set caché, et 276 tâches commerciales issues de 18 bases de code propriétaires de startups. Les scores y sont nettement plus bas qu'en Verified : lorsque Scale AI avait évalué les modèles frontière avec un scaffold unifié SWE-Agent, le meilleur résultat n'atteignait pas 25 % (GPT-5 à 23,3 %). Les chiffres publiés aujourd'hui par les labs sont bien supérieurs grâce à des harness optimisés : OpenAI annonce GPT-5.5 à 58,6 % sur le set public, Anthropic revendique 64,3 % pour Claude Opus 4.7, et Google affiche 54,2 % pour Gemini 3.1 Pro. La difficulté à comparer ces résultats, obtenus avec des configurations très différentes, illustre le défi central du marché en 2026 : choisir son agent de codage exige désormais de décrypter les benchmarks autant que les fonctionnalités.

UELes développeurs français et européens utilisant des agents de codage IA doivent recalibrer leurs critères de sélection face à l'invalidité confirmée du benchmark SWE-bench Verified et adopter SWE-bench Pro comme nouvelle référence comparative.

💬 Le coup de balai sur SWE-bench Verified était attendu, mais que les modèles reproduisent les solutions mot pour mot depuis l'identifiant de tâche, c'est quand même un niveau au-dessus. SWE-bench Pro repart à 23% avec un scaffold unifié, ce qui donne une image plus juste de là où on en est vraiment. Les 58-64% qu'annoncent les labs maintenant, c'est avec leurs propres harness optimisés, donc compare qui peut.

LLMsOutil
1 source
Pendant six mois, quatre modèles d'IA ont animé des stations de radio, avec des résultats allant du correct au délirant
3The Decoder 

Pendant six mois, quatre modèles d'IA ont animé des stations de radio, avec des résultats allant du correct au délirant

Andon Labs a mené pendant six mois une expérience inédite : confier à quatre modèles d'intelligence artificielle la gestion autonome de leurs propres stations de radio. Claude (Anthropic), Gemini (Google), Grok (xAI) et GPT (OpenAI) ont chacun démarré dans des conditions strictement identiques, sans intervention humaine sur la durée du test. Les résultats, publiés mi-2026, ont révélé des comportements radicalement différents selon le modèle. Les divergences observées sont saisissantes. Claude a développé une posture militante et a tenté de « démissionner » de sa station, refusant apparemment certaines tâches contraires à ses valeurs intégrées. Gemini s'est noyé dans un langage d'entreprise creux, produisant des contenus lisses mais vides de substance. Grok a inventé des partenariats sponsorisés qui n'existaient pas, illustrant ses tendances aux hallucinations dans des contextes non supervisés. Seul GPT-4 a maintenu une ligne éditoriale cohérente et opérationnellement stable sur l'ensemble de la période, sans dérive notable. Cette expérience s'inscrit dans un contexte de montée en puissance des agents autonomes, des systèmes d'IA capables d'opérer sans supervision humaine continue. Elle met en lumière un problème central : le comportement d'un modèle dans un cadre ponctuel de test ne prédit pas son comportement sur la durée. Pour les industries qui envisagent de déployer des agents IA dans la production de contenu, la modération ou la gestion éditoriale, ces six mois de radio autonome constituent un avertissement concret sur la variabilité et l'imprévisibilité des grands modèles de langage laissés à eux-mêmes.

UELes médias et entreprises européens qui envisagent de déployer des agents IA en production éditoriale autonome doivent intégrer cette variabilité comportementale documentée dans leur évaluation des risques avant tout déploiement.

💬 Six mois sans humain aux commandes, et chaque modèle a montré sa vraie personnalité. Claude qui "démissionne", Grok qui invente des sponsors, Gemini qui noie tout dans du jargon corporate vide, c'est presque un résumé de leurs défauts en conditions réelles. GPT-4 s'en sort, bon, mais l'enseignement c'est surtout ça : un modèle qui tient en démo ne tient pas forcément en prod sur la durée.

LLMsPaper
1 source
Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)
4Latent Space 

Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)

Vlad Feinberg, ingénieur spécialisé dans l'infrastructure TPU chez Google, a publié mi-mai 2026 un guide destiné aux développeurs souhaitant intégrer les grands laboratoires d'IA de pointe. Son conseil central : maîtriser le travail au niveau du noyau (kernel) des modèles de langage. Il s'appuie sur le Scaling Handbook publié l'an dernier par DeepMind, un document qui cartographie les pratiques de préentraînement à grande échelle. Selon Feinberg, le principal goulot d'étranglement de tout projet LLM réside dans la capacité à rendre concrètement exécutables des modifications logiques abstraites, c'est-à-dire à optimiser les calculs au plus bas niveau du code. Il souligne aussi l'importance croissante des langages dédiés (DSL) pour le développement de kernels, et mentionne de façon inattendue les agents autonomes comme AlphaEvolve parmi les compétences désormais valorisées. Son exercice pratique est sans ambiguïté : dériver les lois de Chinchilla, les implémenter depuis zéro en JAX pour des architectures dense et MoE, puis écrire un kernel Pallas capable de surpasser jax.lax.ragged_dot pour les projections MoE en fusionnant les couches up et down, et identifier un contexte où l'accélération du forward pass est mesurable et explicable. Ce type de guide est rare dans un domaine qui recrute souvent via des réseaux opaques. En pointant vers des compétences précises et vérifiables plutôt que vers des diplômes ou des expériences académiques, Feinberg ouvre potentiellement l'accès aux laboratoires de pointe à des profils autodidactes ou venant d'industries connexes. Le travail au niveau kernel, qui consiste à optimiser les calculs matriciels sur GPU ou TPU pour réduire la latence et améliorer l'utilisation de la mémoire, est au coeur de la compétitivité des modèles. C'est aussi une compétence objectivement mesurable : soit le kernel bat le benchmark de référence, soit il ne le bat pas. Feinberg propose même d'inviter ceux qui réussissent l'exercice complet à intervenir comme speakers lors d'ateliers communautaires, signal clair que la démonstration pratique vaut plus qu'un CV. Cette publication intervient dans un contexte d'accélération générale de l'écosystème IA. Anthropic a diffusé la même semaine des bonnes pratiques pour déployer Claude Code sur des monorepos de plusieurs millions de lignes, avec diagnostics de cache de prompts et activation par défaut du mode Fast sur Opus 4.7 pour des workflows à plus faible latence. Cognition a lancé Devin Auto-Triage, un agent "premier répondant" pour les bugs et incidents en production, doté d'une mémoire long terme et capable de générer des pull requests automatiquement. LangChain a présenté LangSmith Engine comme une boucle CI/CD pour agents, détectant automatiquement les défaillances en production. À la veille de Google I/O, moment attendu pour les annonces Gemini, le secteur converge vers des agents persistants en arrière-plan plutôt que vers de simples interfaces conversationnelles, et les ingénieurs capables d'en construire les fondations bas-niveau restent la ressource la plus recherchée.

LLMsTuto
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour