Aller au contenu principal
Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place
RechercheMIT Technology Review12sem· 2 min de lecture

Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place

Source originale ↗·
Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place
▶ Voir sur YouTube

Les systèmes d'intelligence artificielle sont presque universellement évalués par des benchmarks qui mesurent leurs performances face à des humains sur des tâches isolées — précision sur des scans médicaux, résolution de problèmes mathématiques, génération de code. Ces tests produisent des scores impressionnants : 98 % de précision, vitesses record, résultats spectaculaires. Sur la base de ces chiffres, gouvernements et entreprises décident d'adopter des modèles en y engageant des ressources financières et techniques considérables. Mais une fois déployés dans des environnements réels, l'écart entre le score du benchmark et la performance effective devient rapidement visible. Des chercheurs comme Ari Ezra Waldman, qui étudie le déploiement de l'IA dans des PME, des hôpitaux, des ONG et des universités aux États-Unis, au Royaume-Uni et en Asie depuis 2022, documentent ce fossé de manière systématique.

L'exemple de la radiologie médicale est particulièrement révélateur. Des modèles d'IA approuvés par la FDA lisent des scanners plus vite et plus précisément que des radiologues experts — sur le papier. Dans des hôpitaux en Californie et à Londres, le personnel utilisant ces outils hautement classés constatait qu'il lui fallait du temps supplémentaire pour interpréter les sorties de l'IA en fonction des normes de reporting propres à chaque établissement et des exigences réglementaires nationales. Ce qui devait être un outil de productivité introduisait en réalité des délais. La raison est structurelle : les benchmarks testent l'IA en vase clos, tandis que les décisions médicales réelles émergent de équipes pluridisciplinaires — radiologues, oncologues, infirmières — qui débattent collectivement sur plusieurs jours ou semaines, en intégrant les préférences des patients et des compromis complexes entre standards professionnels et bien-être à long terme. Aucun benchmark actuel ne capture cette dynamique.

Ce constat dépasse le seul secteur médical et touche à une question fondamentale pour l'ensemble de l'industrie de l'IA. Les benchmarks actuels, même les plus récents qui tentent d'aller au-delà des tests statiques vers des méthodes d'évaluation plus dynamiques, évaluent toujours l'IA hors du contexte humain et organisationnel où ses performances réelles se jouent. Le problème est systémique : en optimisant les modèles pour des classements déconnectés du terrain, on risque d'adopter des technologies inadaptées, de sous-estimer des risques systémiques et de se tromper sur les conséquences économiques et sociales de l'IA. La solution proposée — baptisée HAIC, pour Human–AI, Context-Specific Evaluation — consiste à évaluer les systèmes d'IA sur des horizons temporels plus longs, au sein de vraies équipes et de vrais flux de travail. Une refonte profonde de la façon dont l'industrie mesure ce qu'elle construit.

Impact France/UE

Les régulateurs et entreprises européens qui s'appuient sur des benchmarks pour certifier ou déployer des systèmes IA dans des secteurs réglementés (santé, finance) au titre de l'AI Act pourraient prendre des décisions d'adoption inadaptées si ces métriques ne reflètent pas les performances réelles en contexte opérationnel.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1The Decoder 

Des agents IA performants sur les benchmarks mais défaillants dans des conditions réelles, selon des chercheurs

Une étude portant sur 34 000 compétences réelles utilisées par des agents d'intelligence artificielle révèle que ces modules spécialisés, censés améliorer les performances des systèmes autonomes, n'apportent en pratique que des gains marginaux. Les chercheurs ont testé des "skills", ces instructions modulaires que les agents peuvent activer à la volée pour accéder à des connaissances spécifiques, dans des conditions proches du déploiement réel. Résultat : non seulement les améliorations sont négligeables dans des scénarios réalistes, mais les modèles les plus faibles voient leurs performances se dégrader lorsqu'ils y ont recours, comparé à une utilisation sans ces modules. Ce constat remet en question une hypothèse fondamentale du développement des agents IA : l'idée qu'enrichir un modèle avec des compétences externes suffit à le rendre plus capable. Pour les entreprises qui investissent dans des architectures agentiques complexes, notamment dans les secteurs de l'automatisation, du service client ou de la productivité, ce résultat soulève des doutes sur la valeur réelle de ces surcouches techniques. Les benchmarks standards, souvent utilisés pour vendre ces solutions, semblent masquer des lacunes significatives dès que les conditions expérimentales se rapprochent de la réalité. Cette étude s'inscrit dans un débat plus large sur la fiabilité des agents IA en production. Depuis l'essor des frameworks agentiques comme LangChain ou AutoGPT, la communauté cherche à comprendre pourquoi ces systèmes échouent là où les démonstrations semblent prometteuses. L'écart entre performance en laboratoire et comportement en conditions réelles reste l'un des obstacles majeurs à l'adoption industrielle des agents autonomes, et ces travaux pourraient pousser les développeurs à revoir leurs méthodes d'évaluation.

RecherchePaper
1 source
AsgardBench : un benchmark pour la planification interactive ancrée dans la vision
2Microsoft Research 

AsgardBench : un benchmark pour la planification interactive ancrée dans la vision

Des chercheurs ont publié AsgardBench, un nouveau benchmark conçu pour évaluer la capacité des agents IA incarnés à adapter leurs plans d'action en temps réel en fonction de ce qu'ils observent visuellement. Le système repose sur 108 scénarios contrôlés répartis en 12 types de tâches, tous construits sur AI2-THOR, un environnement de simulation 3D interactif représentant des intérieurs domestiques. Concrètement, un agent reçoit une instruction ménagère — nettoyer une tasse, remplir un évier, éteindre une lumière — et doit proposer à chaque étape une séquence complète d'actions, dont seule la première s'exécute. Il reçoit ensuite une image mise à jour et un signal binaire (succès ou échec), puis doit réviser son plan en conséquence. Ce qui rend le benchmark exigeant : les objets peuvent se trouver dans des états variables (tasse propre ou sale, évier vide ou encombré), si bien que la même instruction peut nécessiter des séquences d'actions radicalement différentes selon ce que l'agent perçoit. L'intérêt d'AsgardBench est de cibler précisément une compétence souvent noyée dans les évaluations existantes : l'adaptation du plan à partir de l'observation visuelle. La plupart des benchmarks actuels mêlent navigation, perception et contrôle physique dans une seule épreuve, ce qui rend impossible de savoir si un agent performe grâce à sa compréhension de l'environnement ou simplement parce que l'environnement est suffisamment prévisible pour être scripté. En isolant la révision de plan — sans demander à l'agent de naviguer dans une pièce ni de raisonner sur l'emplacement précis d'un meuble — le benchmark permet de mesurer directement si le modèle utilise ce qu'il voit pour décider de ce qu'il fait. C'est une distinction critique pour les applications réelles : un robot ménager qui ignore qu'une tâche est déjà accomplie va gaspiller des ressources, voire causer des erreurs en chaîne. Ce travail s'inscrit dans un contexte de forte effervescence autour de l'IA incarnée (embodied AI), un domaine où des acteurs comme Google DeepMind, Meta et plusieurs laboratoires universitaires investissent massivement pour créer des agents capables d'agir dans des environnements physiques ou simulés. AI2-THOR, développé par l'Allen Institute for AI, est déjà largement utilisé comme terrain d'entraînement pour ces systèmes. AsgardBench ne cherche pas à remplacer les benchmarks existants mais à combler un angle mort : la capacité de replanning visuel sous feedback minimal. Les suites probables incluent des évaluations sur des environnements plus ouverts, des instructions plus ambiguës, ou l'intégration de modèles multimodaux de nouvelle génération comme GPT-4o ou Gemini 2.0, dont la capacité à raisonner visuellement en boucle fermée reste encore peu documentée dans des conditions aussi contrôlées.

RecherchePaper
1 source
Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA
3Le Big Data 

Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA

Une start-up londonienne, General Reasoning, a publié une étude baptisée « KellyBench » qui met en lumière les limites des grandes intelligences artificielles face à un défi financier concret : les paris sportifs. Huit modèles issus de Google, OpenAI, Anthropic et xAI ont été soumis à une simulation de la saison 2023-2024 de la Premier League anglaise. Chaque système disposait de données historiques, de statistiques d'équipes et de joueurs, et devait élaborer des stratégies de mise capables de générer des profits tout en limitant les risques, sans accès à Internet et en s'adaptant aux informations fournies au fil des matchs. Les résultats sont sans appel : aucun des modèles testés n'a réussi à rester rentable sur la durée. Le meilleur performer, Claude Opus 4.6 d'Anthropic, affiche tout de même une perte moyenne de 11 %, avec une seule tentative frôlant l'équilibre. Grok 4.20 de xAI a fait faillite dès son premier essai, tandis que Gemini 3.1 Pro de Google a enregistré un gain ponctuel de 34 % avant de s'effondrer lors d'une autre tentative. Plusieurs systèmes ont accumulé des pertes importantes, et tous ont performé en dessous de participants humains placés dans les mêmes conditions simulées. Ces résultats éclairent une limite fondamentale des IA actuelles : leur efficacité chute dès qu'elles quittent les environnements stables et bien définis. Si ces systèmes excellent sur des tâches structurées comme la programmation, l'analyse de données ou les examens standardisés, ils peinent à gérer des dynamiques imprévisibles sur le long terme, là où les variables changent en permanence et où les décisions doivent intégrer du risque réel. Pour les investisseurs, les parieurs ou toute personne envisageant de déléguer des décisions financières à une IA, le message est clair : la robustesse affichée dans les benchmarks classiques ne se traduit pas en performance dans des contextes réels et mouvants. Ross Taylor, directeur général de General Reasoning et ancien chercheur chez Meta AI, souligne que l'engouement actuel pour l'automatisation tend à masquer cette réalité plus nuancée. Les benchmarks traditionnels, trop statiques, ne capturent pas la complexité du monde réel, ce qui crée une illusion de compétence universelle. Cette étude, encore non évaluée par des pairs, s'inscrit dans un débat plus large sur la façon dont on mesure les capacités des IA : les tests actuels favorisent les domaines où ces systèmes brillent, tout en occultant leurs lacunes sur des tâches dynamiques et à haute incertitude. La prochaine étape pour le secteur sera de concevoir des évaluations plus représentatives, capables de révéler non seulement ce que les IA savent faire, mais aussi ce qu'elles ne maîtrisent pas encore.

UECette étude avertit les entreprises et investisseurs européens contre la délégation de décisions financières à des IA, dont les performances réelles restent inférieures aux capacités humaines dans des contextes dynamiques et incertains.

RecherchePaper
1 source
OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant
4MarkTechPost 

OpenAI publie LifeSciBench, un benchmark de 750 tâches pour évaluer les modèles d'IA sur la recherche en sciences du vivant

OpenAI a publié LifeSciBench, un benchmark de 750 tâches conçu pour évaluer la capacité des modèles d'IA à raisonner comme de vrais scientifiques en sciences du vivant. Contrairement aux benchmarks biologiques classiques, qui posent des questions fermées à réponse unique, LifeSciBench soumet les modèles à des problèmes ouverts rédigés par 173 experts titulaires d'un doctorat et issus de l'industrie biotechnologique ou pharmaceutique. Chaque tâche couvre l'un des sept flux de travail scientifiques, analyse de données, conception expérimentale, raisonnement, validation, traduction et communication, et l'un des sept domaines biologiques, de la génomique à la chimie médicinale en passant par la médecine translationnelle. Environ 53 % des tâches s'accompagnent d'artefacts (séquences ADN, figures, tableaux, structures chimiques), et 79 % exigent en moyenne quatre étapes de raisonnement enchaînées. La qualité du benchmark a été validée par 453 relecteurs indépendants, dont 97 % docteurs, avec un taux d'accord global supérieur à 96 %. Les résultats révèlent un écart considérable entre les capacités actuelles des modèles et les exigences du travail scientifique réel. GPT-Rosalind, le modèle spécialisé d'OpenAI, obtient le meilleur score normalisé (0,576) et le taux de réussite par tâche le plus élevé (36,1 %), contre 25,7 % pour GPT-5.5, 23,6 % pour Gemini 3.1 Pro, 20,7 % pour GPT-5.4 et seulement 13,0 % pour Grok 4.3. Autrement dit, même le modèle le plus performant échoue sur près des deux tiers des tâches. Le système de notation s'appuie sur 19 020 critères granulaires, soit environ 25 par tâche, et un seuil de réussite fixé à 70 % du score normalisé. Les points faibles sont nets : GPT-Rosalind chute de 45,1 % de réussite sur les tâches textuelles à 28,1 % dès que des artefacts entrent en jeu, et les workflows de conception et d'optimisation restent particulièrement résistants, avec un taux de passage de seulement 30,7 %. LifeSciBench s'inscrit dans une dynamique plus large où l'industrie pharmaceutique et la recherche biomédicale sont identifiées comme des terrains d'application prioritaires pour les grands modèles de langage. Alors que des entreprises comme Isomorphic Labs, Recursion ou Insilico Medicine déploient déjà des IA dans le pipeline de découverte de médicaments, la question de leur fiabilité sur des tâches complexes et multi-étapes n'avait pas encore de réponse standardisée. Ce benchmark comble ce vide en proposant une évaluation qui reflète la réalité du travail de laboratoire, et non des QCM académiques. Le fait qu'aucun modèle ne dépasse 37 % de réussite signale que le secteur est loin de la saturation, et que des spécialisations domaine par domaine, comme GPT-Rosalind, représentent une piste sérieuse. Le benchmark est publié en accès ouvert, ce qui devrait accélérer la compétition entre laboratoires pour progresser sur ces tâches.

UELes laboratoires pharmaceutiques et instituts de recherche biomédicale européens peuvent s'appuyer sur ce benchmark en accès ouvert pour évaluer objectivement leurs modèles d'IA dans les pipelines de découverte de médicaments.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic