Des agents IA performants sur les benchmarks mais…

Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks

52

1VentureBeat AI

Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks

L'équipe Qwen d'Alibaba a publié mardi Qwen-AgentWorld, une paire de modèles d'intelligence artificielle conçus non pas pour agir dans des environnements numériques, mais pour prédire ce que ces environnements vont retourner en réponse à une action. Les deux modèles, un 35 milliards de paramètres et un 397 milliards, couvrent sept domaines sous une architecture unifiée : MCP, recherche web, terminal, génie logiciel, Android, navigation web et système d'exploitation. Entraînés sur plus de 10 millions de trajectoires d'interactions réelles, ils passent par trois phases successives : apprentissage du comportement des environnements (systèmes de fichiers, états du terminal, réponses API), raisonnement anticipatif sur les états futurs, puis renforcement par des règles et une évaluation qualitative ouverte. Les deux modèles sont des architectures Mixture-of-Experts, n'activant qu'une fraction de leurs paramètres par token. Ils prennent en charge des fenêtres de contexte de 256 000 tokens. Les poids du modèle 35B et le benchmark AgentWorldBench sont publiés sous licence Apache 2.0 ; ceux du 397B restent propriétaires. Ce qui fait la valeur de Qwen-AgentWorld n'est pas tant ses scores sur les benchmarks de prédiction que ses effets concrets sur la performance des agents entraînés à l'intérieur de ses simulations. En injectant des perturbations ciblées que les environnements réels ne permettent pas de reproduire à la demande (réponses partielles, cas limites rares, conditions de disque bas), les chercheurs ont fait passer le score MCPMark de 24,6 à 33,8. Sur la tâche de recherche, un agent entraîné dans un monde entièrement fictif a transféré ses apprentissages vers des recherches réelles, portant le WideSearch F1 Item de 34,02 à 50,31 sur le modèle 35B. Un entraînement préalable au modèle monde, utilisé comme échauffement avant le fine-tuning agentique, a amélioré les performances sur sept benchmarks distincts, dont trois que le modèle n'avait jamais vus pendant l'entraînement. L'approche répond à une limite structurelle bien connue des équipes qui développent des agents à grande échelle : les environnements de production ne permettent pas de contrôler les conditions d'entraînement. Un moteur de recherche réel renvoie les résultats disponibles, pas les cas rares que l'agent devra pourtant gérer. Un terminal en production ne simule pas une panne sur commande. En renversant la question, en demandant au modèle non pas "que faire ?" mais "que va renvoyer l'environnement ?", Alibaba crée une infrastructure de simulation contrôlable. La publication arrive dans la continuité de Qwen3.7-Max, sorti en mai avec une capacité d'exécution autonome de 35 heures, et se distingue des travaux antérieurs comme WebWorld ou le modèle de Snowflake, qui restaient cantonnés à un seul domaine. C'est la première architecture à modéliser sept domaines dans un seul modèle dès la phase de préentraînement.

UELes équipes européennes développant des agents IA peuvent utiliser directement le modèle 35B publié sous licence Apache 2.0 pour améliorer l'entraînement de leurs agents dans des environnements simulés contrôlables.

RecherchePaper

1 source

L'Institut britannique de sécurité de l'IA constate que les benchmarks standards sous-estiment les capacités réelles des agents IA

48

2The Decoder

L'Institut britannique de sécurité de l'IA constate que les benchmarks standards sous-estiment les capacités réelles des agents IA

Le UK AI Security Institute (AISI) a publié une étude portant sur sept benchmarks utilisés pour évaluer les capacités des agents d'intelligence artificielle, révélant que ces tests sous-estiment systématiquement leurs performances réelles. La cause identifiée est simple: les protocoles d'évaluation standards imposent un budget de calcul (mesuré en tokens) trop restreint aux modèles testés. En multipliant ce budget par dix sur des tâches d'ingénierie logicielle, les chercheurs de l'AISI ont observé une hausse d'environ 25 points de pourcentage du taux de réussite. Les modèles les plus récents profitent le plus de cette marge supplémentaire, suggérant que les benchmarks actuels plafonnent artificiellement leurs scores. Selon les calculs de l'institut, une fois ce facteur pris en compte, la progression réelle des capacités des modèles de pointe serait environ 60% plus rapide que ce que les mesures précédentes laissaient penser. Cette découverte a des implications directes pour l'industrie et les décideurs qui s'appuient sur ces classements pour évaluer les risques et les capacités des systèmes d'IA. Si les benchmarks sous-estiment structurellement ce que les agents peuvent accomplir, les entreprises, régulateurs et chercheurs en sécurité qui s'en servent pour anticiper les usages potentiellement dangereux ou pour comparer les modèles entre eux travaillent avec une image faussée de la réalité. Cela concerne en particulier les tâches longues et complexes, où un agent disposant de plus de ressources de calcul peut explorer davantage de pistes, corriger ses erreurs et itérer avant de produire une réponse finale. L'AISI, agence britannique chargée d'évaluer les risques liés à l'intelligence artificielle avancée, cherche depuis sa création à établir des méthodes de test rigoureuses pour suivre l'évolution des capacités des modèles les plus puissants. Ce travail s'inscrit dans un débat plus large sur la fiabilité des benchmarks existants, régulièrement critiqués pour ne pas refléter les conditions réelles d'utilisation des agents IA, notamment lorsqu'ils opèrent en autonomie prolongée. Ces résultats pourraient pousser les organismes d'évaluation à revoir leurs protocoles de test, avec des budgets de calcul plus réalistes, afin de mieux anticiper la trajectoire réelle des progrès de l'IA et les risques associés.

UELe Royaume-Uni n'etant plus membre de l'UE, cette etude n'a pas d'impact reglementaire direct, mais ses conclusions pourraient interesser les evaluateurs europeens (dont l'UE dans le cadre de l'AI Act) qui s'appuient sur des benchmarks similaires pour jauger les risques des agents IA.

💬 Ce qui me frappe, c'est que le problème n'est pas dans les modèles, il est dans la règle du jeu : donne dix fois plus de budget de calcul à un agent sur une tâche de code, et son taux de réussite grimpe de 25 points. Du coup toute la courbe de progrès qu'on croyait suivre était fausse, l'AISI parle de 60% de progression en plus que ce qu'on mesurait. Ça change la donne pour les régulateurs : si les benchmarks sous-estiment structurellement ce que les agents savent déjà faire, on pilote les risques de l'IA avec un compteur qui retarde.

RecherchePaper

1 source

Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place

48

3MIT Technology Review

Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place

Les systèmes d'intelligence artificielle sont presque universellement évalués par des benchmarks qui mesurent leurs performances face à des humains sur des tâches isolées — précision sur des scans médicaux, résolution de problèmes mathématiques, génération de code. Ces tests produisent des scores impressionnants : 98 % de précision, vitesses record, résultats spectaculaires. Sur la base de ces chiffres, gouvernements et entreprises décident d'adopter des modèles en y engageant des ressources financières et techniques considérables. Mais une fois déployés dans des environnements réels, l'écart entre le score du benchmark et la performance effective devient rapidement visible. Des chercheurs comme Ari Ezra Waldman, qui étudie le déploiement de l'IA dans des PME, des hôpitaux, des ONG et des universités aux États-Unis, au Royaume-Uni et en Asie depuis 2022, documentent ce fossé de manière systématique. L'exemple de la radiologie médicale est particulièrement révélateur. Des modèles d'IA approuvés par la FDA lisent des scanners plus vite et plus précisément que des radiologues experts — sur le papier. Dans des hôpitaux en Californie et à Londres, le personnel utilisant ces outils hautement classés constatait qu'il lui fallait du temps supplémentaire pour interpréter les sorties de l'IA en fonction des normes de reporting propres à chaque établissement et des exigences réglementaires nationales. Ce qui devait être un outil de productivité introduisait en réalité des délais. La raison est structurelle : les benchmarks testent l'IA en vase clos, tandis que les décisions médicales réelles émergent de équipes pluridisciplinaires — radiologues, oncologues, infirmières — qui débattent collectivement sur plusieurs jours ou semaines, en intégrant les préférences des patients et des compromis complexes entre standards professionnels et bien-être à long terme. Aucun benchmark actuel ne capture cette dynamique. Ce constat dépasse le seul secteur médical et touche à une question fondamentale pour l'ensemble de l'industrie de l'IA. Les benchmarks actuels, même les plus récents qui tentent d'aller au-delà des tests statiques vers des méthodes d'évaluation plus dynamiques, évaluent toujours l'IA hors du contexte humain et organisationnel où ses performances réelles se jouent. Le problème est systémique : en optimisant les modèles pour des classements déconnectés du terrain, on risque d'adopter des technologies inadaptées, de sous-estimer des risques systémiques et de se tromper sur les conséquences économiques et sociales de l'IA. La solution proposée — baptisée HAIC, pour Human–AI, Context-Specific Evaluation — consiste à évaluer les systèmes d'IA sur des horizons temporels plus longs, au sein de vraies équipes et de vrais flux de travail. Une refonte profonde de la façon dont l'industrie mesure ce qu'elle construit.

UELes régulateurs et entreprises européens qui s'appuient sur des benchmarks pour certifier ou déployer des systèmes IA dans des secteurs réglementés (santé, finance) au titre de l'AI Act pourraient prendre des décisions d'adoption inadaptées si ces métriques ne reflètent pas les performances réelles en contexte opérationnel.

RecherchePaper

1 source

42

4Amazon Science

Les agents IA ancrés dans le monde réel

En 2026, l'intelligence artificielle franchit une étape décisive : les modèles qui se contentaient de "savoir" cèdent la place à des agents capables d'"agir". Les grands modèles de fondation (Foundation Models), entraînés sur des volumes massifs de données, servent désormais de moteurs cognitifs à des agents déployés dans des environnements physiques réels, des entrepôts et usines aux hôpitaux et systèmes de transport. Amazon illustre concrètement ce virage avec le lancement de Project Eluna, un agent IA développé par les équipes Amazon Fulfillment Technology (AFT) en collaboration avec l'Université de Californie à San Diego. Hébergé dans le cloud, Eluna assiste les opérateurs de centres de traitement des commandes via des tableaux de bord numériques : il analyse en temps réel l'état des tapis roulants et des robots, anticipe les goulots d'étranglement et recommande des actions aux responsables logistiques avec un degré d'autonomie croissant. Le principal défi que ces agents doivent surmonter est celui des hallucinations. Dans un environnement virtuel, une IA peut inventer des citations ou produire des erreurs factuelles ; dans un environnement physique, les conséquences deviennent dangereuses. Si un agent propose un itinéraire robotique sans tenir compte de la masse ou de l'élan des objets déplacés, il peut mettre des humains en danger ou endommager des équipements. Pour y répondre, les chercheurs définissent quatre approches d'"ancrage" (grounding), soit l'intégration de données externes, de principes physiques et de simulations numériques dans le raisonnement du modèle. La première, l'apprentissage profond guidé par la physique (PGDL), consiste à intégrer des lois fondamentales comme la conservation de l'énergie ou les équations différentielles du mouvement directement dans la phase de préentraînement, ce qui réduit drastiquement la quantité de données nécessaires. La deuxième, baptisée UQ4CT, dote l'agent d'une conscience de ses propres incertitudes pour qu'il sache reconnaître ce qu'il ne sait pas, condition indispensable dans des contextes critiques où la surconfiance peut être fatale. Ces travaux s'inscrivent dans une dynamique industrielle plus large que l'on désigne sous le terme d'"IA physique". Pendant des années, les LLM ont démontré leur puissance dans les domaines numériques : génération de texte, code, analyse de données. Leur déploiement dans le monde matériel exige une couche supplémentaire de rigueur que les architectures actuelles n'intègrent pas nativement. Amazon, avec la superficie colossale de son réseau logistique mondial, constitue un terrain d'expérimentation idéal pour valider ces approches à grande échelle. Si les quatre piliers proposés font leurs preuves dans les entrepôts, leur portée pourrait s'étendre rapidement à d'autres secteurs industriels, de la robotique chirurgicale à la gestion des réseaux électriques, où erreur et physique ne font jamais bon ménage.

UELes techniques d'ancrage pour l'IA physique (PGDL, UQ4CT) sont directement applicables aux secteurs industriels européens, automobile, aéronautique, santé , , mais aucun acteur européen n'est impliqué dans ces travaux, ce qui souligne un retard stratégique potentiel.

RecherchePaper

1 source

Des agents IA performants sur les benchmarks mais défaillants dans des conditions réelles, selon des chercheurs

À lire aussi

Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks

L'Institut britannique de sécurité de l'IA constate que les benchmarks standards sous-estiment les capacités réelles des agents IA

Les benchmarks pour l'IA sont défaillants. Voici ce qu'il faudrait à la place

Les agents IA ancrés dans le monde réel