Aller au contenu principal
RechercheLe Big Data3h· 2 min de lecture

Qwen-AgentWorld : le simulateur d’Alibaba apprend aux agents IA à mieux réfléchir

Source originale ↗·

Le laboratoire d'IA Qwen, filiale d'Alibaba, a dévoilé le 24 juin 2026 un système baptisé Qwen-AgentWorld : un simulateur capable de reproduire sept environnements numériques distincts au sein d'un seul modèle, couvrant le terminal, le moteur de recherche, le protocole MCP, le développement logiciel, le navigateur web, le système d'exploitation et Android. Contrairement aux approches classiques, la modélisation de l'environnement constitue l'objectif d'entraînement central du modèle, et non une couche ajoutée après coup. Le système a été entraîné sur plus de dix millions de trajectoires d'interactions réelles. Alibaba publie également AgentWorldBench, un benchmark interne couvrant les sept domaines simulés, sur lequel le modèle Qwen-AgentWorld-397B-A17B obtient les meilleurs scores globaux, devançant GPT-5.4, Claude Opus 4.8, Gemini 3.1 Pro, DeepSeek V4-Pro et Qwen3-6P Plus.

L'intérêt de l'approche tient à ce qu'elle permet aux agents de s'exercer dans un environnement entièrement maîtrisé avant d'affronter des tâches réelles, à la manière d'un simulateur de vol. Les scénarios deviennent reproductibles, les erreurs sont peu coûteuses et les situations rares peuvent être générées à la demande. Les chercheurs d'Alibaba montrent également que l'apprentissage de la prédiction des états améliore les performances des agents même sans entraînement spécifique sur certaines tâches, et que cette capacité se transfère vers différents benchmarks sans ajustement supplémentaire. Pour les interfaces graphiques, le modèle adopte une représentation textuelle des écrans, sous forme de code HTML ou d'arbres XML plutôt que d'images brutes, ce qui simplifie l'entraînement et renforce le raisonnement sur des interfaces complexes.

Pendant des années, les agents IA ont été entraînés comme de simples modèles de langage auxquels on greffait ensuite des capacités d'action sur des outils ou des logiciels, une méthode efficace mais limitée dès que l'environnement gagne en complexité. Alibaba mise ici sur un changement de paradigme : faire de la compréhension du monde numérique un prérequis à l'action, et non une compétence dérivée. Cette direction rejoint un débat plus large dans la recherche sur les agents autonomes, où les acteurs comme Google, Anthropic, OpenAI et des laboratoires chinois tels que DeepSeek se disputent la maîtrise des agents capables d'opérer des ordinateurs en autonomie. Les résultats présentés par Alibaba restent toutefois à interpréter avec prudence : un benchmark interne, aussi soigné soit-il, ne remplace pas des évaluations indépendantes sur des usages réels, et les prochains mois permettront de mesurer si cette approche tient ses promesses en conditions de production.

Impact France/UE

L'émergence d'un simulateur d'entraînement multi-environnements développé par un laboratoire chinois majeur intensifie la compétition mondiale sur les agents autonomes, sans impact réglementaire ou opérationnel direct pour la France ou l'UE.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision
1VentureBeat AI 

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Des chercheurs d'Alibaba ont publié un cadre d'apprentissage par renforcement appelé HDPO (Hierarchical Decoupled Policy Optimization), conçu pour entraîner des agents IA à mieux décider quand utiliser des outils externes et quand s'appuyer sur leurs propres connaissances. Appliqué à leur modèle multimodal Metis, ce framework réduit les appels d'outils redondants de 98 % à seulement 2 %, tout en améliorant la précision sur les benchmarks de référence du secteur. L'enjeu est concret : les agents IA actuels ont tendance à invoquer systématiquement des utilitaires externes comme la recherche web ou l'exécution de code, même lorsque la question posée ne le nécessite pas. Chaque appel inutile crée un goulet d'étranglement de traitement séquentiel, alourdit les coûts d'API et injecte du bruit dans le contexte du modèle, ce qui dégrade la qualité du raisonnement final. Ce problème touche directement les entreprises qui déploient des agents IA en production : des systèmes techniquement capables deviennent lents et coûteux à opérer, sans que cela se traduise par de meilleures réponses. Les approches précédentes tentaient de corriger ce comportement en combinant précision et efficacité dans un seul signal de récompense, mais cette conception créait un dilemme d'optimisation insoluble. Une pénalité trop forte sur l'usage des outils rend le modèle trop conservateur et nuit à sa précision sur les tâches complexes, tandis qu'une pénalité trop faible ne change rien au comportement. Pire, ce signal mélangé crée une ambiguïté sémantique : une réponse incorrecte sans aucun appel d'outil pouvait obtenir la même récompense qu'une réponse correcte avec un usage excessif. HDPO résout ce paradoxe en séparant les deux objectifs dans des canaux d'optimisation indépendants. Le canal de précision maximise la justesse des réponses sur l'ensemble des rollouts, tandis que le canal d'efficacité minimise les appels superflus. Les deux signaux ne sont combinés qu'à la dernière étape du calcul de la perte, et surtout, l'efficacité reste conditionnelle à la précision : une réponse incorrecte n'est jamais récompensée simplement parce qu'elle a été rapide ou économe en appels. Cette décorrélation offre au modèle des gradients d'apprentissage propres pour chaque objectif, sans interférence. Alibaba s'inscrit dans une course intense au développement d'agents IA fiables et économiques, où la maîtrise du coût opérationnel est devenue aussi stratégique que la performance brute. HDPO représente une avancée méthodologique qui pourrait influencer la façon dont l'ensemble de l'industrie entraîne ses agents à instrumenter le monde extérieur avec discernement plutôt qu'automatisme.

RecherchePaper
1 source
Les agents IA ancrés dans le monde réel
2Amazon Science 

Les agents IA ancrés dans le monde réel

En 2026, l'intelligence artificielle franchit une étape décisive : les modèles qui se contentaient de "savoir" cèdent la place à des agents capables d'"agir". Les grands modèles de fondation (Foundation Models), entraînés sur des volumes massifs de données, servent désormais de moteurs cognitifs à des agents déployés dans des environnements physiques réels, des entrepôts et usines aux hôpitaux et systèmes de transport. Amazon illustre concrètement ce virage avec le lancement de Project Eluna, un agent IA développé par les équipes Amazon Fulfillment Technology (AFT) en collaboration avec l'Université de Californie à San Diego. Hébergé dans le cloud, Eluna assiste les opérateurs de centres de traitement des commandes via des tableaux de bord numériques : il analyse en temps réel l'état des tapis roulants et des robots, anticipe les goulots d'étranglement et recommande des actions aux responsables logistiques avec un degré d'autonomie croissant. Le principal défi que ces agents doivent surmonter est celui des hallucinations. Dans un environnement virtuel, une IA peut inventer des citations ou produire des erreurs factuelles ; dans un environnement physique, les conséquences deviennent dangereuses. Si un agent propose un itinéraire robotique sans tenir compte de la masse ou de l'élan des objets déplacés, il peut mettre des humains en danger ou endommager des équipements. Pour y répondre, les chercheurs définissent quatre approches d'"ancrage" (grounding), soit l'intégration de données externes, de principes physiques et de simulations numériques dans le raisonnement du modèle. La première, l'apprentissage profond guidé par la physique (PGDL), consiste à intégrer des lois fondamentales comme la conservation de l'énergie ou les équations différentielles du mouvement directement dans la phase de préentraînement, ce qui réduit drastiquement la quantité de données nécessaires. La deuxième, baptisée UQ4CT, dote l'agent d'une conscience de ses propres incertitudes pour qu'il sache reconnaître ce qu'il ne sait pas, condition indispensable dans des contextes critiques où la surconfiance peut être fatale. Ces travaux s'inscrivent dans une dynamique industrielle plus large que l'on désigne sous le terme d'"IA physique". Pendant des années, les LLM ont démontré leur puissance dans les domaines numériques : génération de texte, code, analyse de données. Leur déploiement dans le monde matériel exige une couche supplémentaire de rigueur que les architectures actuelles n'intègrent pas nativement. Amazon, avec la superficie colossale de son réseau logistique mondial, constitue un terrain d'expérimentation idéal pour valider ces approches à grande échelle. Si les quatre piliers proposés font leurs preuves dans les entrepôts, leur portée pourrait s'étendre rapidement à d'autres secteurs industriels, de la robotique chirurgicale à la gestion des réseaux électriques, où erreur et physique ne font jamais bon ménage.

UELes techniques d'ancrage pour l'IA physique (PGDL, UQ4CT) sont directement applicables aux secteurs industriels européens, automobile, aéronautique, santé , , mais aucun acteur européen n'est impliqué dans ces travaux, ce qui souligne un retard stratégique potentiel.

RecherchePaper
1 source
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
3VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source
Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance
4VentureBeat AI 

Self-Harness : un framework permettant aux agents IA de réécrire leurs règles, avec jusqu'à 60% de gain de performance

Des chercheurs du Shanghai Artificial Intelligence Laboratory ont présenté Self-Harness, un paradigme permettant à un agent basé sur un grand modèle de langage d'améliorer automatiquement ses propres règles de fonctionnement. Publiés récemment, ces travaux menés par Hangfan Zhang et son équipe montrent que ce système peut accroître les performances d'un agent de jusqu'à 60 % sans intervention humaine ni recours à un modèle externe plus puissant. Le principe repose sur une boucle itérative en trois étapes : l'agent analyse d'abord ses propres traces d'exécution pour identifier des schémas d'échec récurrents, génère ensuite des modifications ciblées et minimales de son environnement d'exécution, puis valide chaque modification par des tests de régression avant de l'adopter. Seules les modifications qui améliorent les performances sans dégrader d'autres tâches sont retenues. L'enjeu est considérable pour les équipes de développement qui déploient des agents IA en production. Un agent LLM ne dépend pas uniquement de son modèle sous-jacent, mais aussi de son "harness" : le système environnant qui comprend les prompts système, les outils disponibles, la mémoire, les politiques de relance et les procédures de récupération en cas d'erreur. Des exemples bien connus incluent SWE-agent, Claude Code, Codex et OpenHands. Or, de nombreuses défaillances d'agents proviennent précisément de cette couche, et non du modèle lui-même : un agent peut déclarer succès sans vérifier le résultat, relancer indéfiniment une action échouée, ou encore souffrir d'une surcharge de contexte lorsque l'historique d'interaction devient trop long. Self-Harness permet de corriger ces failles de manière empirique et reproductible, là où la pratique actuelle repose principalement sur l'intuition des ingénieurs. Ce travail s'inscrit dans un contexte où la cadence de sortie des nouveaux modèles rend le réglage manuel des harnesses de plus en plus coûteux et difficile à maintenir. Comme le souligne Hangfan Zhang, un ingénieur expérimenté peut encore proposer de meilleures améliorations qu'un LLM dans certains cas, mais le vrai goulot d'étranglement est l'absence de boucle de rétroaction systématique et vérifiable. Les approches existantes font souvent appel à des modèles plus puissants pour améliorer des modèles cibles plus faibles, ce qui pose des problèmes de coût, de disponibilité et d'inadaptation aux modes d'échec spécifiques. Self-Harness contourne cette dépendance en rendant l'agent autonome dans son propre perfectionnement, ouvrant la voie à des systèmes capables de s'adapter en continu à l'évolution rapide des modèles de langage sous-jacents.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic