
Le modèle d'Alibaba, non entraîné comme agent, améliore les performances sur sept benchmarks
L'équipe Qwen d'Alibaba a publié mardi Qwen-AgentWorld, une paire de modèles d'intelligence artificielle conçus non pas pour agir dans des environnements numériques, mais pour prédire ce que ces environnements vont retourner en réponse à une action. Les deux modèles, un 35 milliards de paramètres et un 397 milliards, couvrent sept domaines sous une architecture unifiée : MCP, recherche web, terminal, génie logiciel, Android, navigation web et système d'exploitation. Entraînés sur plus de 10 millions de trajectoires d'interactions réelles, ils passent par trois phases successives : apprentissage du comportement des environnements (systèmes de fichiers, états du terminal, réponses API), raisonnement anticipatif sur les états futurs, puis renforcement par des règles et une évaluation qualitative ouverte. Les deux modèles sont des architectures Mixture-of-Experts, n'activant qu'une fraction de leurs paramètres par token. Ils prennent en charge des fenêtres de contexte de 256 000 tokens. Les poids du modèle 35B et le benchmark AgentWorldBench sont publiés sous licence Apache 2.0 ; ceux du 397B restent propriétaires.
Ce qui fait la valeur de Qwen-AgentWorld n'est pas tant ses scores sur les benchmarks de prédiction que ses effets concrets sur la performance des agents entraînés à l'intérieur de ses simulations. En injectant des perturbations ciblées que les environnements réels ne permettent pas de reproduire à la demande (réponses partielles, cas limites rares, conditions de disque bas), les chercheurs ont fait passer le score MCPMark de 24,6 à 33,8. Sur la tâche de recherche, un agent entraîné dans un monde entièrement fictif a transféré ses apprentissages vers des recherches réelles, portant le WideSearch F1 Item de 34,02 à 50,31 sur le modèle 35B. Un entraînement préalable au modèle monde, utilisé comme échauffement avant le fine-tuning agentique, a amélioré les performances sur sept benchmarks distincts, dont trois que le modèle n'avait jamais vus pendant l'entraînement.
L'approche répond à une limite structurelle bien connue des équipes qui développent des agents à grande échelle : les environnements de production ne permettent pas de contrôler les conditions d'entraînement. Un moteur de recherche réel renvoie les résultats disponibles, pas les cas rares que l'agent devra pourtant gérer. Un terminal en production ne simule pas une panne sur commande. En renversant la question, en demandant au modèle non pas "que faire ?" mais "que va renvoyer l'environnement ?", Alibaba crée une infrastructure de simulation contrôlable. La publication arrive dans la continuité de Qwen3.7-Max, sorti en mai avec une capacité d'exécution autonome de 35 heures, et se distingue des travaux antérieurs comme WebWorld ou le modèle de Snowflake, qui restaient cantonnés à un seul domaine. C'est la première architecture à modéliser sept domaines dans un seul modèle dès la phase de préentraînement.
Les équipes européennes développant des agents IA peuvent utiliser directement le modèle 35B publié sous licence Apache 2.0 pour améliorer l'entraînement de leurs agents dans des environnements simulés contrôlables.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



