
Qwen-RobotSuite : trois modèles d'IA incarnée pour la manipulation VLA, la modélisation du monde et la navigation
L'équipe Qwen, la division IA d'Alibaba, a publié Qwen-Robot-Suite, une collection de trois modèles d'IA incarnée destinés à la robotique. Les trois modèles sont distincts et ciblent des problèmes différents : Qwen-RobotManip est un modèle Vision-Language-Action (VLA) pour la manipulation physique, construit sur le backbone Qwen3.5-4B ; Qwen-RobotWorld est un modèle de simulation vidéo du monde réel, doté de 60 couches MMDiT et d'un encodeur Qwen2.5-VL gelé ; Qwen-RobotNav, disponible en versions 2B, 4B et 8B, est dédié à la navigation mobile et s'appuie sur Qwen3-VL. RobotManip et RobotNav sont déjà accompagnés de dépôts GitHub publics. Pour alimenter RobotManip, l'équipe a constitué un corpus d'environ 38 100 heures de données de manipulation, exclusivement issues de jeux de données open source et de vidéos humaines, dont 24 808 heures générées synthétiquement à partir de démonstrations à la première personne converties en trajectoires robotiques sur 15 plateformes différentes.
Cette publication s'attaque à l'un des obstacles fondamentaux de la robotique moderne : la fragmentation des données. Chaque robot utilise des formats d'observation et d'action incompatibles, ce qui rend quasi impossible le transfert d'une politique entraînée sur un bras vers un autre. RobotManip résout ce problème via un cadre d'alignement unifié reposant sur un vecteur d'état canonique de 80 dimensions avec masquage binaire par dimension, une paramétrisation des actions en delta dans le référentiel caméra, et un mécanisme d'adaptation en contexte qui lit l'historique d'exécution récent pour identifier l'embodiment sans mettre à jour les paramètres du modèle. RobotWorld, quant à lui, utilise le langage comme interface d'action unifiée pour prédire des séquences vidéo futures, tandis que RobotNav expose une interface d'observation contrôlable pour générer des trajectoires de points de passage en navigation.
Ces travaux s'inscrivent dans une course mondiale à la robotique fondationnelle, portée par des acteurs comme Google DeepMind avec RT-2, Physical Intelligence avec pi0, ou encore Tesla avec Optimus. Qwen adopte ici une stratégie modulaire plutôt qu'un modèle généraliste unique, en pariant sur la spécialisation par domaine tout en partageant un même écosystème de backbones de vision-langage. L'accent mis sur des données entièrement open source et des pipelines de synthèse automatisée indique une volonté de démocratiser l'entraînement de politiques robotiques sans dépendre de coûteuses collectes propriétaires. La mise à disposition des codes sources pour deux des trois modèles suggère que Qwen cherche à fédérer une communauté de recherche autour de ces fondations, dans un domaine ou la donnée reste le principal goulot d'étranglement.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




