Aller au contenu principal
Qwen-RobotSuite : trois modèles d'IA incarnée pour la manipulation VLA, la modélisation du monde et la navigation
RobotiqueMarkTechPost3h· 2 min de lecture

Qwen-RobotSuite : trois modèles d'IA incarnée pour la manipulation VLA, la modélisation du monde et la navigation

Source originale ↗·

L'équipe Qwen, la division IA d'Alibaba, a publié Qwen-Robot-Suite, une collection de trois modèles d'IA incarnée destinés à la robotique. Les trois modèles sont distincts et ciblent des problèmes différents : Qwen-RobotManip est un modèle Vision-Language-Action (VLA) pour la manipulation physique, construit sur le backbone Qwen3.5-4B ; Qwen-RobotWorld est un modèle de simulation vidéo du monde réel, doté de 60 couches MMDiT et d'un encodeur Qwen2.5-VL gelé ; Qwen-RobotNav, disponible en versions 2B, 4B et 8B, est dédié à la navigation mobile et s'appuie sur Qwen3-VL. RobotManip et RobotNav sont déjà accompagnés de dépôts GitHub publics. Pour alimenter RobotManip, l'équipe a constitué un corpus d'environ 38 100 heures de données de manipulation, exclusivement issues de jeux de données open source et de vidéos humaines, dont 24 808 heures générées synthétiquement à partir de démonstrations à la première personne converties en trajectoires robotiques sur 15 plateformes différentes.

Cette publication s'attaque à l'un des obstacles fondamentaux de la robotique moderne : la fragmentation des données. Chaque robot utilise des formats d'observation et d'action incompatibles, ce qui rend quasi impossible le transfert d'une politique entraînée sur un bras vers un autre. RobotManip résout ce problème via un cadre d'alignement unifié reposant sur un vecteur d'état canonique de 80 dimensions avec masquage binaire par dimension, une paramétrisation des actions en delta dans le référentiel caméra, et un mécanisme d'adaptation en contexte qui lit l'historique d'exécution récent pour identifier l'embodiment sans mettre à jour les paramètres du modèle. RobotWorld, quant à lui, utilise le langage comme interface d'action unifiée pour prédire des séquences vidéo futures, tandis que RobotNav expose une interface d'observation contrôlable pour générer des trajectoires de points de passage en navigation.

Ces travaux s'inscrivent dans une course mondiale à la robotique fondationnelle, portée par des acteurs comme Google DeepMind avec RT-2, Physical Intelligence avec pi0, ou encore Tesla avec Optimus. Qwen adopte ici une stratégie modulaire plutôt qu'un modèle généraliste unique, en pariant sur la spécialisation par domaine tout en partageant un même écosystème de backbones de vision-langage. L'accent mis sur des données entièrement open source et des pipelines de synthèse automatisée indique une volonté de démocratiser l'entraînement de politiques robotiques sans dépendre de coûteuses collectes propriétaires. La mise à disposition des codes sources pour deux des trois modèles suggère que Qwen cherche à fédérer une communauté de recherche autour de ces fondations, dans un domaine ou la donnée reste le principal goulot d'étranglement.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive
1MarkTechPost 

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action. Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU. Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

RobotiqueTuto
1 source
SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme
2arXiv cs.RO 

SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme

Des chercheurs ont publié SARM (Stage-Aware Reward Modeling), un nouveau cadre d'apprentissage destiné aux robots manipulateurs, conçu pour résoudre des tâches longues et complexes impliquant des objets déformables. Le système repose sur un modèle de récompense vidéo qui prédit simultanément l'étape courante d'une tâche et la progression fine du robot, en s'appuyant sur des annotations en langage naturel pour découper les démonstrations en sous-tâches cohérentes. À partir de ce modèle, les auteurs introduisent le Reward-Aligned Behavior Cloning (RA-BC), une méthode qui filtre et repondère les démonstrations d'entraînement selon leur qualité estimée. Sur la tâche de pliage de t-shirt, SARM atteint un taux de réussite de 83 % à partir d'un état aplati et de 67 % à partir d'un état froissé, contre seulement 8 % et 0 % avec le clonage comportemental classique. Ces résultats représentent un bond considérable pour la robotique manipulation, un domaine où les objets déformables comme les vêtements posaient jusqu'ici des problèmes quasi insolubles aux systèmes automatisés. Le principal apport de SARM est sa robustesse face à la variabilité des démonstrations humaines : plutôt que d'indexer les étapes par numéro de frame (une approche fragile dès que les durées varient), le modèle comprend sémantiquement où en est le robot dans la tâche. Cela rend le système directement utilisable dans des environnements réels, sans calibration fine pour chaque nouvelle variante du problème. L'apprentissage par imitation à grande échelle est au coeur de la robotique moderne, portée par des laboratoires comme Google DeepMind, Stanford ou Carnegie Mellon, ainsi que des startups comme Physical Intelligence. Le défi persistant est la qualité inconsistante des données de démonstration collectées sur des tâches longues : un seul geste maladroit peut corrompre tout un exemple d'entraînement. SARM aborde ce problème en amont, au niveau de la supervision, plutôt qu'en collectant toujours plus de données. Cette approche, à la fois économe en annotations et généralisable hors distribution, pourrait devenir un composant standard des pipelines de robot learning dans les prochaines années.

RobotiqueOpinion
1 source
KERV : décodage spéculatif à correction cinématique pour modèles VLA incarnés
3arXiv cs.RO 

KERV : décodage spéculatif à correction cinématique pour modèles VLA incarnés

Des chercheurs ont publié KERV (Kinematic-Rectified Speculative Decoding), un nouveau cadre d'optimisation destiné à accélérer les modèles Vision-Language-Action (VLA) utilisés pour le contrôle robotique. Ces modèles VLA, qui pilotent les robots en générant des séquences de tokens représentant des actions, souffrent d'une vitesse d'inférence trop faible pour de nombreuses applications en temps réel. L'approche proposée combine la technique de décodage spéculatif (Speculative Decoding, SD) avec des prédictions issues de la cinématique robotique, permettant d'atteindre une accélération de 27 à 37 % selon les tâches, sans perte mesurable du taux de succès. Le décodage spéculatif, déjà éprouvé pour les grands modèles de langage, pose deux problèmes spécifiques lorsqu'on l'applique aux VLA : d'une part, la correction des erreurs de tokens implique des re-inférences coûteuses en calcul ; d'autre part, régler le seuil d'acceptation des tokens est délicat et sensible au contexte. KERV résout ces deux obstacles en intégrant un filtre de Kalman basé sur la cinématique, qui prédit les actions futures et corrige les erreurs du décodage spéculatif sans recourir à ces re-inférences. Une stratégie d'ajustement dynamique du seuil d'acceptation, également fondée sur la cinématique, vient compléter le dispositif pour s'adapter automatiquement aux conditions d'exécution. Cette contribution s'inscrit dans une tendance de fond : la robotique incarnée (embodied intelligence) cherche à réduire l'écart entre les capacités de raisonnement des IA génératives et les contraintes du monde physique, notamment la latence. Les modèles VLA, en plein essor depuis les travaux de Google et Physical Intelligence sur des architectures comme RT-2 ou pi0, sont prometteurs mais trop lents pour des robots opérant dans des environnements dynamiques. En greffant la physique du mouvement sur l'inférence neuronale, KERV ouvre une voie pragmatique vers des robots plus réactifs, sans nécessiter de refonte architecturale majeure, un atout décisif pour le déploiement industriel à court terme.

RobotiqueOpinion
1 source
Les 10 meilleurs modèles d'IA physique pour robots en 2026
4MarkTechPost 

Les 10 meilleurs modèles d'IA physique pour robots en 2026

En 2026, une nouvelle génération de modèles d'IA dits "physiques" s'impose comme la colonne vertébrale de la robotique industrielle et de recherche. Ces systèmes ne génèrent pas du texte, mais des commandes motrices : ils permettent à des robots réels d'exécuter des tâches complexes dans des usines, entrepôts et laboratoires. Dix modèles dominent ce paysage. NVIDIA a lancé sa série GR00T N dès mars 2025 au GTC, avec une première version ouverte et personnalisable. La version N1.7, publiée le 17 avril 2026 en accès anticipé, est un modèle de 3 milliards de paramètres, sous licence Apache 2.0, entraîné sur 20 854 heures de vidéo égocentrique humaine couvrant plus de 20 catégories de tâches. NVIDIA a également identifié la première loi d'échelle pour la dextérité robotique : passer de 1 000 à 20 000 heures de données humaines double les performances. Google DeepMind, de son côté, a dévoilé Gemini Robotics 1.5 en septembre 2025, un modèle vision-langage-action bâti sur Gemini 2.0, et a publié le 14 avril 2026 une version Gemini Robotics-ER 1.6 améliorant le raisonnement spatial, développée en collaboration avec Boston Dynamics. Ces avancées marquent un tournant concret pour l'industrie robotique. Des partenaires comme Agile Robots, Agility Robotics, Foxlink, NEURA Robotics et Lightwheel testent ou déploient déjà ces systèmes sur du matériel réel. Les modèles permettent désormais à des robots bimanuels d'accomplir des tâches en plusieurs étapes, de lire des instruments complexes, ou d'apprendre à partir de simples vidéos d'humains au travail, sans nécessiter des mois de génération de données synthétiques. NVIDIA a réduit ce délai à environ 36 heures grâce à son architecture GR00T-Dreams. Pour les opérateurs industriels, cela signifie des cycles de déploiement raccourcis et une polyvalence accrue des robots sans reprogrammation manuelle lourde. Ce bond technologique s'inscrit dans une convergence entre les grands modèles de langage et la robotique physique, amorcée depuis 18 mois environ. Des acteurs comme Physical Intelligence, avec ses modèles pi0 et pi0.5 basés sur le flow matching, Figure AI avec Helix, ou encore OpenVLA et le SmolVLA open-source d'HuggingFace LeRobot, enrichissent un écosystème désormais très dense. NVIDIA s'appuie également sur ses Cosmos World Foundation Models pour simuler des environnements d'entraînement réalistes. La compétition s'intensifie entre approches ouvertes, comme GR00T N1.7, et systèmes propriétaires à accès restreint comme Gemini Robotics 1.5, dont la disponibilité reste limitée à des partenaires sélectionnés. Les prochains mois verront probablement les premières mises en production à grande échelle dans les lignes d'assemblage et la logistique automatisée.

UEL'entreprise allemande NEURA Robotics figure parmi les partenaires industriels testant ces systèmes, et les opérateurs européens de la logistique et de l'assemblage pourraient bénéficier de cycles de déploiement robotique significativement raccourcis.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic