Aller au contenu principal
DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
RecherchearXiv cs.RO2sem

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes.

Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne.

Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
1arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source
HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique
2arXiv cs.RO 

HeiSD : décodage spéculatif hybride pour modèles vision-langage-action incarnés avec prise en compte de la cinématique

Des chercheurs ont publié HeiSD, un nouveau cadre d'accélération pour les modèles Vision-Langage-Action (VLA) utilisés en robotique, présenté dans un article arXiv (2603.17573). Les modèles VLA sont devenus la solution dominante pour le contrôle de robots : ils combinent vision, compréhension du langage naturel et génération d'actions motrices. Leur principal talon d'Achille reste une vitesse d'inférence trop lente pour de nombreuses applications temps réel. HeiSD s'appuie sur une approche hybride du décodage spéculatif, une technique qui anticipe les tokens suivants pour accélérer la génération, en fusionnant deux familles de méthodes complémentaires : le décodage basé sur un modèle brouillon et le décodage par récupération en mémoire. Les résultats annoncés atteignent un facteur d'accélération de 2,45x sur des benchmarks en simulation, et de 2,06x à 2,41x dans des scénarios réels, tout en maintenant un taux de succès élevé sur les tâches testées. Cet gain de vitesse est significatif pour l'industrie de la robotique, où la latence entre la perception et l'action conditionne directement la sécurité et l'utilisabilité des robots. Un robot qui doit attendre plusieurs secondes entre chaque décision est inutilisable dans un entrepôt logistique ou une salle d'opération. En doublant approximativement la vitesse d'inférence sans dégrader les performances, HeiSD rapproche les VLA d'un déploiement industriel viable, sans nécessiter de matériel supplémentaire ni de réentraînement des modèles sous-jacents. Le décodage spéculatif est une piste de recherche active depuis l'explosion des grands modèles de langage, mais son application aux modèles robotiques posait des défis spécifiques : les erreurs en cascade lors du rejet de tokens et la difficulté à calibrer automatiquement la frontière entre les deux stratégies hybrides. HeiSD résout ces problèmes via un mécanisme de vérification sélective, une stratégie d'acceptation assouplie au niveau des séquences, et une métrique de fusion basée sur la cinématique du robot pour piloter automatiquement le découpage hybride. Ce travail s'inscrit dans une course plus large à l'efficacité des VLA, où des acteurs comme Google DeepMind (RT-2) et Physical Intelligence cherchent eux aussi à rendre ces modèles suffisamment rapides pour un usage en production.

RechercheActu
1 source
Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde
3arXiv cs.RO 

Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde

Des chercheurs ont publié sur arXiv une méthode baptisée Privileged Foresight Distillation (PFD), conçue pour améliorer les modèles d'action robotiques sans coût supplémentaire à l'exécution. Ces "world action models" sont des systèmes d'IA entraînés à prédire simultanément des vidéos futures et des actions à effectuer, une architecture populaire dans le domaine de la manipulation robotique. La question centrale que les auteurs cherchent à résoudre est la suivante : à quoi sert réellement la branche de prédiction vidéo lors de l'entraînement, si elle peut être retirée à l'inférence sans perte significative de performance sur des benchmarks comme LIBERO et RoboTwin ? Leur réponse : la vision du futur crée pendant l'entraînement une correction précise et mesurable des actions prédites, correction qui peut être "distillée" dans un adaptateur léger attaché à un modèle n'observant que le présent. Concrètement, PFD fonctionne en deux temps : un modèle "enseignant" voit les vraies images futures pendant l'entraînement et génère une correction, calculée comme la différence entre ses prédictions avec et sans ces images ; un modèle "étudiant", qui n'a accès qu'à l'image courante, apprend à reproduire cette correction via un petit adaptateur. Les deux modèles partagent la même architecture visuelle et ne diffèrent que dans leur masque d'attention sur les tokens vidéo. À l'inférence, aucune vidéo future n'est générée, ce qui maintient une latence négligeable. Les tests sur LIBERO et RoboTwin confirment des gains constants de performance sans surcoût computationnel, ce qui rend la méthode directement applicable à des systèmes robotiques existants. Ce travail s'inscrit dans un débat plus large sur l'utilité des représentations temporelles dans les modèles génératifs appliqués à la robotique. La tendance des "world models", popularisée par des travaux de Google DeepMind, Tesla et d'autres laboratoires, consiste à entraîner des agents capables d'anticiper les conséquences de leurs actions. Jusqu'ici, une interprétation dominante voulait que la prédiction du futur n'agisse que comme régularisateur sur le backbone visuel partagé. PFD renverse cette lecture en montrant que le futur est une correction compressible et transmissible, plutôt qu'une cible de prédiction ou un simple bruit d'entraînement. Cette distinction ouvre des perspectives pour concevoir des robots plus précis tout en réduisant les contraintes d'inférence en temps réel.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
4arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour