Aller au contenu principal
EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage
RecherchearXiv cs.RO3sem

EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont présenté EL3DD (Extended Latent 3D Diffusion), un cadre de politique visuomotrice conçu pour permettre aux robots d'exécuter des tâches de manipulation physique à partir de commandes en langage naturel. Le système fusionne des entrées visuelles et textuelles au sein de modèles de diffusion pour produire des trajectoires robotiques précises, en s'appuyant sur des démonstrations de référence pendant l'entraînement. Évalué sur le benchmark CALVIN, référence standard pour la manipulation robotique multi-tâches, le modèle affiche des performances améliorées sur l'ensemble des tâches testées et un taux de réussite accru sur les séquences longues, c'est-à-dire lorsque plusieurs tâches sont enchaînées consécutivement. L'approche étend un modèle existant grâce à des embeddings améliorés et à l'adaptation de techniques issues de la génération d'images par diffusion.

Cette avancée est significative pour le domaine de la robotique généraliste, car la capacité à comprendre le langage naturel et à l'appliquer à des tâches physiques dans des environnements humains reste l'un des verrous majeurs du secteur. Le gain sur les séquences longues est particulièrement notable: dans des applications réelles, un robot domestique ou industriel doit enchaîner plusieurs gestes sans intervention humaine, et chaque erreur dans la séquence se propage aux suivantes. Un taux de réussite accru sur ces horizons prolongés rapproche les systèmes actuels d'une utilisabilité concrète hors laboratoire, que ce soit en logistique, en chirurgie assistée ou dans les services à domicile.

La recherche s'inscrit dans un mouvement plus large d'application des modèles de diffusion, rendus célèbres par leur efficacité en génération d'images avec des systèmes comme Stable Diffusion ou DALL-E, au contrôle robotique. Le dataset CALVIN, utilisé pour l'évaluation, est conçu pour tester la généralisation des robots à des environnements variés et à des instructions formulées de multiples façons. EL3DD contribue ainsi au développement de politiques robotiques multi-tâches généralisables, un enjeu central pour des acteurs comme Google DeepMind, Physical Intelligence ou de nombreux laboratoires académiques travaillant sur les robots de prochaine génération.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
1arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source
Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action
2arXiv cs.RO 

Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2504.20472) une nouvelle approche pour améliorer la fiabilité des modèles de robotique dits vision-language-action (VLA), capables d'interpréter simultanément des images, du langage et des actions physiques. Le problème qu'ils adressent est celui de la calibration de l'incertitude dans les tâches séquentielles : lorsqu'un robot exécute une tâche en plusieurs étapes, à quel point ses estimations de succès sont-elles fiables à chaque instant, sachant que le résultat final n'est connu qu'en fin d'épisode ? Les auteurs formalisent ce problème et introduisent une extension séquentielle du score de Brier, une mesure classique de calibration probabiliste, adaptée aux trajectoires partielles. Ils démontrent que, dans le cas de résultats binaires, le minimiseur de risque de ce score coïncide mathématiquement avec la fonction de valeur de la politique VLA, concept central en apprentissage par renforcement. Concrètement, ils proposent d'utiliser l'estimation de valeur par différence temporelle (TD), technique issue du reinforcement learning, comme mécanisme de calibration. Les expériences menées sur des données de robots simulés et réels montrent que cette approche surpasse les méthodes de calibration actuelles. Ce travail a des implications directes pour le déploiement de robots dans des environnements réels. Un robot mal calibré peut surestimer sa confiance et poursuivre une tâche vouée à l'échec, ou au contraire s'arrêter prématurément. Améliorer la calibration permet donc d'accroître la sécurité et la robustesse des systèmes autonomes, un enjeu critique à mesure que ces modèles quittent les laboratoires pour intégrer des usines, des entrepôts ou des environnements domestiques. Le résultat le plus surprenant de l'étude est que, une fois calibrées par TD, les probabilités d'action à chaque pas isolé du modèle VLA suffisent à produire des estimations d'incertitude compétitives, contrairement à ce que des travaux récents utilisant d'autres méthodes de calibration avaient conclu. Ce résultat s'inscrit dans une dynamique plus large d'intégration entre l'apprentissage par renforcement et les grands modèles multimodaux appliqués à la robotique. Les modèles VLA, popularisés par des projets comme RT-2 de Google DeepMind ou OpenVLA, sont devenus un axe de recherche majeur ces deux dernières années, mais la question de leur fiabilité probabiliste était restée en marge. En établissant un pont formel entre calibration et RL, les auteurs ouvrent une voie méthodologique qui pourrait influencer la conception de futurs systèmes robotiques, notamment ceux devant opérer en autonomie prolongée sans supervision humaine.

RecherchePaper
1 source
Génération de champs vectoriels guidée par un modèle de diffusion basé sur les scores
3arXiv cs.RO 

Génération de champs vectoriels guidée par un modèle de diffusion basé sur les scores

Des chercheurs ont publié sur arXiv un article (référence 2604.24487) présentant un nouveau cadre algorithmique baptisé SGVF, pour Score-Induced Guiding Vector Field. L'objectif : améliorer radicalement la capacité des robots à suivre des trajectoires complexes, là où les méthodes classiques s'effondrent. Le SGVF exploite les modèles génératifs à base de score, une famille de techniques issues des modèles de diffusion, pour construire des champs de vecteurs directement à partir de distributions de données. Le système apprend des champs tangents depuis des nuages de points en appliquant trois contraintes géométriques : norme unitaire, orthogonalité et cohérence directionnelle. Des expériences menées sur des environnements de navigation robotique planaire démontrent que le SGVF réussit là où les champs de vecteurs classiques échouent. Le code source et une vidéo de démonstration sont disponibles sur GitHub. Cette avancée répond à une limitation structurelle des Guiding Vector Fields traditionnels : ils supposent que les trajectoires sont lisses, ordonnées et mono-branche. Dès qu'un chemin est non ordonné, multi-branche ou issu d'un modèle probabiliste, ces méthodes classiques deviennent inutilisables. Le SGVF, en apprenant directement depuis les données, s'affranchit de la segmentation manuelle des trajectoires et gère des topologies complexes comme les bifurcations ou les pseudo-variétés. Pour la robotique mobile et les systèmes de navigation autonome, c'est un changement de paradigme : il devient possible de guider un robot le long de chemins que l'on ne pourrait pas décrire analytiquement à l'avance. Les modèles de diffusion ont révolutionné la génération d'images et de texte au cours des trois dernières années, mais leur application au contrôle géométrique et à la robotique reste un territoire en friche. Ce travail établit un lien théorique formel entre la disparition du score dans les modèles de diffusion et les singularités des champs de vecteurs guidants, posant ainsi des bases mathématiques solides pour un pont entre l'IA générative et le contrôle géométrique. Les enjeux dépassent la navigation planaire : à terme, ces techniques pourraient s'appliquer à des robots évoluant dans des environnements tridimensionnels, ou à la planification de mouvements dans des espaces de configuration complexes. La communauté robotique dispose désormais d'une piste sérieuse pour intégrer la puissance des modèles génératifs modernes dans des systèmes de contrôle rigoureux.

RecherchePaper
1 source
DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout
4arXiv cs.RO 

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

Des chercheurs ont publié DIAL (Decoupling Intent and Action via Latent World Modeling), un nouveau cadre d'apprentissage pour les modèles Vision-Langage-Action (VLA) dédiés à la robotique. Le principe repose sur une séparation explicite entre l'intention de haut niveau et l'exécution motrice, via un goulot d'étranglement d'intention latente différentiable. Un module System-2, basé sur un grand modèle de langage visuel (VLM), génère une représentation interne de ce que le robot devrait percevoir dans le futur, une prévision visuelle latente qui encode l'intention. Un module léger System-1 traduit ensuite cette intention en actions motrices précises grâce à une dynamique inverse latente. L'entraînement se déroule en deux phases: un échauffement découplé pour stabiliser chaque module séparément, puis une optimisation conjointe de bout en bout. Sur le benchmark RoboCasa GR1 Tabletop, DIAL établit un nouvel état de l'art en nécessitant dix fois moins de démonstrations que les méthodes concurrentes. Ce gain d'efficacité est décisif dans un domaine où la collecte de données de démonstration reste coûteuse et chronophage. Réduire d'un ordre de grandeur le nombre d'exemples nécessaires change l'équation économique du déploiement de robots autonomes en environnements industriels ou domestiques. DIAL démontre également une généralisation zero-shot robuste: lors de déploiements réels sur un robot humanoïde, le système parvient à manipuler des objets et des configurations jamais rencontrés à l'entraînement, sans données supplémentaires. Cette capacité de transfert constitue l'un des verrous les plus difficiles de la robotique moderne. Le développement des VLA s'est accéléré ces deux dernières années avec l'essor des grands modèles multimodaux. La plupart des approches existantes utilisent toutefois le VLM comme simple encodeur, le connectant directement à une couche d'action, ce qui dégrade ses représentations sémantiques et introduit une instabilité à l'entraînement. DIAL corrige cette limite structurelle en exploitant pleinement les capacités de raisonnement du VLM pour la planification, tout en préservant ses connaissances pré-entraînées grâce au découplage. L'approche s'inscrit dans une tendance plus large visant à doter les robots d'une capacité à planifier avant d'agir, et pourrait accélérer l'adoption de systèmes capables de s'adapter à de nouveaux environnements sans réentraînement coûteux.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour