RobotiquearXiv cs.RO3h

Approcher puis agir : séquençage comportemental pour une manipulation robotique humanoïde

Résumé IASource uniqueImpact UE

Des chercheurs ont publié Move-Then-Operate (MTO), un nouveau cadre d'apprentissage pour la manipulation robotique qui s'inspire directement du fonctionnement du cerveau humain. L'approche sépare explicitement chaque geste robotique en deux phases distinctes : une phase de déplacement grossier vers la cible (move), puis une phase d'interaction de précision avec l'objet (operate). Pour orchestrer ce découpage, le système utilise une architecture à double expert, pilotée par un sélecteur de phase entraînable. Les étiquettes de phase sont générées automatiquement via un pipeline basé sur un modèle de langage multimodal, qui analyse des indicateurs contextuels légers comme la vitesse de l'effecteur terminal et la décomposition des sous-tâches. Sur le benchmark RoboTwin2, MTO atteint un taux de réussite moyen de 68,9 %, surpassant le modèle de référence monolithique pi zéro de 24 points de pourcentage, tout en atteignant ses performances maximales en 40 % moins d'étapes d'entraînement.

Ces résultats ont une portée significative pour la robotique industrielle et domestique. En isolant structurellement la phase de navigation de la phase de manipulation fine, MTO parvient à égaler, voire dépasser, des modèles entraînés sur dix fois plus de données. Cette efficacité d'apprentissage représente un avantage économique et pratique considérable : moins de données coûteuses à collecter, des cycles d'entraînement plus courts, et des robots capables de tâches de haute précision comme assembler des composants délicats, manipuler des objets fragiles ou effectuer des gestes médicaux assistés.

La robotique moderne bute depuis des années sur le problème des politiques monolithiques, ces systèmes qui tentent d'apprendre tous les comportements moteurs dans un seul modèle unifié, sans distinguer les régimes dynamiques fondamentalement différents que sont le déplacement et la manipulation précise. Des frameworks comme pi zéro de Physical Intelligence ont marqué des avancées, mais restent limités par cette indifférenciation. MTO s'inscrit dans une tendance plus large visant à introduire des biais structurels inspirés de la cognition humaine dans les architectures robotiques. Les prochaines étapes naturelles incluent la validation sur des robots physiques réels et l'extension à des environnements non structurés, là où la généralisation reste le défi central du domaine.

Dans nos dossiers

Robots humanoïdes

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper

1 source

2arXiv cs.RO

Les robots humanoïdes apprennent la manipulation polyvalente par simulation tactile

Des chercheurs ont présenté un nouveau système d'apprentissage pour robots humanoïdes capable de manipuler des objets avec une dextérité inédite, en intégrant le sens du toucher comme modalité centrale. Baptisé HTD (Humanoid Transformer with Touch Dreaming), ce modèle multimodal de type encodeur-décodeur Transformer combine la vision multi-caméras, la proprioception et la détection tactile pour permettre à un robot humanoïde d'accomplir des tâches nécessitant des contacts physiques complexes et fréquents. Testé sur cinq tâches réelles impliquant des manipulations délicates, HTD affiche une amélioration relative de 90,9 % du taux de succès moyen par rapport aux approches concurrentes les plus solides. L'enjeu central de ce travail est de résoudre l'un des défis les plus persistants de la robotique humanoïde : la coordination entre stabilité du corps entier, agilité des mains et conscience du contact physique. Dans les environnements réels, un robot qui saisit un objet fragile ou manipule un outil doit constamment ajuster sa prise en fonction des forces ressenties, une capacité que les systèmes purement visuels peinent à développer. Grâce à la technique du "touch dreaming", la politique apprise ne se contente pas de prédire des séquences d'actions, elle anticipe également les forces futures exercées par les articulations des mains et les états tactiles latents à venir, ce qui l'oblige à construire des représentations internes riches et sensibles au contact. Les expériences d'ablation confirment que cette prédiction dans l'espace latent est plus efficace que la prédiction brute des données tactiles, avec un gain relatif de 30 % supplémentaire en taux de succès. L'architecture repose sur un contrôleur de la partie basse du corps entraîné par apprentissage par renforcement, qui assure la stabilité posturale pendant les manipulations complexes. La collecte de données de démonstration s'effectue via un système de téléopération en réalité virtuelle qui intègre à la fois des mains dextères et des capteurs tactiles, permettant de recueillir des interactions riches en contact sans étape de pré-entraînement tactile séparée. Ce travail, dont les matériaux sont publiés en open source, s'inscrit dans une tendance plus large de la recherche en robotique visant à doter les humanoïdes de capacités sensori-motrices proches de celles des humains, condition indispensable avant un déploiement dans des environnements domestiques ou industriels non contrôlés.

RobotiqueOpinion

1 source

3arXiv cs.RO

SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme

Des chercheurs ont publié SARM (Stage-Aware Reward Modeling), un nouveau cadre d'apprentissage destiné aux robots manipulateurs, conçu pour résoudre des tâches longues et complexes impliquant des objets déformables. Le système repose sur un modèle de récompense vidéo qui prédit simultanément l'étape courante d'une tâche et la progression fine du robot, en s'appuyant sur des annotations en langage naturel pour découper les démonstrations en sous-tâches cohérentes. À partir de ce modèle, les auteurs introduisent le Reward-Aligned Behavior Cloning (RA-BC), une méthode qui filtre et repondère les démonstrations d'entraînement selon leur qualité estimée. Sur la tâche de pliage de t-shirt, SARM atteint un taux de réussite de 83 % à partir d'un état aplati et de 67 % à partir d'un état froissé, contre seulement 8 % et 0 % avec le clonage comportemental classique. Ces résultats représentent un bond considérable pour la robotique manipulation, un domaine où les objets déformables comme les vêtements posaient jusqu'ici des problèmes quasi insolubles aux systèmes automatisés. Le principal apport de SARM est sa robustesse face à la variabilité des démonstrations humaines : plutôt que d'indexer les étapes par numéro de frame (une approche fragile dès que les durées varient), le modèle comprend sémantiquement où en est le robot dans la tâche. Cela rend le système directement utilisable dans des environnements réels, sans calibration fine pour chaque nouvelle variante du problème. L'apprentissage par imitation à grande échelle est au coeur de la robotique moderne, portée par des laboratoires comme Google DeepMind, Stanford ou Carnegie Mellon, ainsi que des startups comme Physical Intelligence. Le défi persistant est la qualité inconsistante des données de démonstration collectées sur des tâches longues : un seul geste maladroit peut corrompre tout un exemple d'entraînement. SARM aborde ce problème en amont, au niveau de la supervision, plutôt qu'en collectant toujours plus de données. Cette approche, à la fois économe en annotations et généralisable hors distribution, pourrait devenir un composant standard des pipelines de robot learning dans les prochaines années.

RobotiqueOpinion

1 source

4Microsoft Research

GroundedPlanBench : planification de tâches longues horizon pour la manipulation robotique avec ancrage spatial

Des chercheurs ont publié GroundedPlanBench, un nouveau benchmark conçu pour évaluer la capacité des modèles de vision-langage (VLM) à planifier des séquences d'actions robotiques tout en déterminant précisément où chaque action doit s'effectuer dans l'espace. Le benchmark s'appuie sur 308 scènes de manipulation robotique issues du dataset DROID, à partir desquelles des experts ont défini 1 009 tâches allant de séquences courtes (1 à 4 actions) à des chaînes longues et complexes (jusqu'à 26 actions). Chaque tâche est formulée selon deux styles d'instruction : explicite ("poser une cuillère sur l'assiette blanche") ou implicite ("ranger la table"). Pour accompagner ce benchmark, l'équipe a également développé V2GP (Video-to-Spatially Grounded Planning), un framework qui convertit des vidéos de démonstration robotique en données d'entraînement spatialement ancrées, en exploitant notamment SAM3, le modèle de segmentation vidéo open-vocabulary de Meta, pour suivre les objets manipulés image par image. Ce processus a permis de générer 43 000 plans ancrés. L'enjeu est de taille : aujourd'hui, la plupart des systèmes robotiques fonctionnent en deux temps séparés — un VLM génère un plan en langage naturel, puis un second modèle le traduit en actions exécutables. Cette approche découplée introduit des erreurs en cascade, car le langage naturel reste ambigu ou halluciné lorsqu'il s'agit de préciser à la fois ce qu'il faut faire et à quel endroit. GroundedPlanBench force les modèles à traiter ces deux dimensions simultanément, ce que les VLMs actuels — qu'ils soient open-source ou propriétaires — peinent à faire sur des tâches longues. Les résultats montrent que l'approche de planification ancrée améliore à la fois le taux de réussite des tâches et la précision des actions, surpassant les architectures découplées aussi bien sur le benchmark qu'en conditions réelles avec de vrais robots. Ce travail s'inscrit dans un mouvement plus large visant à doter les robots d'une compréhension spatiale fine du monde réel, au-delà de la simple compréhension sémantique. Les VLMs ont transformé la planification robotique en rendant possible l'interprétation d'instructions en langage naturel, mais l'ancrage spatial — savoir précisément sur quel objet agir et où le déposer — reste un verrou majeur pour les tâches du quotidien. En proposant à la fois un protocole d'évaluation standardisé et une méthode pour générer automatiquement des données d'entraînement à partir de vidéos de démonstration existantes, cette contribution pourrait accélérer le développement de robots manipulateurs capables d'opérer de façon autonome dans des environnements non contrôlés. Les prochaines étapes probables concerneront l'extension à des scènes encore plus dynamiques et à des instructions encore plus ambiguës, là où la frontière entre compréhension linguistique et raisonnement spatial est la plus ténue.

RobotiquePaper

1 source