Aller au contenu principal
Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif
AutrearXiv cs.RO5j

Apprentissage multi-allures pour robots humanoïdes par renforcement avec prior de mouvement adversarial sélectif

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié en avril 2026 sur arXiv (preprint 2604.19102) une méthode d'apprentissage par renforcement permettant à un humanoïde à 12 degrés de liberté de maîtriser cinq allures dans un cadre politique unifié : marche normale, marche militaire cadencée (goose-stepping), course, montée d'escaliers et saut, avec un espace d'action et une formulation de récompense identiques pour toutes. La contribution centrale est une stratégie appelée AMP sélectif (Adversarial Motion Prior sélectif) : l'AMP, qui guide l'apprentissage en comparant les mouvements générés à des données de référence de type mocap, est appliqué uniquement aux allures périodiques et stables (marche, goose-stepping, escaliers), et délibérément omis pour les allures dynamiques (course, saut) où sa régularisation briderait trop le mouvement. L'entraînement repose sur PPO (Proximal Policy Optimization) avec randomisation de domaine en simulation, et les politiques sont déployées sur le robot physique par transfert sim-to-réel zéro-shot, sans phase d'adaptation supplémentaire.

Les expériences quantitatives montrent que l'AMP sélectif surpasse une politique AMP uniforme sur les cinq allures : convergence plus rapide, erreur de suivi réduite et meilleurs taux de succès sur les allures stables, sans dégrader l'agilité des allures explosives. Pour les équipes d'ingénierie robotique, ce résultat renforce l'idée qu'une politique monolithique bien structurée peut remplacer plusieurs contrôleurs spécialisés, réduisant la complexité du système embarqué. La réussite du transfert zéro-shot valide par ailleurs l'efficacité de la randomisation de domaine pour combler le sim-to-real gap sur un humanoïde à 12 DOF, un résultat cohérent avec des travaux récents d'ETH Zurich et de Carnegie Mellon sur les robots bipèdes.

L'Adversarial Motion Prior a été formalisé par Xue Bin Peng et al. (UC Berkeley, 2021) comme mécanisme pour imiter des mouvements de référence dans un cadre RL sans récompense artisanale excessive. Des équipes chez Agility Robotics, Figure AI et Boston Dynamics explorent des variantes similaires, mais la plupart des publications se concentrent sur une ou deux allures à la fois. Ce preprint propose une généralisation plus large, bien que le robot utilisé (12-DOF, sans identification de marque dans l'abstract) reste une plateforme expérimentale dont les performances hors simulation restent à confirmer sur des terrains non contrôlés. Aucune entité française ou européenne n'est impliquée. Les étapes suivantes naturelles incluent l'extension à davantage de DOF, l'intégration de primitives de manipulation et des tests en conditions réelles variées.

Dans nos dossiers

À lire aussi

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement
1arXiv cs.RO 

Locomotion corps entier des humanoïdes : apprentissage par génération et suivi de mouvement

Des chercheurs proposent un cadre de locomotion humanoid corps-entier combinant un modèle de diffusion entraîné sur des mouvements humains retargetés avec un tracker de mouvements par apprentissage par renforcement (RL), le tout déployé sur le robot Unitree G1. Le système génère en temps réel des trajectoires de référence adaptées au terrain, puis un module de suivi les exécute sur le robot complet, en s'appuyant uniquement sur la perception embarquée. Lors des tests matériels, le G1 a franchi avec succès des boîtes, des haies, des escaliers et des combinaisons de terrains mixtes, sans recourir à des capteurs externes ni à un calcul déporté. L'enjeu technique central que ce travail adresse est connu dans le secteur sous le nom de "lower-body dominance" : les approches RL classiques avec reward shaping tendent à produire une locomotion efficace mais raide, concentrée sur les jambes, au détriment de la coordination du buste et des bras. À l'inverse, l'imitation pure de mouvements de référence limite la capacité d'adaptation en ligne aux obstacles imprévus. Le couplage proposé -- générer à la volée la référence adaptée au terrain puis la tracker en boucle fermée -- représente une architecture crédible pour combler ce gap, même si les vidéos de démonstration présentées restent sélectionnées et ne constituent pas encore une validation sur terrain non contrôlé à large échelle. Le Unitree G1, commercialisé depuis 2024 à environ 16 000 dollars, est devenu un banc de test standard pour les laboratoires académiques en locomotion humanoid, au même titre que l'Atlas de Boston Dynamics pour les groupes industriels. Ce travail s'inscrit dans une vague de publications exploitant les modèles de diffusion pour la génération de mouvements robotiques, une tendance initiée notamment par les travaux sur pi0 (Physical Intelligence) et GR00T N2 (NVIDIA). Les auteurs annoncent des résultats quantitatifs montrant que la fine-tuning en boucle fermée améliore la généralisation ; la prochaine étape logique serait une validation sur des terrains non vus pendant l'entraînement et un déploiement en conditions industrielles réelles.

AutrePaper
1 source
Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football
2arXiv cs.RO 

Apprentissage par renforcement pour le contrôle adaptatif multi-tâches de robots bipèdes jouant au football

Des chercheurs ont publié sur arXiv (preprint arXiv:2604.19104, avril 2026) un cadre d'apprentissage par renforcement modulaire destiné aux robots bipèdes évoluant dans des environnements de football dynamiques. L'architecture propose deux modules distincts : un réseau de recherche et de frappe de balle (BSKN, Ball-Seeking and Kicking Network) et un réseau de récupération après chute (FRN, Fall Recovery Network), commutés par une machine à états basée sur la posture du robot. La génération de gaits de base est confiée à un oscillateur feedforward en boucle ouverte, tandis qu'un résiduel RL en boucle fermée gère les actions football plus complexes. Le FRN est entraîné via une stratégie de curriculum à atténuation progressive des forces. Les validations ont été conduites entièrement en simulation Unity, avec un temps de récupération après chute mesuré à 0,715 secondes en moyenne, et une capacité démontrée à localiser et frapper le ballon même depuis des angles de coin restrictifs. Ce travail s'attaque à un verrou connu en robotique humanoïde : le couplage profond entre stabilité locomotrice et exécution de tâches complexes, qui provoque typiquement des interférences d'état lors des transitions (marche droite, frappe, chute, relevé). La séparation explicite en deux réseaux spécialisés, pilotée par une machine à états posturale, contourne ce problème architecturalement plutôt que de tenter de le résoudre par un unique réseau généraliste. Cela valide partiellement l'hypothèse que la modularité reste une approche compétitive face aux VLA (Vision-Language-Action models) monolithiques pour des tâches à contraintes temporelles dures. Réserve importante : les résultats sont entièrement sim-to-real non validés, l'écart simulation-réalité (sim-to-real gap) n'est pas quantifié, et les vidéos sélectives de démonstration Unity ne permettent pas d'évaluer la robustesse au déploiement physique. Le contexte est celui de la RoboCup et des compétitions de football robotique bipède, terrain historique de benchmarking pour la locomotion dynamique depuis les années 2000. Les auteurs ne sont pas identifiés institutionnellement dans l'abstract, mais le style et la thématique évoquent des groupes de recherche est-asiatiques actifs sur cette compétition. Sur le plan concurrentiel, des approches similaires à base de RL modulaire ont été explorées par des équipes de l'ETH Zurich (ANYmal), de CMU et de Berkeley pour des robots quadrupèdes, avec transfert sim-to-real validé sur hardware. Pour les bipèdes football, la prochaine étape crédible serait un déploiement sur plateforme physique type DARwIn-OP ou NAO, dont ce papier ne mentionne aucune planification.

RecherchePaper
1 source
Vidéo : le robot humanoïde Unitree G1 épate avec des sauts acrobatiques et pirouettes sur patins
3Interesting Engineering 

Vidéo : le robot humanoïde Unitree G1 épate avec des sauts acrobatiques et pirouettes sur patins

Unitree Robotics a publié le 23 avril une vidéo montrant son robot humanoïde G1 exécuter des figures sur rollers et patins à glace : virages à 360 degrés, rotations sur une jambe, et frontflips, le tout en maintenant l'équilibre via un contrôle coordonné des roues et des membres articulés. La plateforme G1 est un hybride roues-jambes lancé en novembre 2025 sous la désignation G1-D, disponible en deux versions. La version Standard, stationnaire, embarque 17 degrés de liberté ; la version Flagship, motorisée par une base à entraînement différentiel capable de 1,5 m/s, monte à 19 DOF. Les deux variantes mesurent entre 126 et 168 cm pour un poids maximal de 80 kg. Chaque bras offre 7 DOF et supporte une charge utile de 3 kg. L'articulation de taille permet 155° de rotation sur l'axe Z et une plage de -2,5° à 135° sur l'axe Y, couvrant une enveloppe de travail verticale de 2 mètres. La perception repose sur une caméra binoculaire en tête et des caméras poignet pour la vision rapprochée. La version Flagship tourne sur un module Nvidia Jetson Orin NX délivrant jusqu'à 100 TOPS, avec une autonomie annoncée de six heures. Cette démonstration illustre une tendance de fond : la mobilité humanoïde sort du strict bipédisme pour intégrer la locomotion hybride. L'association roues et jambes avait été largement laissée de côté au profit du seul marcheur anthropomorphe, considéré comme la voie vers les environnements humains. Unitree repose la question en montrant qu'un humanoïde peut gagner en efficacité énergétique et en polyvalence terrain sans sacrifier l'adaptabilité des membres. Sur le fond, la vidéo reste une démonstration contrôlée, pas un déploiement industriel, et les conditions de tournage ne sont pas précisées. Ce type de footage sélectif est courant dans le secteur et ne documente pas les taux d'échec ni les conditions réelles d'opération. Ce qui est lisible, néanmoins, c'est la maturité des algorithmes de contrôle temps réel et l'apport de l'entraînement en simulation pour des mouvements dynamiques complexes. Unitree, fondée en Chine et connue pour ses quadrupèdes Go1 et B2, a accéléré son virage humanoïde avec le G1 commercialisé à partir de 16 000 dollars en 2024, un prix agressif qui le positionne directement contre les plateformes de recherche d'Agility Robotics (Digit), Figure (Figure 02) et Boston Dynamics (Atlas). Le G1-D intègre un stack logiciel complet couvrant l'annotation de données, la simulation et l'entraînement distribué, ce qui signale une ambition au-delà du hardware : se positionner comme plateforme de développement de modèles d'action (VLA). La prochaine étape attendue du secteur est le passage de ces démos en conditions contrôlées à des déploiements industriels répétables, un saut que ni Unitree ni ses concurrents n'ont encore documenté publiquement à grande échelle.

UELa démonstration Unitree G1-D accentue la pression concurrentielle sur les acteurs européens du secteur humanoïde, en confirmant la capacité des fabricants chinois à proposer des plateformes polyvalentes à prix agressif sans déploiement industriel documenté à ce stade.

AutreOpinion
1 source
SynAgent : manipulation humanoïde coopérative généralisable par synergie d'agents, du solo au coopératif
4arXiv cs.RO 

SynAgent : manipulation humanoïde coopérative généralisable par synergie d'agents, du solo au coopératif

Une équipe de chercheurs a déposé sur arXiv (2604.18557, avril 2026) SynAgent, un framework unifié pour la manipulation coopérative entre robots humanoïdes. Le problème de départ est concret : faire collaborer deux humanoïdes pour saisir et déplacer un objet volumineux exige des données d'entraînement multi-agents quasi inexistantes. SynAgent contourne ce verrou via une stratégie "Solo-to-Cooperative Agent Synergy" : les compétences sont d'abord apprises sur des données de mouvement humain solo (un agent, un objet), puis transférées vers des scénarios à deux agents. Pour préserver les relations spatiales lors de ce transfert, les auteurs introduisent une méthode de retargeting basée sur un "Interact Mesh" construit par tétraédrisation de Delaunay. L'entraînement repose ensuite sur un préentraînement mono-agent, une adaptation via PPO décentralisé multi-agents, et une politique générative conditionnée par trajectoire utilisant un VAE conditionnel (cVAE), distillée depuis plusieurs priors d'imitation de mouvement. Le principal goulot d'étranglement de la manipulation humanoïde coopérative n'est pas l'algorithme, c'est la donnée : annoter deux humains manipulant des objets en interaction à l'échelle suffisante est coûteux. SynAgent propose de recycler les datasets de mouvement solo, qui sont eux abondants, pour bootstrapper des comportements collaboratifs. Les auteurs rapportent une surperformance significative sur les baselines existantes en imitation coopérative et en contrôle conditionné par trajectoire, avec une généralisation à des géométries d'objets variées, point souvent fragile dans la littérature. Si ces résultats se confirment hors benchmarks contrôlés, l'approche réduirait drastiquement le coût d'entrée pour déployer des paires de robots humanoïdes sur des tâches de manutention lourde. La manipulation bimanuelle distribue un axe de recherche actif : les travaux sur ALOHA (Berkeley), Stanford et CMU ont établi des bases solides pour les tâches dextères, mais sur des plateformes à deux bras unifiées. La coordination entre deux humanoïdes distincts est un problème plus récent, exacerbé par l'émergence commerciale de Figure 02/03, Agility Digit ou Unitree G1. SynAgent s'inscrit dans ce contexte où les labos académiques cherchent à fournir les briques algorithmiques que les industriels ne peuvent pas encore produire à temps. Important à noter : le papier ne mentionne aucune expérience sur hardware physique, ce qui laisse ouverte la question centrale du sim-to-real gap pour ce type de coordination distribuée. Le code et les données seront publiés après acceptation formelle.

AutrePaper
1 source