Aller au contenu principal
Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes
RobotiquearXiv cs.RO6sem· 2 min de lecture

Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes

Source originale ↗·

Des chercheurs ont présenté un système de badminton pour robots humanoïdes entièrement piloté par apprentissage par renforcement, sans recours à des démonstrations d'experts ni à des référentiels de mouvement préenregistrés. Le pipeline d'entraînement, décrit dans un article soumis sur arXiv (arXiv:2511.11218), repose sur un curriculum en trois étapes : acquisition des déplacements de jambes, génération de frappes guidée par la précision, puis raffinement centré sur la tâche. En simulation, deux robots humanoïdes ont maintenu un échange de 21 coups consécutifs. Sur matériel réel, face à une machine lance-volants et à des adversaires humains, le robot a atteint des vitesses de volant en sortie de raquette allant jusqu'à 19,1 mètres par seconde, avec une distance d'atterrissage moyenne des retours de 4 mètres.

Cette démonstration marque un cap dans la robotique des interactions dynamiques. Jusqu'ici, les robots humanoïdes excellaient dans des environnements statiques, locomotion, manipulation d'objets posés, mais échouaient face à des objets rapides et imprévisibles. Coordonner bras et jambes en temps réel pour intercepter et renvoyer un volant relève d'une difficulté qualitativement différente : le robot doit anticiper, se positionner et frapper avec précision en une fraction de seconde. Ce système unifié, qui pilote simultanément le bas et le haut du corps pour servir l'objectif de frappe, constitue une avancée directement applicable à d'autres tâches critiques en dynamique, comme la manipulation d'objets projetés ou les interactions physiques en environnement industriel.

Pour déployer ce contrôleur sur robot réel, les chercheurs ont intégré un filtre de Kalman étendu (EKF) chargé d'estimer et de prédire la trajectoire du volant. Ils ont également développé une variante sans prédiction explicite, qui supprime l'EKF tout en atteignant des performances comparables, ce qui suggère que le réseau de neurones internalise lui-même une forme d'anticipation. Cette approche s'inscrit dans une tendance de fond : former des comportements moteurs complexes uniquement en simulation, puis les transférer sur hardware (sim-to-real transfer), sans nécessiter de données humaines coûteuses. Les résultats ouvrent la voie à des robots capables d'interactions physiques rapides et précises dans des contextes jusqu'ici réservés à l'humain.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Surveillance d'environnements intérieurs dynamiques par apprentissage par renforcement multi-agents
1arXiv cs.RO 

Surveillance d'environnements intérieurs dynamiques par apprentissage par renforcement multi-agents

Des chercheurs ont publié sur arXiv un système de surveillance d'intérieurs basé sur des équipes de robots mobiles pilotées par apprentissage par renforcement multi-agents (MARL). Le principe : plusieurs robots autonomes se coordonnent en temps réel pour observer les déplacements humains dans un bâtiment, sans contrôleur central. Chaque robot prend ses décisions à partir de ses seules observations locales, dans un cadre dit décentralisé. Les simulations ont couvert des environnements intérieurs variés et plusieurs types de tâches de surveillance, avec des équipes dont la composition en nombre d'humains observés varie dynamiquement. Ce travail s'attaque à un angle mort des approches robotiques classiques : les algorithmes de couverture de surface ou de visite périodique optimisent le déplacement des robots, pas la qualité réelle de l'observation. Pour des usages concrets comme la gestion de bâtiments, l'évaluation de la sécurité ou l'analyse de l'occupation des espaces, ce décalage est coûteux. Le système proposé aligne directement l'objectif d'entraînement sur la précision de la surveillance humaine, ce qui permet aux robots d'ajuster leur trajectoire pour maximiser la qualité d'information, y compris dans des scènes où le nombre de personnes change à l'improviste. Les résultats montrent des performances supérieures à tous les baselines testés, qu'ils soient classiques ou basés sur l'apprentissage. Ce type de travaux s'inscrit dans une tendance de fond : l'essor du MARL pour des problèmes de robotique coopérative où la coordination explicite est coûteuse ou impossible. Les environnements intérieurs dynamiques restent un défi ouvert pour la robotique autonome, en raison de l'imprévisibilité des comportements humains et des contraintes physiques des espaces. Les applications industrielles visées, de la logistique d'entrepôt à la sécurité des hôpitaux, représentent un marché en forte croissance. La prochaine étape naturelle sera le passage de la simulation au déploiement réel, où les bruits de capteurs, les occlusions physiques et la latence réseau mettront à l'épreuve la robustesse de ces politiques apprises.

UELes systèmes de surveillance autonome par robots entrent dans la catégorie à haut risque de l'AI Act européen, ce qui conditionnera les exigences de conformité pour tout déploiement commercial en UE.

RobotiqueOpinion
1 source
Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels
2arXiv cs.RO 

Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels

Des chercheurs en robotique ont publié sur arXiv une avancée notable dans le contrôle des robots humanoïdes, présentant le Masked Humanoid Controller (MHC), un système d'apprentissage automatique capable de piloter l'ensemble du corps d'un robot à partir d'une interface unifiée. Concrètement, le MHC reçoit des commandes sous forme de trajectoires partiellement spécifiées, seules certaines parties du corps sont ciblées à la fois, et les exécute en maintenant l'équilibre général de la machine. Le système a été validé sur le robot humanoïde réel Digit V3 du fabricant Agility Robotics, démontrant que les comportements appris en simulation se transfèrent effectivement au monde physique. Ce qui distingue le MHC, c'est sa capacité à traiter des entrées radicalement différentes avec un seul contrôleur : séquences de pas planifiées par un algorithme d'optimisation, clips de capture de mouvement humain, vidéos retransposées sur le robot, ou signaux de téléopération en temps réel via joystick. Jusqu'ici, chacun de ces modes nécessitait généralement un pipeline dédié. Cette unification simplifie considérablement l'architecture des systèmes robotiques et ouvre la voie à des robots capables de recevoir des instructions hybrides, par exemple suivre une trajectoire planifiée tout en imitant simultanément des gestes captés sur une vidéo. Le problème du contrôle corps entier est l'un des verrous majeurs de la robotique humanoïde commerciale, alors que des acteurs comme Boston Dynamics, Figure AI ou Tesla Optimus investissent massivement dans ce secteur. La tendance actuelle consiste à entraîner des contrôleurs en simulation, moins coûteux et plus sûr, puis à les transférer sur du matériel réel, une approche que le MHC illustre avec le Digit V3. L'utilisation d'un curriculum d'entraînement couvrant l'ensemble des modalités d'entrée est la clé qui permet cette polyvalence sans sacrifier la robustesse. Les prochaines étapes logiques concerneront l'intégration de modèles de langage comme interface de haut niveau, permettant à terme de donner des instructions verbales à un humanoïde qui les traduirait en commandes motrices complexes.

RobotiqueActu
1 source
QuietWalk : apprentissage par renforcement informé par la physique pour la locomotion humanoïde avec diverses chaussures
3arXiv cs.RO 

QuietWalk : apprentissage par renforcement informé par la physique pour la locomotion humanoïde avec diverses chaussures

Des chercheurs ont publié le 28 avril 2026 sur arXiv un système baptisé QuietWalk, conçu pour permettre aux robots humanoïdes de marcher silencieusement dans des environnements humains, que ce soit pieds nus ou chaussés de talons hauts, de baskets ou de chaussures de skate. Le cadre repose sur un apprentissage par renforcement guidé par la physique : un réseau de neurones contraint par la dynamique inverse estime en temps réel les forces de réaction au sol à partir des capteurs proprioceptifs du robot, sans jamais nécessiter de capteurs de force physiques lors du déploiement. Sur un jeu de données réel, cette approche réduit les erreurs de prédiction des forces verticales de 82 à 86 % par rapport à un prédicteur purement supervisé, et porte le coefficient de détermination de 0,39 à 0,99 pour le pied gauche, et de 0,67 à 0,99 pour le pied droit. À une vitesse de 1,2 m/s sur quatre types de sol, QuietWalk abaisse le niveau sonore moyen pondéré A de 7,17 dB et le niveau sonore de crête de 4,98 dB. Ces chiffres sont significatifs : une réduction de 7 dB correspond environ à diviser par deux la perception sonore. Pour des robots déployés dans des hôpitaux, des maisons de retraite ou des bureaux, cette différence est directement liée à l'acceptabilité par les humains. L'élimination des capteurs de force au sol simplifie aussi radicalement la chaîne matérielle, rendant le système moins fragile et moins coûteux à maintenir. La robustesse face aux différentes chaussures règle par ailleurs un problème concret : en conditions réelles, un robot livré avec une paire de semelles standard devra fonctionner sur moquette, carrelage ou parquet, avec ou sans protection aux pieds. La locomotion silencieuse des humanoïdes est un défi structurel du domaine depuis plusieurs années. Les approches précédentes s'appuyaient sur des objectifs cinématiques approximatifs ou sur des capteurs de force fragiles et coûteux, deux solutions peu généralisables. QuietWalk s'inscrit dans une tendance plus large qui consiste à intégrer des contraintes physiques directement dans la boucle d'entraînement pour obtenir des comportements plus fiables. Avec des acteurs comme Boston Dynamics, Agility Robotics ou Figure AI qui intensifient leur déploiement en environnements commerciaux, ce type de recherche fondamentale sur la cohabitation homme-robot devient un différenciateur clé pour la prochaine génération d'humanoïdes.

UECette recherche sur la locomotion silencieuse des humanoïdes est applicable aux environnements européens (hôpitaux, EHPAD, bureaux) mais aucun acteur ou institution français·e ou européen·ne n'est directement impliqué·e.

RobotiqueOpinion
1 source
Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI
4AWS ML Blog 

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et Amazon Web Services ont publié un guide technique détaillant comment entraîner des politiques de comportement pour le robot humanoïde Unitree H1 en utilisant NVIDIA Isaac Lab sur Amazon SageMaker AI. La solution s'appuie sur deux options de calcul complémentaires : SageMaker HyperPod, une infrastructure distribuée managée pour des clusters persistants, et SageMaker Training Jobs, une approche entièrement à la demande où les instances GPU sont provisionnées à la volée puis supprimées à la fin du job. Le code complet est disponible publiquement sur GitHub. L'objectif est de permettre aux équipes robotique de lancer des entraînements par renforcement (RL) à grande échelle, aussi bien en phase d'expérimentation rapide qu'en production sur de longues durées, sans gérer eux-mêmes l'infrastructure de calcul. Cette publication répond à un défi concret : l'entraînement par renforcement pour des comportements complexes, comme la locomotion humanoïde sur terrain accidenté, est extrêmement gourmand en GPU. Un seul run d'entraînement peut durer de quelques heures à plusieurs jours. SageMaker HyperPod intègre un agent de surveillance de santé sur chaque nœud, capable de détecter automatiquement les pannes matérielles, de remplacer les instances défaillantes et de reprendre l'entraînement depuis le dernier checkpoint, sans intervention humaine. Le système publie en parallèle des centaines de métriques de cluster vers Amazon Managed Service for Prometheus, visualisables dans des dashboards Grafana préconfigurés, couvrant l'utilisation GPU, la mémoire, le débit réseau et les performances par tâche. Pour les expériences courtes, SageMaker Training Jobs élimine tout coût de calcul inactif entre les runs, chaque job ne consommant de ressources que le temps de son exécution. L'IA physique bascule progressivement de la recherche vers la production industrielle. Les robots sont désormais formés dans des simulations haute-fidélité accélérées par GPU avant leur déploiement en usine, en entrepôt ou dans des centres logistiques, parce que l'entraînement en conditions réelles reste lent, coûteux et risqué. Cette simulation compresse des mois d'apprentissage en quelques heures, mais déplace le problème vers la gestion du calcul distribué. C'est précisément le créneau que cherchent à occuper AWS et NVIDIA avec cette intégration : en abstraisant la couche infrastructure, ils permettent aux ingénieurs de se concentrer sur la conception des politiques de comportement robotique plutôt que sur la configuration des clusters. SageMaker HyperPod supporte l'orchestration via Amazon EKS ou Slurm, avec un système de quotas fins par instance, GPU entier ou partition MIG (NVIDIA Multi-Instance GPU), couvrant les accélérateurs, les vCPU et la mémoire. La prochaine étape logique sera l'extension de ces pipelines aux modèles de fondation robotique, qui nécessitent des infrastructures similaires mais à une échelle encore supérieure.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic