Aller au contenu principal
QuietWalk : apprentissage par renforcement informé par la physique pour la locomotion humanoïde avec diverses chaussures
RobotiquearXiv cs.RO6sem· 2 min de lecture

QuietWalk : apprentissage par renforcement informé par la physique pour la locomotion humanoïde avec diverses chaussures

Source originale ↗·

Des chercheurs ont publié le 28 avril 2026 sur arXiv un système baptisé QuietWalk, conçu pour permettre aux robots humanoïdes de marcher silencieusement dans des environnements humains, que ce soit pieds nus ou chaussés de talons hauts, de baskets ou de chaussures de skate. Le cadre repose sur un apprentissage par renforcement guidé par la physique : un réseau de neurones contraint par la dynamique inverse estime en temps réel les forces de réaction au sol à partir des capteurs proprioceptifs du robot, sans jamais nécessiter de capteurs de force physiques lors du déploiement. Sur un jeu de données réel, cette approche réduit les erreurs de prédiction des forces verticales de 82 à 86 % par rapport à un prédicteur purement supervisé, et porte le coefficient de détermination de 0,39 à 0,99 pour le pied gauche, et de 0,67 à 0,99 pour le pied droit. À une vitesse de 1,2 m/s sur quatre types de sol, QuietWalk abaisse le niveau sonore moyen pondéré A de 7,17 dB et le niveau sonore de crête de 4,98 dB.

Ces chiffres sont significatifs : une réduction de 7 dB correspond environ à diviser par deux la perception sonore. Pour des robots déployés dans des hôpitaux, des maisons de retraite ou des bureaux, cette différence est directement liée à l'acceptabilité par les humains. L'élimination des capteurs de force au sol simplifie aussi radicalement la chaîne matérielle, rendant le système moins fragile et moins coûteux à maintenir. La robustesse face aux différentes chaussures règle par ailleurs un problème concret : en conditions réelles, un robot livré avec une paire de semelles standard devra fonctionner sur moquette, carrelage ou parquet, avec ou sans protection aux pieds.

La locomotion silencieuse des humanoïdes est un défi structurel du domaine depuis plusieurs années. Les approches précédentes s'appuyaient sur des objectifs cinématiques approximatifs ou sur des capteurs de force fragiles et coûteux, deux solutions peu généralisables. QuietWalk s'inscrit dans une tendance plus large qui consiste à intégrer des contraintes physiques directement dans la boucle d'entraînement pour obtenir des comportements plus fiables. Avec des acteurs comme Boston Dynamics, Agility Robotics ou Figure AI qui intensifient leur déploiement en environnements commerciaux, ce type de recherche fondamentale sur la cohabitation homme-robot devient un différenciateur clé pour la prochaine génération d'humanoïdes.

Impact France/UE

Cette recherche sur la locomotion silencieuse des humanoïdes est applicable aux environnements européens (hôpitaux, EHPAD, bureaux) mais aucun acteur ou institution français·e ou européen·ne n'est directement impliqué·e.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes
1arXiv cs.RO 

Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes

Des chercheurs ont présenté un système de badminton pour robots humanoïdes entièrement piloté par apprentissage par renforcement, sans recours à des démonstrations d'experts ni à des référentiels de mouvement préenregistrés. Le pipeline d'entraînement, décrit dans un article soumis sur arXiv (arXiv:2511.11218), repose sur un curriculum en trois étapes : acquisition des déplacements de jambes, génération de frappes guidée par la précision, puis raffinement centré sur la tâche. En simulation, deux robots humanoïdes ont maintenu un échange de 21 coups consécutifs. Sur matériel réel, face à une machine lance-volants et à des adversaires humains, le robot a atteint des vitesses de volant en sortie de raquette allant jusqu'à 19,1 mètres par seconde, avec une distance d'atterrissage moyenne des retours de 4 mètres. Cette démonstration marque un cap dans la robotique des interactions dynamiques. Jusqu'ici, les robots humanoïdes excellaient dans des environnements statiques, locomotion, manipulation d'objets posés, mais échouaient face à des objets rapides et imprévisibles. Coordonner bras et jambes en temps réel pour intercepter et renvoyer un volant relève d'une difficulté qualitativement différente : le robot doit anticiper, se positionner et frapper avec précision en une fraction de seconde. Ce système unifié, qui pilote simultanément le bas et le haut du corps pour servir l'objectif de frappe, constitue une avancée directement applicable à d'autres tâches critiques en dynamique, comme la manipulation d'objets projetés ou les interactions physiques en environnement industriel. Pour déployer ce contrôleur sur robot réel, les chercheurs ont intégré un filtre de Kalman étendu (EKF) chargé d'estimer et de prédire la trajectoire du volant. Ils ont également développé une variante sans prédiction explicite, qui supprime l'EKF tout en atteignant des performances comparables, ce qui suggère que le réseau de neurones internalise lui-même une forme d'anticipation. Cette approche s'inscrit dans une tendance de fond : former des comportements moteurs complexes uniquement en simulation, puis les transférer sur hardware (sim-to-real transfer), sans nécessiter de données humaines coûteuses. Les résultats ouvrent la voie à des robots capables d'interactions physiques rapides et précises dans des contextes jusqu'ici réservés à l'humain.

RobotiqueOpinion
1 source
Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique
2arXiv cs.RO 

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper
1 source
Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI
3AWS ML Blog 

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

NVIDIA et Amazon Web Services ont publié un guide technique détaillant comment entraîner des politiques de comportement pour le robot humanoïde Unitree H1 en utilisant NVIDIA Isaac Lab sur Amazon SageMaker AI. La solution s'appuie sur deux options de calcul complémentaires : SageMaker HyperPod, une infrastructure distribuée managée pour des clusters persistants, et SageMaker Training Jobs, une approche entièrement à la demande où les instances GPU sont provisionnées à la volée puis supprimées à la fin du job. Le code complet est disponible publiquement sur GitHub. L'objectif est de permettre aux équipes robotique de lancer des entraînements par renforcement (RL) à grande échelle, aussi bien en phase d'expérimentation rapide qu'en production sur de longues durées, sans gérer eux-mêmes l'infrastructure de calcul. Cette publication répond à un défi concret : l'entraînement par renforcement pour des comportements complexes, comme la locomotion humanoïde sur terrain accidenté, est extrêmement gourmand en GPU. Un seul run d'entraînement peut durer de quelques heures à plusieurs jours. SageMaker HyperPod intègre un agent de surveillance de santé sur chaque nœud, capable de détecter automatiquement les pannes matérielles, de remplacer les instances défaillantes et de reprendre l'entraînement depuis le dernier checkpoint, sans intervention humaine. Le système publie en parallèle des centaines de métriques de cluster vers Amazon Managed Service for Prometheus, visualisables dans des dashboards Grafana préconfigurés, couvrant l'utilisation GPU, la mémoire, le débit réseau et les performances par tâche. Pour les expériences courtes, SageMaker Training Jobs élimine tout coût de calcul inactif entre les runs, chaque job ne consommant de ressources que le temps de son exécution. L'IA physique bascule progressivement de la recherche vers la production industrielle. Les robots sont désormais formés dans des simulations haute-fidélité accélérées par GPU avant leur déploiement en usine, en entrepôt ou dans des centres logistiques, parce que l'entraînement en conditions réelles reste lent, coûteux et risqué. Cette simulation compresse des mois d'apprentissage en quelques heures, mais déplace le problème vers la gestion du calcul distribué. C'est précisément le créneau que cherchent à occuper AWS et NVIDIA avec cette intégration : en abstraisant la couche infrastructure, ils permettent aux ingénieurs de se concentrer sur la conception des politiques de comportement robotique plutôt que sur la configuration des clusters. SageMaker HyperPod supporte l'orchestration via Amazon EKS ou Slurm, avec un système de quotas fins par instance, GPU entier ou partition MIG (NVIDIA Multi-Instance GPU), couvrant les accélérateurs, les vCPU et la mémoire. La prochaine étape logique sera l'extension de ces pipelines aux modèles de fondation robotique, qui nécessitent des infrastructures similaires mais à une échelle encore supérieure.

RobotiqueActu
1 source
OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain
4arXiv cs.RO 

OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain

Des chercheurs ont présenté OmniUMI, un nouveau cadre d'apprentissage robotique conçu pour dépasser les limites des systèmes actuels en intégrant des données multimodales physiquement ancrées. Là où les interfaces de type UMI existantes se limitent à des observations visuelles RGB et des trajectoires, OmniUMI capture simultanément six types de données : images RGB, profondeur, trajectoire, retour tactile, force de préhension interne et couple d'interaction externe. Ce dispositif tient dans la main et maintient une cohérence entre la phase de collecte des démonstrations humaines et le déploiement sur le robot, grâce à une conception d'embodiment partagé. Les politiques apprises reposent sur une extension de la diffusion policy intégrant ces signaux visuels, tactiles et de force, déployée via une exécution à impédance pour réguler conjointement le mouvement et le contact. Les expériences valident le système sur des tâches comme le saisissement et le dépôt sensibles à la force, l'effacement de surface interactif, et le relâchement sélectif guidé par le toucher. La portée de cette avancée tient à un problème fondamental de la robotique : les tâches impliquant un contact physique riche, comme assembler des pièces fragiles, manipuler des objets déformables ou effectuer des gestes précis avec pression calibrée, restent hors de portée des systèmes purement visuels. La vision seule ne peut pas inférer la dynamique de contact, la force exercée, ni les micro-glissements tactiles. En permettant au démonstrateur humain de percevoir et moduler naturellement ces forces via un retour bilatéral du préhenseur, OmniUMI aligne la démonstration humaine sur la réalité physique du robot, rendant les données collectées directement exploitables. Le contexte est celui d'une course à la manipulation robotique généraliste, où des laboratoires et entreprises comme Google DeepMind, Physical Intelligence ou Boston Dynamics investissent massivement. Les interfaces UMI, popularisées ces dernières années pour leur facilité de collecte de données à grande échelle, butaient précisément sur ce mur du toucher et de la force. OmniUMI ouvre une voie vers des systèmes capables d'apprendre des tâches industrielles ou médicales où la précision physique est critique, tout en conservant le paradigme de démonstration humaine qui a fait le succès des approches d'imitation à grande échelle.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic