Aller au contenu principal
Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels
RobotiquearXiv cs.RO6sem

Apprentissage du contrôle multimodal du corps entier pour robots humanoïdes réels

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs en robotique ont publié sur arXiv une avancée notable dans le contrôle des robots humanoïdes, présentant le Masked Humanoid Controller (MHC), un système d'apprentissage automatique capable de piloter l'ensemble du corps d'un robot à partir d'une interface unifiée. Concrètement, le MHC reçoit des commandes sous forme de trajectoires partiellement spécifiées, seules certaines parties du corps sont ciblées à la fois, et les exécute en maintenant l'équilibre général de la machine. Le système a été validé sur le robot humanoïde réel Digit V3 du fabricant Agility Robotics, démontrant que les comportements appris en simulation se transfèrent effectivement au monde physique.

Ce qui distingue le MHC, c'est sa capacité à traiter des entrées radicalement différentes avec un seul contrôleur : séquences de pas planifiées par un algorithme d'optimisation, clips de capture de mouvement humain, vidéos retransposées sur le robot, ou signaux de téléopération en temps réel via joystick. Jusqu'ici, chacun de ces modes nécessitait généralement un pipeline dédié. Cette unification simplifie considérablement l'architecture des systèmes robotiques et ouvre la voie à des robots capables de recevoir des instructions hybrides, par exemple suivre une trajectoire planifiée tout en imitant simultanément des gestes captés sur une vidéo.

Le problème du contrôle corps entier est l'un des verrous majeurs de la robotique humanoïde commerciale, alors que des acteurs comme Boston Dynamics, Figure AI ou Tesla Optimus investissent massivement dans ce secteur. La tendance actuelle consiste à entraîner des contrôleurs en simulation, moins coûteux et plus sûr, puis à les transférer sur du matériel réel, une approche que le MHC illustre avec le Digit V3. L'utilisation d'un curriculum d'entraînement couvrant l'ensemble des modalités d'entrée est la clé qui permet cette polyvalence sans sacrifier la robustesse. Les prochaines étapes logiques concerneront l'intégration de modèles de langage comme interface de haut niveau, permettant à terme de donner des instructions verbales à un humanoïde qui les traduirait en commandes motrices complexes.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Apprentissage augmenté par référence pour le contrôle précis de robots continus à tendons
1arXiv cs.RO 

Apprentissage augmenté par référence pour le contrôle précis de robots continus à tendons

Des chercheurs ont développé une nouvelle approche d'apprentissage automatique pour améliorer le contrôle précis des robots continus à tendons, une classe de robots flexibles dont les mouvements sont guidés par des câbles internes. Présentée dans un article publié sur arXiv (référence 2604.25698), la méthode repose sur un cadre d'apprentissage hors-ligne dit « augmenté par références », capable de piloter ces robots avec six degrés de liberté. Les tests ont été conduits sur une plateforme robotique à trois sections, et les résultats montrent une réduction de 50,9 % de l'erreur de position moyenne par rapport aux méthodes d'apprentissage non augmentées, ainsi qu'une nette supériorité face aux contrôleurs classiques dits « jacobiens », tant en précision qu'en stabilité, quelle que soit la vitesse de déplacement. Ce gain de performance est significatif pour les applications médicales et industrielles où ces robots flexibles sont utilisés, notamment en chirurgie mini-invasive, en endoscopie ou en exploration de structures encombrées. Le problème central des robots à tendons réside dans leur comportement non linéaire et dépendant de leur historique de mouvement : les câbles introduisent des effets d'hystérésis qui provoquent des oscillations difficiles à corriger avec les méthodes de contrôle traditionnelles. La nouvelle approche force le modèle à apprendre des mécanismes de récupération d'erreur variés sans nécessiter d'interactions physiques supplémentaires avec le robot, ce qui réduit les coûts et les risques d'usure matérielle pendant l'entraînement. La difficulté à contrôler précisément ces robots flexibles freine depuis longtemps leur déploiement dans des environnements cliniques réels, où la moindre déviation de trajectoire peut avoir des conséquences graves. Les approches par réseau de neurones récurrents (RNN), utilisées ici comme pont différentiable pour optimiser la politique de contrôle, permettent de modéliser la dépendance temporelle des dynamiques sans recourir à des modèles analytiques trop simplifiés. L'équipe introduit également une augmentation multi-échelle combinant biais stochastiques, perturbations harmoniques et marches aléatoires, ce qui expose le modèle à une grande diversité de trajectoires pendant l'entraînement. Les prochaines étapes probables incluent une validation sur des scénarios cliniques réels et une extension à des robots à sections multiples plus complexes.

UELes avancées en contrôle de précision des robots flexibles médicaux pourraient bénéficier aux établissements hospitaliers et entreprises européennes actifs en chirurgie mini-invasive et endoscopie.

RobotiqueOpinion
1 source
Modélisation dynamique par apprentissage automatique et contrôle robuste pour robots continus à tendons
2arXiv cs.RO 

Modélisation dynamique par apprentissage automatique et contrôle robuste pour robots continus à tendons

Des chercheurs ont publié le 29 avril 2026 une nouvelle approche pour contrôler les robots continus à tendons (TDCRs), une catégorie de robots souples dont les mouvements sont pilotés par des câbles ou tendons internes. Ces systèmes sont particulièrement difficiles à modéliser en raison de non-linéarités complexes : hystérésis de friction, compliance de transmission et comportements dynamiques qui s'amplifient sur de longues séquences de mouvements. L'équipe propose un cadre d'apprentissage différentiable combinant un modèle de dynamique haute fidélité basé sur des réseaux GRU (Gated Recurrent Units) avec une politique de contrôle neuronal entraînée de bout en bout. Le modèle intègre une connectivité bidirectionnelle multi-canaux et une prédiction résiduelle pour supprimer l'accumulation d'erreurs lors des prédictions auto-régressives sur le long terme. Les expériences ont été menées sur un robot physique à trois sections, validant les performances en conditions réelles. Cette approche dépasse les méthodes classiques basées sur le jacobien, qui génèrent des oscillations auto-entretenues problématiques pour la précision et la stabilité. En traitant le modèle de dynamique comme un "pont de gradient", la politique de contrôle apprend implicitement à compenser les non-linéarités intrinsèques du robot sans qu'il soit nécessaire de les modéliser explicitement. Le résultat est un suivi de trajectoire précis et une robustesse supérieure face à des charges utiles inconnues, c'est-à-dire des poids non intégrés lors de l'entraînement, ce qui est critique pour les applications en environnements variables. Les robots continus à tendons suscitent un intérêt croissant en chirurgie mini-invasive, inspection industrielle et manipulation en espaces confinés, précisément parce que leur souplesse leur permet d'évoluer là où les bras rigides échouent. Le principal verrou restait leur contrôle fiable dans des conditions dynamiques réelles. Cette publication s'inscrit dans une tendance plus large d'intégration de l'apprentissage automatique dans la robotique physique, où les modèles appris remplacent progressivement les équations analytiques trop simplificatrices. Les prochaines étapes pourraient inclure la généralisation à des robots à plus de sections, l'adaptation en temps réel au vieillissement mécanique des tendons, et une intégration dans des systèmes chirurgicaux assistés.

RobotiqueOpinion
1 source
Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes
3arXiv cs.RO 

Un robot humanoïde joue au badminton grâce à l'apprentissage par renforcement multi-étapes

Des chercheurs ont présenté un système de badminton pour robots humanoïdes entièrement piloté par apprentissage par renforcement, sans recours à des démonstrations d'experts ni à des référentiels de mouvement préenregistrés. Le pipeline d'entraînement, décrit dans un article soumis sur arXiv (arXiv:2511.11218), repose sur un curriculum en trois étapes : acquisition des déplacements de jambes, génération de frappes guidée par la précision, puis raffinement centré sur la tâche. En simulation, deux robots humanoïdes ont maintenu un échange de 21 coups consécutifs. Sur matériel réel, face à une machine lance-volants et à des adversaires humains, le robot a atteint des vitesses de volant en sortie de raquette allant jusqu'à 19,1 mètres par seconde, avec une distance d'atterrissage moyenne des retours de 4 mètres. Cette démonstration marque un cap dans la robotique des interactions dynamiques. Jusqu'ici, les robots humanoïdes excellaient dans des environnements statiques, locomotion, manipulation d'objets posés, mais échouaient face à des objets rapides et imprévisibles. Coordonner bras et jambes en temps réel pour intercepter et renvoyer un volant relève d'une difficulté qualitativement différente : le robot doit anticiper, se positionner et frapper avec précision en une fraction de seconde. Ce système unifié, qui pilote simultanément le bas et le haut du corps pour servir l'objectif de frappe, constitue une avancée directement applicable à d'autres tâches critiques en dynamique, comme la manipulation d'objets projetés ou les interactions physiques en environnement industriel. Pour déployer ce contrôleur sur robot réel, les chercheurs ont intégré un filtre de Kalman étendu (EKF) chargé d'estimer et de prédire la trajectoire du volant. Ils ont également développé une variante sans prédiction explicite, qui supprime l'EKF tout en atteignant des performances comparables, ce qui suggère que le réseau de neurones internalise lui-même une forme d'anticipation. Cette approche s'inscrit dans une tendance de fond : former des comportements moteurs complexes uniquement en simulation, puis les transférer sur hardware (sim-to-real transfer), sans nécessiter de données humaines coûteuses. Les résultats ouvrent la voie à des robots capables d'interactions physiques rapides et précises dans des contextes jusqu'ici réservés à l'humain.

RobotiqueOpinion
1 source
Manipulation bimanuelles par robot via apprentissage en contexte multi-agents
4arXiv cs.RO 

Manipulation bimanuelles par robot via apprentissage en contexte multi-agents

Des chercheurs ont présenté BiCICLe (Bimanual Coordinated In-Context Learning), un nouveau cadre permettant à des grands modèles de langage (LLM) standard de contrôler des robots à deux bras sans aucun entraînement spécifique à la tâche. Publié sous forme de preprint sur arXiv, ce travail s'appuie sur l'apprentissage en contexte (In-Context Learning), une technique qui permet à un LLM de généraliser à de nouvelles situations à partir de quelques exemples fournis directement dans le prompt. Évalué sur 13 tâches issues du benchmark TWIN, BiCICLe atteint un taux de succès moyen de 71,1 %, surpassant la meilleure méthode sans entraînement de 6,7 points de pourcentage et dépassant la majorité des approches supervisées. Le défi de la manipulation bimanuele est précisément ce qui rend ce résultat remarquable. Coordonner deux bras robotiques implique un espace d'action à très haute dimensionnalité et des contraintes de synchronisation strictes entre les deux membres, ce qui dépasse rapidement les capacités des fenêtres de contexte standard des LLM. BiCICLe contourne ce problème en reformulant le contrôle bimanuel comme un problème multi-agents de type leader-suiveur : chaque bras est géré par un LLM distinct, le second conditionnant ses prédictions sur celles du premier. Un troisième modèle joue le rôle de juge, évaluant et sélectionnant les trajectoires coordonnées les plus plausibles parmi plusieurs propositions, via un processus itératif baptisé Arms' Debate. Ce travail s'inscrit dans une tendance plus large qui vise à exploiter les capacités de raisonnement des LLM pour la robotique incarnée, sans passer par des cycles d'entraînement coûteux. Jusqu'ici, l'ICL avait surtout été appliqué à des tâches à un seul bras, plus simples à modéliser. BiCICLe ouvre la voie à une robotique plus flexible, où des modèles de langage généralistes peuvent être déployés sur des systèmes physiques complexes avec un minimum d'exemples. Les résultats de généralisation sur des tâches inédites renforcent la crédibilité de cette approche pour des applications industrielles ou domestiques où la variété des manipulations est élevée.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour