RobotiquearXiv cs.RO3h

Les robots humanoïdes apprennent la manipulation polyvalente par simulation tactile

Résumé IASource uniqueImpact UE

Des chercheurs ont présenté un nouveau système d'apprentissage pour robots humanoïdes capable de manipuler des objets avec une dextérité inédite, en intégrant le sens du toucher comme modalité centrale. Baptisé HTD (Humanoid Transformer with Touch Dreaming), ce modèle multimodal de type encodeur-décodeur Transformer combine la vision multi-caméras, la proprioception et la détection tactile pour permettre à un robot humanoïde d'accomplir des tâches nécessitant des contacts physiques complexes et fréquents. Testé sur cinq tâches réelles impliquant des manipulations délicates, HTD affiche une amélioration relative de 90,9 % du taux de succès moyen par rapport aux approches concurrentes les plus solides.

L'enjeu central de ce travail est de résoudre l'un des défis les plus persistants de la robotique humanoïde : la coordination entre stabilité du corps entier, agilité des mains et conscience du contact physique. Dans les environnements réels, un robot qui saisit un objet fragile ou manipule un outil doit constamment ajuster sa prise en fonction des forces ressenties, une capacité que les systèmes purement visuels peinent à développer. Grâce à la technique du "touch dreaming", la politique apprise ne se contente pas de prédire des séquences d'actions, elle anticipe également les forces futures exercées par les articulations des mains et les états tactiles latents à venir, ce qui l'oblige à construire des représentations internes riches et sensibles au contact. Les expériences d'ablation confirment que cette prédiction dans l'espace latent est plus efficace que la prédiction brute des données tactiles, avec un gain relatif de 30 % supplémentaire en taux de succès.

L'architecture repose sur un contrôleur de la partie basse du corps entraîné par apprentissage par renforcement, qui assure la stabilité posturale pendant les manipulations complexes. La collecte de données de démonstration s'effectue via un système de téléopération en réalité virtuelle qui intègre à la fois des mains dextères et des capteurs tactiles, permettant de recueillir des interactions riches en contact sans étape de pré-entraînement tactile séparée. Ce travail, dont les matériaux sont publiés en open source, s'inscrit dans une tendance plus large de la recherche en robotique visant à doter les humanoïdes de capacités sensori-motrices proches de celles des humains, condition indispensable avant un déploiement dans des environnements domestiques ou industriels non contrôlés.

Dans nos dossiers

Robots humanoïdes Open weight & Open source

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

ETac : un framework léger de simulation tactile pour apprendre la manipulation dextère

Des chercheurs ont présenté ETac, un framework de simulation tactile conçu pour entraîner des robots manipulateurs dotés de capteurs tactiles à peau élastomère. Publié sur arXiv, ETac repose sur un modèle léger d'apprentissage automatique pour simuler la propagation des déformations lors des contacts, sans recourir aux coûteuses méthodes par éléments finis (FEM). Exécuté sur un seul GPU RTX 4090, le système supporte jusqu'à 4 096 environnements parallèles et atteint un débit total de 869 images par seconde. La politique de préhension entraînée avec ETac affiche un taux de réussite moyen de 84,45 % sur quatre types d'objets différents, sans aucune vision -- uniquement via le retour tactile large surface. Ce résultat est significatif car il lève l'un des principaux verrous du domaine : la simulation tactile haute fidélité est habituellement si coûteuse en calcul qu'elle empêche l'apprentissage par renforcement à grande échelle. ETac produit des estimations de déformation de surface comparables à celles obtenues par FEM, tout en étant suffisamment rapide pour l'entraînement massif de politiques robotiques. Pour les laboratoires et entreprises qui développent des robots manipulateurs -- en logistique, chirurgie assistée ou assemblage industriel -- cette approche ouvre la voie à des agents capables de saisir des objets variés et fragiles sans dépendre de caméras. La manipulation dextère reste l'un des défis les plus ardus de la robotique moderne, et le sens du toucher est reconnu depuis longtemps comme essentiel pour combler l'écart avec les capacités humaines. Les capteurs tactiles type GelSight ou DIGIT ont progressé rapidement ces dernières années, mais leur intégration dans des boucles d'apprentissage par renforcement butait sur l'absence de simulateurs rapides et réalistes. ETac s'inscrit dans un mouvement plus large visant à aligner simulation et réalité physique (sim-to-real transfer) pour les retours haptiques. Les prochaines étapes pourraient inclure le transfert de politiques vers des robots réels et l'extension à des scénarios de manipulation bimanuelle plus complexes.

RobotiquePaper

1 source

2arXiv cs.RO

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper

1 source

3arXiv cs.RO

Manipulation bimanuelles par robot via apprentissage en contexte multi-agents

Des chercheurs ont présenté BiCICLe (Bimanual Coordinated In-Context Learning), un nouveau cadre permettant à des grands modèles de langage (LLM) standard de contrôler des robots à deux bras sans aucun entraînement spécifique à la tâche. Publié sous forme de preprint sur arXiv, ce travail s'appuie sur l'apprentissage en contexte (In-Context Learning), une technique qui permet à un LLM de généraliser à de nouvelles situations à partir de quelques exemples fournis directement dans le prompt. Évalué sur 13 tâches issues du benchmark TWIN, BiCICLe atteint un taux de succès moyen de 71,1 %, surpassant la meilleure méthode sans entraînement de 6,7 points de pourcentage et dépassant la majorité des approches supervisées. Le défi de la manipulation bimanuele est précisément ce qui rend ce résultat remarquable. Coordonner deux bras robotiques implique un espace d'action à très haute dimensionnalité et des contraintes de synchronisation strictes entre les deux membres, ce qui dépasse rapidement les capacités des fenêtres de contexte standard des LLM. BiCICLe contourne ce problème en reformulant le contrôle bimanuel comme un problème multi-agents de type leader-suiveur : chaque bras est géré par un LLM distinct, le second conditionnant ses prédictions sur celles du premier. Un troisième modèle joue le rôle de juge, évaluant et sélectionnant les trajectoires coordonnées les plus plausibles parmi plusieurs propositions, via un processus itératif baptisé Arms' Debate. Ce travail s'inscrit dans une tendance plus large qui vise à exploiter les capacités de raisonnement des LLM pour la robotique incarnée, sans passer par des cycles d'entraînement coûteux. Jusqu'ici, l'ICL avait surtout été appliqué à des tâches à un seul bras, plus simples à modéliser. BiCICLe ouvre la voie à une robotique plus flexible, où des modèles de langage généralistes peuvent être déployés sur des systèmes physiques complexes avec un minimum d'exemples. Les résultats de généralisation sur des tâches inédites renforcent la crédibilité de cette approche pour des applications industrielles ou domestiques où la variété des manipulations est élevée.

RobotiqueActu

1 source

4arXiv cs.RO

Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts

Des chercheurs ont présenté le Tube Diffusion Policy (TDP), un nouveau cadre d'apprentissage par imitation conçu pour la manipulation robotique en contact intense, c'est-à-dire les tâches où un robot doit saisir, pousser ou assembler des objets en gérant en permanence les incertitudes physiques. Publié sur arXiv (référence 2604.23609), TDP combine deux approches distinctes : les modèles génératifs à diffusion, qui ont récemment démontré de grandes capacités pour apprendre des comportements complexes, et le contrôle par tube, une méthode de rétroaction permettant de corriger les trajectoires en temps réel. Le système a été évalué sur le benchmark Push-T, largement utilisé dans la communauté robotique, ainsi que sur trois tâches additionnelles de manipulation dextère intégrant retour visuel et tactile. Sur l'ensemble de ces tests, TDP surpasse tous les modèles de référence de l'état de l'art, et deux expériences en conditions réelles confirment sa robustesse face aux perturbations extérieures et aux incertitudes de contact. L'apport concret de TDP réside dans sa capacité à réagir rapidement à des situations imprévues pendant l'exécution d'une tâche. Les approches dominantes reposent sur l'action chunking, qui consiste à planifier de longues séquences de mouvements à l'avance : efficace dans des environnements stables, cette méthode échoue dès qu'un contact inattendu ou une résistance physique surgit. TDP génère au contraire un "tube d'action", une enveloppe autour de la trajectoire nominale qui permet des micro-corrections continues à haute fréquence en s'appuyant sur les données tactiles et visuelles en temps réel. Le mécanisme de correction progressive réduit également le nombre d'étapes de débruitage nécessaires au modèle de diffusion, ce qui améliore significativement la vitesse d'inférence et rend le système compatible avec un contrôle robotique en boucle fermée rapide. Cette publication s'inscrit dans une dynamique de recherche intense autour des politiques de diffusion en robotique, initiée notamment par les travaux de Chi et al. sur Diffusion Policy en 2023. L'intégration du retour tactile reste un défi majeur du domaine : contrairement à la vision, le toucher impose une latence ultra-faible et une sensibilité aux perturbations millimétriques. TDP ouvre des perspectives pour des applications industrielles exigeantes comme l'assemblage de pièces fines, la chirurgie assistée ou les prothèses robotiques, où la réactivité au contact est critique. Les prochaines étapes probables incluent l'extension à des environnements plus complexes et la généralisation à de nouveaux types de capteurs tactiles.

RobotiqueOpinion

1 source