Aller au contenu principal
HANDFUL : manipulation dextre séquentielle conditionnée par la préhension et les ressources disponibles
RobotiquearXiv cs.RO2h

HANDFUL : manipulation dextre séquentielle conditionnée par la préhension et les ressources disponibles

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié le 29 avril 2026 sur arXiv un article présentant HANDFUL, un nouveau cadre d'apprentissage pour la manipulation dextère séquentielle par des robots à main articulée. L'idée centrale est de permettre à un robot d'effectuer plusieurs actions successives sur des objets, par exemple saisir un objet puis le pousser, le tirer ou appuyer dessus, sans relâcher sa prise initiale. Pour cela, HANDFUL modélise l'usage des doigts comme une ressource limitée et entraîne le robot à adopter des prises "économes" qui réservent des doigts disponibles pour les tâches suivantes. L'approche repose sur des récompenses de contact au niveau de chaque doigt et un apprentissage par curriculum. Les chercheurs ont également créé HANDFUL-Bench, un benchmark de simulation dédié aux tâches de manipulation dextère séquentielle sous contrainte de prise partagée, couvrant trois types de sous-tâches : pousser, tirer et presser. Le système a été validé en simulation et sur un robot physique équipé d'une main LEAP.

Ce travail ouvre la voie à des robots capables de manipulations multitâches complexes, là où la quasi-totalité des recherches antérieures se limitait à des tâches mono-objet et mono-action. En pratique, la capacité à planifier une prise en anticipant les actions futures améliore significativement le taux de réussite des sous-tâches secondaires, ainsi que la robustesse globale du robot, par rapport à une approche naïve qui optimise chaque prise sans tenir compte de la suite. Pour l'industrie, cela représente une avancée concrète vers des bras robotiques capables d'enchaîner des gestes dans des environnements non structurés, comme l'assemblage, la logistique ou l'assistance à domicile.

La manipulation dextère reste l'un des défis les plus difficiles de la robotique : les mains à plusieurs doigts sont mécaniquement complexes et difficiles à contrôler par apprentissage par renforcement. La plupart des approches existantes cherchent à optimiser une seule tâche à la fois, ignorant les contraintes imposées par les actions ultérieures. HANDFUL s'inscrit dans une tendance émergente qui pousse les robots vers une planification holistique de leurs ressources motrices. Les prochaines étapes naturelles incluront l'extension à des chaînes de tâches plus longues et à des objets plus variés, ainsi que le transfert depuis la simulation vers des robots réels dans des conditions non contrôlées.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle
1arXiv cs.RO 

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle

Des chercheurs ont publié VTOUCH, un nouveau jeu de données multimodal conçu pour améliorer la manipulation bimanuelles des robots, c'est-à-dire la capacité d'un robot à utiliser deux bras de manière coordonnée. Présenté sur arXiv (référence 2604.20444), ce dataset combine des capteurs tactiles basés sur la vision pour fournir des signaux d'interaction physique haute fidélité. Concrètement, ces capteurs permettent au robot de "sentir" les contacts et pressions lors de tâches complexes, comme assembler un objet ou manipuler des matériaux fragiles. La collecte des données s'appuie sur des pipelines automatisés couvrant des scénarios réels orientés par la demande, et l'organisation des tâches suit une structure matricielle pensée pour faciliter l'apprentissage systématique à grande échelle. La manipulation bimanualle reste l'un des défis les plus ardus de la robotique incarnée, notamment parce que les tâches à fort contact physique exigent une coordination fine et des retours sensoriels précis que les datasets existants ne capturent pas suffisamment. VTOUCH répond directement à ce manque en intégrant des signaux tactiles riches là où la plupart des jeux de données se limitent à la vision ou aux données proprioceptives. Les expériences quantitatives menées sur la récupération cross-modale, ainsi que les évaluations sur robots réels, confirment l'efficacité du dataset. Plus important encore, les chercheurs ont démontré que les politiques entraînées sur VTOUCH se généralisent à plusieurs types de robots et plusieurs types de tâches, ce qui en fait un outil potentiellement mutualisable à travers l'industrie. La robotique incarnée connaît une accélération notable depuis l'essor des grands modèles de langage et vision, des acteurs comme Google DeepMind, Figure AI ou Physical Intelligence investissant massivement dans des robots capables d'opérer dans des environnements non structurés. La manipulation bimanualle est un goulot d'étranglement reconnu : même les systèmes les plus avancés peinent à égaler la dextérité humaine dans des tâches d'assemblage ou de cuisine. VTOUCH s'inscrit dans une tendance plus large de constitution de datasets spécialisés de grande échelle, à l'image d'Open X-Embodiment, pour accélérer l'entraînement de politiques robotiques généralisables. La prochaine étape sera de voir si ce dataset est rendu public et adopté par la communauté au-delà du laboratoire d'origine.

RobotiqueActu
1 source
FingerEye : capteur vision-tactile continu et unifié pour la manipulation dextère
2arXiv cs.RO 

FingerEye : capteur vision-tactile continu et unifié pour la manipulation dextère

Des chercheurs du laboratoire LINS de l'Université nationale de Singapour ont présenté FingerEye, un capteur robotique compact et peu coûteux capable de combiner vision et toucher de manière continue tout au long d'une interaction physique. Publié sur arXiv le 28 avril 2025, le système intègre deux caméras RGB binoculaires pour percevoir l'environnement à courte portée avant tout contact, puis capte les déformations d'un anneau souple instrumenté de marqueurs pour mesurer les forces et couples exercés au moment où le robot touche un objet. Cette architecture permet une transition fluide entre perception visuelle pré-contact et retour tactile post-contact, le tout dans un unique capteur monté sur les doigts d'un bras robotique. Les chercheurs ont également développé une politique d'apprentissage par imitation qui fusionne les signaux de plusieurs capteurs FingerEye pour apprendre des comportements de manipulation à partir d'un nombre limité de démonstrations réelles, en s'appuyant sur un jumeau numérique du système pour renforcer la généralisation. La majorité des capteurs tactiles existants, comme GelSight et ses variantes, ne fournissent de retour d'information qu'une fois le contact établi, ce qui empêche le robot d'ajuster sa trajectoire lors de l'approche. FingerEye supprime cette lacune en offrant une boucle de perception ininterrompue, ce qui améliore sensiblement la précision des gestes fins. Les expériences menées montrent que le système parvient à réaliser des tâches délicates variées : faire tenir une pièce de monnaie debout, saisir une chip individuelle, extraire une lettre d'une enveloppe ou manipuler une seringue, autant de scénarios qui exigent une coordination précise entre vue et toucher. La manipulation dextre reste l'un des problèmes les plus difficiles de la robotique, car elle suppose de gérer simultanément la localisation d'un objet et les forces exercées sur lui. La plupart des approches séparent ces deux modalités ou ne traitent qu'une phase de l'interaction. FingerEye s'inscrit dans un courant de recherche plus large visant à doter les robots de capteurs multimodaux proches des capacités sensorielles humaines. L'intégration d'un jumeau numérique permet par ailleurs de générer des données simulées enrichies visuellement pour améliorer la robustesse aux variations d'apparence des objets, réduisant ainsi la dépendance aux coûteuses démonstrations en conditions réelles. Le code, les fichiers de conception matérielle et les vidéos sont disponibles sur le site du projet.

RobotiqueActu
1 source
InCoM : perception guidée par l'intention et coordination structurée pour la manipulation mobile
3arXiv cs.RO 

InCoM : perception guidée par l'intention et coordination structurée pour la manipulation mobile

Des chercheurs ont publié InCoM, un nouveau cadre algorithmique pour la manipulation mobile robotique, détaillé dans un préprint arXiv (2602.23024). La manipulation mobile désigne la capacité d'un robot à se déplacer dans l'espace tout en manipulant des objets avec son bras, une combinaison exigeante qui requiert la coordination simultanée d'une base motorisée et d'un effecteur. InCoM aborde ce problème sur deux fronts : d'un côté, un mécanisme de perception piloté par l'intention, qui infère dynamiquement les étapes motrices du robot pour redistribuer l'attention perceptuelle à différentes échelles ; de l'autre, un décodeur d'action à flux correspondant découplé, qui modélise explicitement la génération coordonnée des commandes base-bras sans les coupler directement. Testé sur trois scénarios du benchmark ManiSkill-HAB, InCoM surpasse les méthodes existantes avec des gains de taux de succès respectifs de 28,2 %, 26,1 % et 23,6 %, sans recours à des informations privilégiées. Ces performances ont également été confirmées sur des tâches réelles. Ces résultats comptent parce que la manipulation mobile reste l'un des verrous majeurs de la robotique généraliste. Un robot capable de naviguer dans un appartement et d'y accomplir des tâches physiques complexes, comme ranger des objets ou préparer un repas, doit gérer en permanence des points de vue changeants et des conflits de commande entre sa locomotion et son bras. Les gains de plus de 20 points de pourcentage sur un benchmark de référence signalent une rupture méthodologique, pas une amélioration incrémentale, ce qui intéresse directement les industriels travaillant sur les robots domestiques et les systèmes logistiques autonomes. La difficulté du couplage base-bras est connue depuis les premières architectures de robots mobiles manipulateurs dans les années 2010. Les approches récentes, souvent basées sur l'apprentissage par renforcement ou les transformers visuels, peinent encore à allouer efficacement l'attention perceptuelle quand la caméra du robot se déplace. InCoM répond à ce problème en introduisant une notion d'intention latente qui anticipe les phases de mouvement avant qu'elles ne surviennent. La validation sur environnements réels, souvent absente des travaux académiques, renforce la crédibilité du système. La prochaine étape probable sera l'intégration de ce cadre dans des plateformes robotiques commerciales comme celles de Figure AI, Boston Dynamics ou 1X Technologies, toutes engagées dans la course au robot domestique généraliste.

RobotiquePaper
1 source
Les robots humanoïdes apprennent la manipulation polyvalente par simulation tactile
4arXiv cs.RO 

Les robots humanoïdes apprennent la manipulation polyvalente par simulation tactile

Des chercheurs ont présenté un nouveau système d'apprentissage pour robots humanoïdes capable de manipuler des objets avec une dextérité inédite, en intégrant le sens du toucher comme modalité centrale. Baptisé HTD (Humanoid Transformer with Touch Dreaming), ce modèle multimodal de type encodeur-décodeur Transformer combine la vision multi-caméras, la proprioception et la détection tactile pour permettre à un robot humanoïde d'accomplir des tâches nécessitant des contacts physiques complexes et fréquents. Testé sur cinq tâches réelles impliquant des manipulations délicates, HTD affiche une amélioration relative de 90,9 % du taux de succès moyen par rapport aux approches concurrentes les plus solides. L'enjeu central de ce travail est de résoudre l'un des défis les plus persistants de la robotique humanoïde : la coordination entre stabilité du corps entier, agilité des mains et conscience du contact physique. Dans les environnements réels, un robot qui saisit un objet fragile ou manipule un outil doit constamment ajuster sa prise en fonction des forces ressenties, une capacité que les systèmes purement visuels peinent à développer. Grâce à la technique du "touch dreaming", la politique apprise ne se contente pas de prédire des séquences d'actions, elle anticipe également les forces futures exercées par les articulations des mains et les états tactiles latents à venir, ce qui l'oblige à construire des représentations internes riches et sensibles au contact. Les expériences d'ablation confirment que cette prédiction dans l'espace latent est plus efficace que la prédiction brute des données tactiles, avec un gain relatif de 30 % supplémentaire en taux de succès. L'architecture repose sur un contrôleur de la partie basse du corps entraîné par apprentissage par renforcement, qui assure la stabilité posturale pendant les manipulations complexes. La collecte de données de démonstration s'effectue via un système de téléopération en réalité virtuelle qui intègre à la fois des mains dextères et des capteurs tactiles, permettant de recueillir des interactions riches en contact sans étape de pré-entraînement tactile séparée. Ce travail, dont les matériaux sont publiés en open source, s'inscrit dans une tendance plus large de la recherche en robotique visant à doter les humanoïdes de capacités sensori-motrices proches de celles des humains, condition indispensable avant un déploiement dans des environnements domestiques ou industriels non contrôlés.

RobotiqueOpinion
1 source