Aller au contenu principal
InCoM : perception guidée par l'intention et coordination structurée pour la manipulation mobile
RobotiquearXiv cs.RO2sem

InCoM : perception guidée par l'intention et coordination structurée pour la manipulation mobile

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs ont publié InCoM, un nouveau cadre algorithmique pour la manipulation mobile robotique, détaillé dans un préprint arXiv (2602.23024). La manipulation mobile désigne la capacité d'un robot à se déplacer dans l'espace tout en manipulant des objets avec son bras, une combinaison exigeante qui requiert la coordination simultanée d'une base motorisée et d'un effecteur. InCoM aborde ce problème sur deux fronts : d'un côté, un mécanisme de perception piloté par l'intention, qui infère dynamiquement les étapes motrices du robot pour redistribuer l'attention perceptuelle à différentes échelles ; de l'autre, un décodeur d'action à flux correspondant découplé, qui modélise explicitement la génération coordonnée des commandes base-bras sans les coupler directement. Testé sur trois scénarios du benchmark ManiSkill-HAB, InCoM surpasse les méthodes existantes avec des gains de taux de succès respectifs de 28,2 %, 26,1 % et 23,6 %, sans recours à des informations privilégiées. Ces performances ont également été confirmées sur des tâches réelles.

Ces résultats comptent parce que la manipulation mobile reste l'un des verrous majeurs de la robotique généraliste. Un robot capable de naviguer dans un appartement et d'y accomplir des tâches physiques complexes, comme ranger des objets ou préparer un repas, doit gérer en permanence des points de vue changeants et des conflits de commande entre sa locomotion et son bras. Les gains de plus de 20 points de pourcentage sur un benchmark de référence signalent une rupture méthodologique, pas une amélioration incrémentale, ce qui intéresse directement les industriels travaillant sur les robots domestiques et les systèmes logistiques autonomes.

La difficulté du couplage base-bras est connue depuis les premières architectures de robots mobiles manipulateurs dans les années 2010. Les approches récentes, souvent basées sur l'apprentissage par renforcement ou les transformers visuels, peinent encore à allouer efficacement l'attention perceptuelle quand la caméra du robot se déplace. InCoM répond à ce problème en introduisant une notion d'intention latente qui anticipe les phases de mouvement avant qu'elles ne surviennent. La validation sur environnements réels, souvent absente des travaux académiques, renforce la crédibilité du système. La prochaine étape probable sera l'intégration de ce cadre dans des plateformes robotiques commerciales comme celles de Figure AI, Boston Dynamics ou 1X Technologies, toutes engagées dans la course au robot domestique généraliste.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

FingerEye : capteur vision-tactile continu et unifié pour la manipulation dextère
1arXiv cs.RO 

FingerEye : capteur vision-tactile continu et unifié pour la manipulation dextère

Des chercheurs du laboratoire LINS de l'Université nationale de Singapour ont présenté FingerEye, un capteur robotique compact et peu coûteux capable de combiner vision et toucher de manière continue tout au long d'une interaction physique. Publié sur arXiv le 28 avril 2025, le système intègre deux caméras RGB binoculaires pour percevoir l'environnement à courte portée avant tout contact, puis capte les déformations d'un anneau souple instrumenté de marqueurs pour mesurer les forces et couples exercés au moment où le robot touche un objet. Cette architecture permet une transition fluide entre perception visuelle pré-contact et retour tactile post-contact, le tout dans un unique capteur monté sur les doigts d'un bras robotique. Les chercheurs ont également développé une politique d'apprentissage par imitation qui fusionne les signaux de plusieurs capteurs FingerEye pour apprendre des comportements de manipulation à partir d'un nombre limité de démonstrations réelles, en s'appuyant sur un jumeau numérique du système pour renforcer la généralisation. La majorité des capteurs tactiles existants, comme GelSight et ses variantes, ne fournissent de retour d'information qu'une fois le contact établi, ce qui empêche le robot d'ajuster sa trajectoire lors de l'approche. FingerEye supprime cette lacune en offrant une boucle de perception ininterrompue, ce qui améliore sensiblement la précision des gestes fins. Les expériences menées montrent que le système parvient à réaliser des tâches délicates variées : faire tenir une pièce de monnaie debout, saisir une chip individuelle, extraire une lettre d'une enveloppe ou manipuler une seringue, autant de scénarios qui exigent une coordination précise entre vue et toucher. La manipulation dextre reste l'un des problèmes les plus difficiles de la robotique, car elle suppose de gérer simultanément la localisation d'un objet et les forces exercées sur lui. La plupart des approches séparent ces deux modalités ou ne traitent qu'une phase de l'interaction. FingerEye s'inscrit dans un courant de recherche plus large visant à doter les robots de capteurs multimodaux proches des capacités sensorielles humaines. L'intégration d'un jumeau numérique permet par ailleurs de générer des données simulées enrichies visuellement pour améliorer la robustesse aux variations d'apparence des objets, réduisant ainsi la dépendance aux coûteuses démonstrations en conditions réelles. Le code, les fichiers de conception matérielle et les vidéos sont disponibles sur le site du projet.

RobotiqueActu
1 source
HANDFUL : manipulation dextre séquentielle conditionnée par la préhension et les ressources disponibles
2arXiv cs.RO 

HANDFUL : manipulation dextre séquentielle conditionnée par la préhension et les ressources disponibles

Des chercheurs ont publié le 29 avril 2026 sur arXiv un article présentant HANDFUL, un nouveau cadre d'apprentissage pour la manipulation dextère séquentielle par des robots à main articulée. L'idée centrale est de permettre à un robot d'effectuer plusieurs actions successives sur des objets, par exemple saisir un objet puis le pousser, le tirer ou appuyer dessus, sans relâcher sa prise initiale. Pour cela, HANDFUL modélise l'usage des doigts comme une ressource limitée et entraîne le robot à adopter des prises "économes" qui réservent des doigts disponibles pour les tâches suivantes. L'approche repose sur des récompenses de contact au niveau de chaque doigt et un apprentissage par curriculum. Les chercheurs ont également créé HANDFUL-Bench, un benchmark de simulation dédié aux tâches de manipulation dextère séquentielle sous contrainte de prise partagée, couvrant trois types de sous-tâches : pousser, tirer et presser. Le système a été validé en simulation et sur un robot physique équipé d'une main LEAP. Ce travail ouvre la voie à des robots capables de manipulations multitâches complexes, là où la quasi-totalité des recherches antérieures se limitait à des tâches mono-objet et mono-action. En pratique, la capacité à planifier une prise en anticipant les actions futures améliore significativement le taux de réussite des sous-tâches secondaires, ainsi que la robustesse globale du robot, par rapport à une approche naïve qui optimise chaque prise sans tenir compte de la suite. Pour l'industrie, cela représente une avancée concrète vers des bras robotiques capables d'enchaîner des gestes dans des environnements non structurés, comme l'assemblage, la logistique ou l'assistance à domicile. La manipulation dextère reste l'un des défis les plus difficiles de la robotique : les mains à plusieurs doigts sont mécaniquement complexes et difficiles à contrôler par apprentissage par renforcement. La plupart des approches existantes cherchent à optimiser une seule tâche à la fois, ignorant les contraintes imposées par les actions ultérieures. HANDFUL s'inscrit dans une tendance émergente qui pousse les robots vers une planification holistique de leurs ressources motrices. Les prochaines étapes naturelles incluront l'extension à des chaînes de tâches plus longues et à des objets plus variés, ainsi que le transfert depuis la simulation vers des robots réels dans des conditions non contrôlées.

RobotiqueActu
1 source
Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique
3arXiv cs.RO 

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper
1 source
VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle
4arXiv cs.RO 

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle

Des chercheurs ont publié VTOUCH, un nouveau jeu de données multimodal conçu pour améliorer la manipulation bimanuelles des robots, c'est-à-dire la capacité d'un robot à utiliser deux bras de manière coordonnée. Présenté sur arXiv (référence 2604.20444), ce dataset combine des capteurs tactiles basés sur la vision pour fournir des signaux d'interaction physique haute fidélité. Concrètement, ces capteurs permettent au robot de "sentir" les contacts et pressions lors de tâches complexes, comme assembler un objet ou manipuler des matériaux fragiles. La collecte des données s'appuie sur des pipelines automatisés couvrant des scénarios réels orientés par la demande, et l'organisation des tâches suit une structure matricielle pensée pour faciliter l'apprentissage systématique à grande échelle. La manipulation bimanualle reste l'un des défis les plus ardus de la robotique incarnée, notamment parce que les tâches à fort contact physique exigent une coordination fine et des retours sensoriels précis que les datasets existants ne capturent pas suffisamment. VTOUCH répond directement à ce manque en intégrant des signaux tactiles riches là où la plupart des jeux de données se limitent à la vision ou aux données proprioceptives. Les expériences quantitatives menées sur la récupération cross-modale, ainsi que les évaluations sur robots réels, confirment l'efficacité du dataset. Plus important encore, les chercheurs ont démontré que les politiques entraînées sur VTOUCH se généralisent à plusieurs types de robots et plusieurs types de tâches, ce qui en fait un outil potentiellement mutualisable à travers l'industrie. La robotique incarnée connaît une accélération notable depuis l'essor des grands modèles de langage et vision, des acteurs comme Google DeepMind, Figure AI ou Physical Intelligence investissant massivement dans des robots capables d'opérer dans des environnements non structurés. La manipulation bimanualle est un goulot d'étranglement reconnu : même les systèmes les plus avancés peinent à égaler la dextérité humaine dans des tâches d'assemblage ou de cuisine. VTOUCH s'inscrit dans une tendance plus large de constitution de datasets spécialisés de grande échelle, à l'image d'Open X-Embodiment, pour accélérer l'entraînement de politiques robotiques généralisables. La prochaine étape sera de voir si ce dataset est rendu public et adopté par la communauté au-delà du laboratoire d'origine.

RobotiqueActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour