RobotiquearXiv cs.RO · 23 avr. 2026, 07:00· 2 min de lecture

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle

Des chercheurs ont publié VTOUCH, un nouveau jeu de données multimodal conçu pour améliorer la manipulation bimanuelles des robots, c'est-à-dire la capacité d'un robot à utiliser deux bras de manière coordonnée. Présenté sur arXiv (référence 2604.20444), ce dataset combine des capteurs tactiles basés sur la vision pour fournir des signaux d'interaction physique haute fidélité. Concrètement, ces capteurs permettent au robot de "sentir" les contacts et pressions lors de tâches complexes, comme assembler un objet ou manipuler des matériaux fragiles. La collecte des données s'appuie sur des pipelines automatisés couvrant des scénarios réels orientés par la demande, et l'organisation des tâches suit une structure matricielle pensée pour faciliter l'apprentissage systématique à grande échelle.

La manipulation bimanualle reste l'un des défis les plus ardus de la robotique incarnée, notamment parce que les tâches à fort contact physique exigent une coordination fine et des retours sensoriels précis que les datasets existants ne capturent pas suffisamment. VTOUCH répond directement à ce manque en intégrant des signaux tactiles riches là où la plupart des jeux de données se limitent à la vision ou aux données proprioceptives. Les expériences quantitatives menées sur la récupération cross-modale, ainsi que les évaluations sur robots réels, confirment l'efficacité du dataset. Plus important encore, les chercheurs ont démontré que les politiques entraînées sur VTOUCH se généralisent à plusieurs types de robots et plusieurs types de tâches, ce qui en fait un outil potentiellement mutualisable à travers l'industrie.

La robotique incarnée connaît une accélération notable depuis l'essor des grands modèles de langage et vision, des acteurs comme Google DeepMind, Figure AI ou Physical Intelligence investissant massivement dans des robots capables d'opérer dans des environnements non structurés. La manipulation bimanualle est un goulot d'étranglement reconnu : même les systèmes les plus avancés peinent à égaler la dextérité humaine dans des tâches d'assemblage ou de cuisine. VTOUCH s'inscrit dans une tendance plus large de constitution de datasets spécialisés de grande échelle, à l'image d'Open X-Embodiment, pour accélérer l'entraînement de politiques robotiques généralisables. La prochaine étape sera de voir si ce dataset est rendu public et adopté par la communauté au-delà du laboratoire d'origine.

Dans nos dossiers

Google DeepMind

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

FingerEye : capteur vision-tactile continu et unifié pour la manipulation dextère

Des chercheurs du laboratoire LINS de l'Université nationale de Singapour ont présenté FingerEye, un capteur robotique compact et peu coûteux capable de combiner vision et toucher de manière continue tout au long d'une interaction physique. Publié sur arXiv le 28 avril 2025, le système intègre deux caméras RGB binoculaires pour percevoir l'environnement à courte portée avant tout contact, puis capte les déformations d'un anneau souple instrumenté de marqueurs pour mesurer les forces et couples exercés au moment où le robot touche un objet. Cette architecture permet une transition fluide entre perception visuelle pré-contact et retour tactile post-contact, le tout dans un unique capteur monté sur les doigts d'un bras robotique. Les chercheurs ont également développé une politique d'apprentissage par imitation qui fusionne les signaux de plusieurs capteurs FingerEye pour apprendre des comportements de manipulation à partir d'un nombre limité de démonstrations réelles, en s'appuyant sur un jumeau numérique du système pour renforcer la généralisation. La majorité des capteurs tactiles existants, comme GelSight et ses variantes, ne fournissent de retour d'information qu'une fois le contact établi, ce qui empêche le robot d'ajuster sa trajectoire lors de l'approche. FingerEye supprime cette lacune en offrant une boucle de perception ininterrompue, ce qui améliore sensiblement la précision des gestes fins. Les expériences menées montrent que le système parvient à réaliser des tâches délicates variées : faire tenir une pièce de monnaie debout, saisir une chip individuelle, extraire une lettre d'une enveloppe ou manipuler une seringue, autant de scénarios qui exigent une coordination précise entre vue et toucher. La manipulation dextre reste l'un des problèmes les plus difficiles de la robotique, car elle suppose de gérer simultanément la localisation d'un objet et les forces exercées sur lui. La plupart des approches séparent ces deux modalités ou ne traitent qu'une phase de l'interaction. FingerEye s'inscrit dans un courant de recherche plus large visant à doter les robots de capteurs multimodaux proches des capacités sensorielles humaines. L'intégration d'un jumeau numérique permet par ailleurs de générer des données simulées enrichies visuellement pour améliorer la robustesse aux variations d'apparence des objets, réduisant ainsi la dépendance aux coûteuses démonstrations en conditions réelles. Le code, les fichiers de conception matérielle et les vidéos sont disponibles sur le site du projet.

RobotiqueActu

1 source

2arXiv cs.RO

Tube Diffusion Policy : apprentissage réactif visuo-tactile pour la manipulation riche en contacts

Des chercheurs ont présenté le Tube Diffusion Policy (TDP), un nouveau cadre d'apprentissage par imitation conçu pour la manipulation robotique en contact intense, c'est-à-dire les tâches où un robot doit saisir, pousser ou assembler des objets en gérant en permanence les incertitudes physiques. Publié sur arXiv (référence 2604.23609), TDP combine deux approches distinctes : les modèles génératifs à diffusion, qui ont récemment démontré de grandes capacités pour apprendre des comportements complexes, et le contrôle par tube, une méthode de rétroaction permettant de corriger les trajectoires en temps réel. Le système a été évalué sur le benchmark Push-T, largement utilisé dans la communauté robotique, ainsi que sur trois tâches additionnelles de manipulation dextère intégrant retour visuel et tactile. Sur l'ensemble de ces tests, TDP surpasse tous les modèles de référence de l'état de l'art, et deux expériences en conditions réelles confirment sa robustesse face aux perturbations extérieures et aux incertitudes de contact. L'apport concret de TDP réside dans sa capacité à réagir rapidement à des situations imprévues pendant l'exécution d'une tâche. Les approches dominantes reposent sur l'action chunking, qui consiste à planifier de longues séquences de mouvements à l'avance : efficace dans des environnements stables, cette méthode échoue dès qu'un contact inattendu ou une résistance physique surgit. TDP génère au contraire un "tube d'action", une enveloppe autour de la trajectoire nominale qui permet des micro-corrections continues à haute fréquence en s'appuyant sur les données tactiles et visuelles en temps réel. Le mécanisme de correction progressive réduit également le nombre d'étapes de débruitage nécessaires au modèle de diffusion, ce qui améliore significativement la vitesse d'inférence et rend le système compatible avec un contrôle robotique en boucle fermée rapide. Cette publication s'inscrit dans une dynamique de recherche intense autour des politiques de diffusion en robotique, initiée notamment par les travaux de Chi et al. sur Diffusion Policy en 2023. L'intégration du retour tactile reste un défi majeur du domaine : contrairement à la vision, le toucher impose une latence ultra-faible et une sensibilité aux perturbations millimétriques. TDP ouvre des perspectives pour des applications industrielles exigeantes comme l'assemblage de pièces fines, la chirurgie assistée ou les prothèses robotiques, où la réactivité au contact est critique. Les prochaines étapes probables incluent l'extension à des environnements plus complexes et la généralisation à de nouveaux types de capteurs tactiles.

RobotiqueOpinion

1 source

3arXiv cs.RO

Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle

Des chercheurs ont développé BiDemoSyn, un système capable de générer automatiquement des milliers de démonstrations d'entraînement pour des robots à deux bras à partir d'un seul exemple réel. Présenté dans un article publié sur arXiv (arXiv:2512.09297), le framework décompose chaque tâche en deux composantes : des blocs de coordination invariants, communs à toutes les exécutions, et des ajustements variables selon la forme et la position des objets manipulés. En combinant un alignement guidé par vision artificielle et une optimisation légère des trajectoires, le système produit des données d'entraînement riches en contacts physiques et réalistes, le tout en quelques heures, sans nécessiter des sessions répétées de téléopération humaine. Les expériences couvrent six tâches différentes impliquant deux bras robotiques simultanés. L'enjeu est considérable : entraîner des robots capables de manipuler des objets avec les deux mains de façon habile reste l'un des défis les plus difficiles de la robotique d'apprentissage par imitation. Jusqu'ici, les équipes devaient choisir entre la téléopération, précise mais extrêmement coûteuse en temps humain, et la simulation, scalable mais souvent déconnectée de la réalité physique. BiDemoSyn court-circuite ce compromis : les politiques entraînées sur ses données généralisent à de nouvelles poses et formes d'objets inédits, surpassant nettement les méthodes de référence existantes. Plus remarquable encore, ces politiques réalisent un transfert zéro-shot vers d'autres plateformes robotiques, sans réentraînement, grâce à une représentation centrée sur les objets et une action en six degrés de liberté découplée de la mécanique propre à chaque robot. Ce travail s'inscrit dans une course intense à la scalabilité des données robotiques, un goulot d'étranglement majeur qui freine le déploiement de robots polyvalents dans des environnements industriels et domestiques. Des acteurs comme Google DeepMind, Physical Intelligence ou Tesla Optimus investissent massivement dans cette problématique. BiDemoSyn propose une voie intermédiaire pragmatique : ancrer les données dans le réel dès la première démonstration, puis les amplifier algorithmiquement. L'extension naturelle en mode few-shot, également démontrée dans l'article, ouvre la perspective d'une diversification encore plus large avec un effort humain minimal, rapprochant l'apprentissage par imitation d'une industrialisation viable.

RobotiqueOpinion

1 source

4arXiv cs.RO

ETac : un framework léger de simulation tactile pour apprendre la manipulation dextère

Des chercheurs ont présenté ETac, un framework de simulation tactile conçu pour entraîner des robots manipulateurs dotés de capteurs tactiles à peau élastomère. Publié sur arXiv, ETac repose sur un modèle léger d'apprentissage automatique pour simuler la propagation des déformations lors des contacts, sans recourir aux coûteuses méthodes par éléments finis (FEM). Exécuté sur un seul GPU RTX 4090, le système supporte jusqu'à 4 096 environnements parallèles et atteint un débit total de 869 images par seconde. La politique de préhension entraînée avec ETac affiche un taux de réussite moyen de 84,45 % sur quatre types d'objets différents, sans aucune vision -- uniquement via le retour tactile large surface. Ce résultat est significatif car il lève l'un des principaux verrous du domaine : la simulation tactile haute fidélité est habituellement si coûteuse en calcul qu'elle empêche l'apprentissage par renforcement à grande échelle. ETac produit des estimations de déformation de surface comparables à celles obtenues par FEM, tout en étant suffisamment rapide pour l'entraînement massif de politiques robotiques. Pour les laboratoires et entreprises qui développent des robots manipulateurs -- en logistique, chirurgie assistée ou assemblage industriel -- cette approche ouvre la voie à des agents capables de saisir des objets variés et fragiles sans dépendre de caméras. La manipulation dextère reste l'un des défis les plus ardus de la robotique moderne, et le sens du toucher est reconnu depuis longtemps comme essentiel pour combler l'écart avec les capacités humaines. Les capteurs tactiles type GelSight ou DIGIT ont progressé rapidement ces dernières années, mais leur intégration dans des boucles d'apprentissage par renforcement butait sur l'absence de simulateurs rapides et réalistes. ETac s'inscrit dans un mouvement plus large visant à aligner simulation et réalité physique (sim-to-real transfer) pour les retours haptiques. Les prochaines étapes pourraient inclure le transfert de politiques vers des robots réels et l'extension à des scénarios de manipulation bimanuelle plus complexes.

RobotiquePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic