RobotiquearXiv cs.RO4h

BridgeACT : relier les démonstrations humaines aux actions robotiques via les affordances outils-cibles unifiées

Résumé IASource uniqueImpact UE

Des chercheurs ont présenté BridgeACT, un nouveau framework d'apprentissage robotique capable d'enseigner des gestes de manipulation à un robot uniquement à partir de vidéos humaines, sans aucune donnée de démonstration robotique. Publié sur arXiv (2604.23249), le système repose sur un concept central : l'affordance, soit la représentation de ce qu'un objet permet de faire et comment l'atteindre. BridgeACT décompose chaque tâche en deux sous-problèmes distincts : d'abord identifier où saisir un objet dans la scène, puis prédire comment se déplacer en 3D pour accomplir la manipulation. Ces affordances sont ensuite traduites en commandes exécutables par le robot via un module de préhension et un contrôleur de mouvement en boucle fermée. Les expériences conduites sur des tâches réelles montrent que BridgeACT surpasse les approches existantes et généralise à des objets, des scènes et des angles de vue inédits.

L'enjeu est considérable : les vidéos humaines disponibles sur internet constituent une source d'apprentissage d'une richesse et d'une diversité incomparables, mais les convertir en comportements robotiques exploitables reste l'un des verrous majeurs du domaine. BridgeACT ouvre une voie concrète pour entraîner des robots sans passer par des phases coûteuses de collecte de données téléopérées ou de simulation robotique. Pour l'industrie, cela pourrait drastiquement réduire le temps et le coût de déploiement de robots dans de nouveaux environnements ou pour de nouvelles tâches.

La robotique d'apprentissage par imitation se heurte depuis des années au problème du fossé entre l'observation humaine et l'exécution robotique. La plupart des approches actuelles, comme RT-2 ou ACT, exigent encore des volumes importants de démonstrations réalisées directement par des robots. BridgeACT s'inscrit dans une tendance plus large visant à exploiter les données humaines brutes, aux côtés de travaux comme Droid ou HumanPlus, mais se distingue par l'utilisation d'affordances comme représentation intermédiaire indépendante du corps (embodiment-agnostic). La prochaine étape sera de tester la robustesse du système sur des tâches plus complexes impliquant des chaînes de manipulation multi-étapes dans des environnements non contrôlés.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper

1 source

2arXiv cs.RO

SPEAR-1 : dépasser les limites des démonstrations robotiques grâce à la compréhension 3D

Des chercheurs de l'INSAIT ont présenté SPEAR-1, un modèle de fondation robotique capable de surpasser ou d'égaler des systèmes de pointe comme π0-FAST et π0.5 tout en utilisant vingt fois moins de démonstrations robotiques. Entraîné sur environ 45 millions de séquences vidéo issues de 24 jeux de données Open X-Embodiment, le modèle repose sur SPEAR-VLM, un modèle vision-langage doté d'une compréhension 3D capable de déduire les coordonnées spatiales d'objets à partir d'une simple image 2D. Les poids du modèle ainsi que les données annotées en 3D sont disponibles en accès libre sur spear.insait.ai. L'enjeu central de SPEAR-1 est la généralisation : là où la plupart des modèles robotiques peinent à s'adapter à de nouveaux environnements ou de nouvelles tâches une fois leur entraînement terminé, SPEAR-1 y parvient avec une fraction des données habituellement nécessaires. Cette efficacité représente un gain considérable pour les équipes de recherche et les industriels : collecter des démonstrations robotiques est coûteux, lent et difficile à mettre à l'échelle. En substituant une partie de ces données par des images ordinaires annotées en 3D, les chercheurs ouvrent une voie beaucoup moins contraignante vers des robots polyvalents. Le verrou que SPEAR-1 tente de lever est bien connu dans le domaine : les grands modèles vision-langage sur lesquels reposent aujourd'hui la plupart des systèmes robotiques ont été pré-entraînés sur des données 2D issues d'internet, sans capacité de raisonnement spatial en trois dimensions, pourtant indispensable pour agir dans le monde physique. Plutôt que de combler ce fossé en accumulant massivement des données robotiques, SPEAR-1 enrichit des images non robotiques avec des annotations 3D pour doter le modèle de base de cette compétence manquante. Cette approche s'inscrit dans une course mondiale à la robotique généraliste, où des acteurs comme Physical Intelligence, Google DeepMind et Figure AI investissent massivement pour créer des robots capables de s'adapter à des tâches variées sans reprogrammation.

UEINSAIT, institution européenne basée en Bulgarie, publie SPEAR-1 en open source, donnant aux chercheurs et industriels européens un accès direct à un modèle robotique de pointe nécessitant vingt fois moins de démonstrations que les systèmes concurrents.

💬 Le vrai problème de la robotique généraliste, c'est pas les modèles, c'est la data : collecter des démos robot coûte cher, ça prend du temps, et ça ne se met pas à l'échelle. SPEAR-1 contourne ça en substituant une bonne partie de ces démos par des images ordinaires annotées en 3D, et si ça tient hors du labo, c'est une avancée sérieuse pour des équipes qui n'ont pas les moyens de Physical Intelligence. Open source en plus, depuis l'Europe.

RobotiquePaper

1 source

3arXiv cs.RO

OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain

Des chercheurs ont présenté OmniUMI, un nouveau cadre d'apprentissage robotique conçu pour dépasser les limites des systèmes actuels en intégrant des données multimodales physiquement ancrées. Là où les interfaces de type UMI existantes se limitent à des observations visuelles RGB et des trajectoires, OmniUMI capture simultanément six types de données : images RGB, profondeur, trajectoire, retour tactile, force de préhension interne et couple d'interaction externe. Ce dispositif tient dans la main et maintient une cohérence entre la phase de collecte des démonstrations humaines et le déploiement sur le robot, grâce à une conception d'embodiment partagé. Les politiques apprises reposent sur une extension de la diffusion policy intégrant ces signaux visuels, tactiles et de force, déployée via une exécution à impédance pour réguler conjointement le mouvement et le contact. Les expériences valident le système sur des tâches comme le saisissement et le dépôt sensibles à la force, l'effacement de surface interactif, et le relâchement sélectif guidé par le toucher. La portée de cette avancée tient à un problème fondamental de la robotique : les tâches impliquant un contact physique riche, comme assembler des pièces fragiles, manipuler des objets déformables ou effectuer des gestes précis avec pression calibrée, restent hors de portée des systèmes purement visuels. La vision seule ne peut pas inférer la dynamique de contact, la force exercée, ni les micro-glissements tactiles. En permettant au démonstrateur humain de percevoir et moduler naturellement ces forces via un retour bilatéral du préhenseur, OmniUMI aligne la démonstration humaine sur la réalité physique du robot, rendant les données collectées directement exploitables. Le contexte est celui d'une course à la manipulation robotique généraliste, où des laboratoires et entreprises comme Google DeepMind, Physical Intelligence ou Boston Dynamics investissent massivement. Les interfaces UMI, popularisées ces dernières années pour leur facilité de collecte de données à grande échelle, butaient précisément sur ce mur du toucher et de la force. OmniUMI ouvre une voie vers des systèmes capables d'apprendre des tâches industrielles ou médicales où la précision physique est critique, tout en conservant le paradigme de démonstration humaine qui a fait le succès des approches d'imitation à grande échelle.

RobotiqueOpinion

1 source

4NVIDIA AI Blog

Semaine nationale de la robotique : dernières avancées en IA physique et ressources

À l'occasion de la Semaine nationale de la robotique aux États-Unis, NVIDIA met en avant ses avancées dans le domaine de l'intelligence artificielle physique, c'est-à-dire l'IA appliquée à des robots capables d'agir dans le monde réel. L'entreprise présente cette semaine une série de technologies couvrant la simulation, la génération de données synthétiques et l'apprentissage automatique pour robots, destinées aux développeurs qui souhaitent concevoir des machines autonomes opérationnelles dans des environnements complexes. L'enjeu est considérable : ces outils permettent de réduire drastiquement le temps nécessaire pour passer de l'entraînement en environnement virtuel au déploiement sur le terrain. Concrètement, un robot peut aujourd'hui apprendre à naviguer, saisir des objets ou réagir à des imprévus dans un simulateur NVIDIA avant d'être testé dans une usine, une serre agricole ou une centrale énergétique. Ce raccourci entre simulation et réalité est l'un des verrous techniques les plus critiques de la robotique industrielle. NVIDIA se positionne comme la colonne vertébrale de cette transition, en proposant des plateformes intégrées qui couvrent l'ensemble de la chaîne de développement robotique. La compétition dans ce secteur s'intensifie, avec des acteurs comme Boston Dynamics, Figure AI ou Agility Robotics qui cherchent eux aussi à industrialiser leurs solutions. La Semaine de la robotique sert ici de vitrine stratégique pour NVIDIA, qui entend s'imposer comme fournisseur incontournable d'infrastructure IA pour la prochaine génération de robots autonomes dans l'industrie, l'agriculture et l'énergie.

UELes plateformes de simulation et d'entraînement robotique de NVIDIA sont accessibles aux développeurs et industriels européens, mais cet événement est centré sur le marché américain sans impact direct sur la France/UE.

💬 Le vrai sujet ici, c'est pas la Semaine de la robotique, c'est NVIDIA qui s'impose discrètement comme le AWS de la robotique industrielle. La réduction du gap sim-to-real, c'est le verrou qui bloquait tout depuis des années, et là ils ont une vraie réponse technique. Reste à voir si les industriels européens vont jouer le jeu ou rester dépendants d'une stack américaine de plus.

RobotiqueActu

1 source