Aller au contenu principal
BridgeACT : relier les démonstrations humaines aux actions robotiques via les affordances outils-cibles unifiées
RobotiquearXiv cs.RO6sem· 1 min de lecture

BridgeACT : relier les démonstrations humaines aux actions robotiques via les affordances outils-cibles unifiées

Source originale ↗·

Des chercheurs ont présenté BridgeACT, un nouveau framework d'apprentissage robotique capable d'enseigner des gestes de manipulation à un robot uniquement à partir de vidéos humaines, sans aucune donnée de démonstration robotique. Publié sur arXiv (2604.23249), le système repose sur un concept central : l'affordance, soit la représentation de ce qu'un objet permet de faire et comment l'atteindre. BridgeACT décompose chaque tâche en deux sous-problèmes distincts : d'abord identifier où saisir un objet dans la scène, puis prédire comment se déplacer en 3D pour accomplir la manipulation. Ces affordances sont ensuite traduites en commandes exécutables par le robot via un module de préhension et un contrôleur de mouvement en boucle fermée. Les expériences conduites sur des tâches réelles montrent que BridgeACT surpasse les approches existantes et généralise à des objets, des scènes et des angles de vue inédits.

L'enjeu est considérable : les vidéos humaines disponibles sur internet constituent une source d'apprentissage d'une richesse et d'une diversité incomparables, mais les convertir en comportements robotiques exploitables reste l'un des verrous majeurs du domaine. BridgeACT ouvre une voie concrète pour entraîner des robots sans passer par des phases coûteuses de collecte de données téléopérées ou de simulation robotique. Pour l'industrie, cela pourrait drastiquement réduire le temps et le coût de déploiement de robots dans de nouveaux environnements ou pour de nouvelles tâches.

La robotique d'apprentissage par imitation se heurte depuis des années au problème du fossé entre l'observation humaine et l'exécution robotique. La plupart des approches actuelles, comme RT-2 ou ACT, exigent encore des volumes importants de démonstrations réalisées directement par des robots. BridgeACT s'inscrit dans une tendance plus large visant à exploiter les données humaines brutes, aux côtés de travaux comme Droid ou HumanPlus, mais se distingue par l'utilisation d'affordances comme représentation intermédiaire indépendante du corps (embodiment-agnostic). La prochaine étape sera de tester la robustesse du système sur des tâches plus complexes impliquant des chaînes de manipulation multi-étapes dans des environnements non contrôlés.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique
1arXiv cs.RO 

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper
1 source
SPEAR-1 : dépasser les limites des démonstrations robotiques grâce à la compréhension 3D
2arXiv cs.RO 

SPEAR-1 : dépasser les limites des démonstrations robotiques grâce à la compréhension 3D

Des chercheurs de l'INSAIT ont présenté SPEAR-1, un modèle de fondation robotique capable de surpasser ou d'égaler des systèmes de pointe comme π0-FAST et π0.5 tout en utilisant vingt fois moins de démonstrations robotiques. Entraîné sur environ 45 millions de séquences vidéo issues de 24 jeux de données Open X-Embodiment, le modèle repose sur SPEAR-VLM, un modèle vision-langage doté d'une compréhension 3D capable de déduire les coordonnées spatiales d'objets à partir d'une simple image 2D. Les poids du modèle ainsi que les données annotées en 3D sont disponibles en accès libre sur spear.insait.ai. L'enjeu central de SPEAR-1 est la généralisation : là où la plupart des modèles robotiques peinent à s'adapter à de nouveaux environnements ou de nouvelles tâches une fois leur entraînement terminé, SPEAR-1 y parvient avec une fraction des données habituellement nécessaires. Cette efficacité représente un gain considérable pour les équipes de recherche et les industriels : collecter des démonstrations robotiques est coûteux, lent et difficile à mettre à l'échelle. En substituant une partie de ces données par des images ordinaires annotées en 3D, les chercheurs ouvrent une voie beaucoup moins contraignante vers des robots polyvalents. Le verrou que SPEAR-1 tente de lever est bien connu dans le domaine : les grands modèles vision-langage sur lesquels reposent aujourd'hui la plupart des systèmes robotiques ont été pré-entraînés sur des données 2D issues d'internet, sans capacité de raisonnement spatial en trois dimensions, pourtant indispensable pour agir dans le monde physique. Plutôt que de combler ce fossé en accumulant massivement des données robotiques, SPEAR-1 enrichit des images non robotiques avec des annotations 3D pour doter le modèle de base de cette compétence manquante. Cette approche s'inscrit dans une course mondiale à la robotique généraliste, où des acteurs comme Physical Intelligence, Google DeepMind et Figure AI investissent massivement pour créer des robots capables de s'adapter à des tâches variées sans reprogrammation.

UEINSAIT, institution européenne basée en Bulgarie, publie SPEAR-1 en open source, donnant aux chercheurs et industriels européens un accès direct à un modèle robotique de pointe nécessitant vingt fois moins de démonstrations que les systèmes concurrents.

💬 Le vrai problème de la robotique généraliste, c'est pas les modèles, c'est la data : collecter des démos robot coûte cher, ça prend du temps, et ça ne se met pas à l'échelle. SPEAR-1 contourne ça en substituant une bonne partie de ces démos par des images ordinaires annotées en 3D, et si ça tient hors du labo, c'est une avancée sérieuse pour des équipes qui n'ont pas les moyens de Physical Intelligence. Open source en plus, depuis l'Europe.

RobotiquePaper
1 source
Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir
3The Decoder 

Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir

Les World Action Models (WAM) constituent une nouvelle famille de modèles d'IA pour la robotique, documentée dans une étude récente qui recense et organise une centaine de publications scientifiques autour de deux grandes lignes architecturales. Contrairement aux systèmes actuels, ces modèles ne se contentent pas d'associer des mouvements à des images de caméra : ils simulent mentalement les conséquences d'une action avant de l'exécuter, en modélisant comment l'environnement va évoluer. L'enjeu est considérable pour le secteur. Les robots industriels et domestiques actuels restent fragiles face à l'imprévu, car leurs modèles n'ont aucune représentation interne de la physique du monde. Les WAM offrent une capacité de planification proactive : un bras robotique peut anticiper qu'attraper un objet d'une certaine façon le fera basculer, et corriger sa trajectoire avant même de bouger. Cela ouvre la voie à des robots beaucoup plus robustes et adaptables dans des environnements non contrôlés. L'avantage décisif de cette approche réside dans les données d'entraînement : les WAM peuvent apprendre à partir de vidéos ordinaires du monde réel, sans étiquetage des actions robotiques, un type de donnée qui était jusqu'ici quasi inutilisable pour les IA robotiques classiques. Cette propriété lève un verrou majeur, car les vidéos non annotées sont disponibles en quantité massive sur internet. La compétition entre laboratoires de recherche et géants de la tech pour maîtriser ce type de modèle devrait s'intensifier dans les prochains mois.

💬 Ce qui m'intéresse là-dedans, c'est pas le robot qui réfléchit avant de bouger, c'est qu'il peut apprendre à partir de vidéos ordinaires, sans annotation spécifique. Les données robotiques étiquetées coûtent une fortune à produire, les vidéos YouTube non, et il y en a des milliards d'heures. C'est le genre de verrou qui, une fois levé, accélère tout le reste.

RobotiqueOpinion
1 source
OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain
4arXiv cs.RO 

OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain

Des chercheurs ont présenté OmniUMI, un nouveau cadre d'apprentissage robotique conçu pour dépasser les limites des systèmes actuels en intégrant des données multimodales physiquement ancrées. Là où les interfaces de type UMI existantes se limitent à des observations visuelles RGB et des trajectoires, OmniUMI capture simultanément six types de données : images RGB, profondeur, trajectoire, retour tactile, force de préhension interne et couple d'interaction externe. Ce dispositif tient dans la main et maintient une cohérence entre la phase de collecte des démonstrations humaines et le déploiement sur le robot, grâce à une conception d'embodiment partagé. Les politiques apprises reposent sur une extension de la diffusion policy intégrant ces signaux visuels, tactiles et de force, déployée via une exécution à impédance pour réguler conjointement le mouvement et le contact. Les expériences valident le système sur des tâches comme le saisissement et le dépôt sensibles à la force, l'effacement de surface interactif, et le relâchement sélectif guidé par le toucher. La portée de cette avancée tient à un problème fondamental de la robotique : les tâches impliquant un contact physique riche, comme assembler des pièces fragiles, manipuler des objets déformables ou effectuer des gestes précis avec pression calibrée, restent hors de portée des systèmes purement visuels. La vision seule ne peut pas inférer la dynamique de contact, la force exercée, ni les micro-glissements tactiles. En permettant au démonstrateur humain de percevoir et moduler naturellement ces forces via un retour bilatéral du préhenseur, OmniUMI aligne la démonstration humaine sur la réalité physique du robot, rendant les données collectées directement exploitables. Le contexte est celui d'une course à la manipulation robotique généraliste, où des laboratoires et entreprises comme Google DeepMind, Physical Intelligence ou Boston Dynamics investissent massivement. Les interfaces UMI, popularisées ces dernières années pour leur facilité de collecte de données à grande échelle, butaient précisément sur ce mur du toucher et de la force. OmniUMI ouvre une voie vers des systèmes capables d'apprendre des tâches industrielles ou médicales où la précision physique est critique, tout en conservant le paradigme de démonstration humaine qui a fait le succès des approches d'imitation à grande échelle.

RobotiqueOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic