
BridgeACT : relier les démonstrations humaines aux actions robotiques via les affordances outils-cibles unifiées
Des chercheurs ont présenté BridgeACT, un nouveau framework d'apprentissage robotique capable d'enseigner des gestes de manipulation à un robot uniquement à partir de vidéos humaines, sans aucune donnée de démonstration robotique. Publié sur arXiv (2604.23249), le système repose sur un concept central : l'affordance, soit la représentation de ce qu'un objet permet de faire et comment l'atteindre. BridgeACT décompose chaque tâche en deux sous-problèmes distincts : d'abord identifier où saisir un objet dans la scène, puis prédire comment se déplacer en 3D pour accomplir la manipulation. Ces affordances sont ensuite traduites en commandes exécutables par le robot via un module de préhension et un contrôleur de mouvement en boucle fermée. Les expériences conduites sur des tâches réelles montrent que BridgeACT surpasse les approches existantes et généralise à des objets, des scènes et des angles de vue inédits.
L'enjeu est considérable : les vidéos humaines disponibles sur internet constituent une source d'apprentissage d'une richesse et d'une diversité incomparables, mais les convertir en comportements robotiques exploitables reste l'un des verrous majeurs du domaine. BridgeACT ouvre une voie concrète pour entraîner des robots sans passer par des phases coûteuses de collecte de données téléopérées ou de simulation robotique. Pour l'industrie, cela pourrait drastiquement réduire le temps et le coût de déploiement de robots dans de nouveaux environnements ou pour de nouvelles tâches.
La robotique d'apprentissage par imitation se heurte depuis des années au problème du fossé entre l'observation humaine et l'exécution robotique. La plupart des approches actuelles, comme RT-2 ou ACT, exigent encore des volumes importants de démonstrations réalisées directement par des robots. BridgeACT s'inscrit dans une tendance plus large visant à exploiter les données humaines brutes, aux côtés de travaux comme Droid ou HumanPlus, mais se distingue par l'utilisation d'affordances comme représentation intermédiaire indépendante du corps (embodiment-agnostic). La prochaine étape sera de tester la robustesse du système sur des tâches plus complexes impliquant des chaînes de manipulation multi-étapes dans des environnements non contrôlés.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




