RobotiquearXiv cs.RO3h

SPEAR-1 : dépasser les limites des démonstrations robotiques grâce à la compréhension 3D

Résumé IASource uniqueImpact UE Take éditorial

Des chercheurs de l'INSAIT ont présenté SPEAR-1, un modèle de fondation robotique capable de surpasser ou d'égaler des systèmes de pointe comme π0-FAST et π0.5 tout en utilisant vingt fois moins de démonstrations robotiques. Entraîné sur environ 45 millions de séquences vidéo issues de 24 jeux de données Open X-Embodiment, le modèle repose sur SPEAR-VLM, un modèle vision-langage doté d'une compréhension 3D capable de déduire les coordonnées spatiales d'objets à partir d'une simple image 2D. Les poids du modèle ainsi que les données annotées en 3D sont disponibles en accès libre sur spear.insait.ai.

L'enjeu central de SPEAR-1 est la généralisation : là où la plupart des modèles robotiques peinent à s'adapter à de nouveaux environnements ou de nouvelles tâches une fois leur entraînement terminé, SPEAR-1 y parvient avec une fraction des données habituellement nécessaires. Cette efficacité représente un gain considérable pour les équipes de recherche et les industriels : collecter des démonstrations robotiques est coûteux, lent et difficile à mettre à l'échelle. En substituant une partie de ces données par des images ordinaires annotées en 3D, les chercheurs ouvrent une voie beaucoup moins contraignante vers des robots polyvalents.

Le verrou que SPEAR-1 tente de lever est bien connu dans le domaine : les grands modèles vision-langage sur lesquels reposent aujourd'hui la plupart des systèmes robotiques ont été pré-entraînés sur des données 2D issues d'internet, sans capacité de raisonnement spatial en trois dimensions, pourtant indispensable pour agir dans le monde physique. Plutôt que de combler ce fossé en accumulant massivement des données robotiques, SPEAR-1 enrichit des images non robotiques avec des annotations 3D pour doter le modèle de base de cette compétence manquante. Cette approche s'inscrit dans une course mondiale à la robotique généraliste, où des acteurs comme Physical Intelligence, Google DeepMind et Figure AI investissent massivement pour créer des robots capables de s'adapter à des tâches variées sans reprogrammation.

Impact France/UE

INSAIT, institution européenne basée en Bulgarie, publie SPEAR-1 en open source, donnant aux chercheurs et industriels européens un accès direct à un modèle robotique de pointe nécessitant vingt fois moins de démonstrations que les systèmes concurrents.

💬 Le point de vue du dev

Le vrai problème de la robotique généraliste, c'est pas les modèles, c'est la data : collecter des démos robot coûte cher, ça prend du temps, et ça ne se met pas à l'échelle. SPEAR-1 contourne ça en substituant une bonne partie de ces démos par des images ordinaires annotées en 3D, et si ça tient hors du labo, c'est une avancée sérieuse pour des équipes qui n'ont pas les moyens de Physical Intelligence. Open source en plus, depuis l'Europe.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1arXiv cs.RO

Apprentissage des intentions humaines à partir de démonstrations massives pour la manipulation robotique

Des chercheurs ont publié MoT-HRA, un nouveau cadre d'apprentissage robotique capable d'extraire des intentions humaines à partir de vidéos brutes pour les transférer à des bras robotiques. Pour entraîner le système, l'équipe a constitué HA-2.2M, un jeu de données massif de 2,2 millions d'épisodes reconstruit à partir de vidéos hétérogènes d'humains en train de manipuler des objets. Ces données ont été traitées via un pipeline en quatre étapes : filtrage centré sur les mains, reconstruction spatiale 3D, segmentation temporelle et alignement avec du langage naturel. Le modèle décompose ensuite la manipulation en trois experts couplés : un expert vision-langage qui prédit une trajectoire 3D indépendante du corps, un expert d'intention qui modélise le mouvement de la main selon le format MANO comme prior latent, et un expert fin qui traduit cette représentation en séquences d'actions concrètes pour le robot. L'enjeu est de taille : les robots peinent aujourd'hui à généraliser leurs apprentissages hors des conditions d'entraînement, un problème connu sous le nom de "distribution shift". MoT-HRA améliore significativement la plausibilité des mouvements générés et la robustesse du contrôle précisément dans ces situations dégradées, là où les approches classiques échouent. En apprenant non pas ce que fait la main, mais pourquoi elle le fait, le système produit des comportements plus cohérents et transférables à différents robots sans nécessiter de réentraînement spécifique par plateforme. Ce travail s'inscrit dans une tendance forte de la robotique actuelle : exploiter les milliards d'heures de vidéos humaines disponibles sur internet pour former des politiques de contrôle sans recourir à des démonstrations téléopérées coûteuses. Le défi technique central est de séparer dans ces vidéos ce qui relève de l'intention (invariant au corps) de ce qui relève de la mécanique propre à chaque main ou bras. Le mécanisme de partage d'attention et de transfert clé-valeur en lecture seule utilisé dans MoT-HRA est une réponse architecturale directe à ce problème d'interférence. Les résultats sur des tâches réelles ouvrent la voie à des robots capables d'apprendre depuis YouTube autant que depuis un laboratoire.

RobotiquePaper

1 source

2arXiv cs.RO

Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle

Des chercheurs ont développé BiDemoSyn, un système capable de générer automatiquement des milliers de démonstrations d'entraînement pour des robots à deux bras à partir d'un seul exemple réel. Présenté dans un article publié sur arXiv (arXiv:2512.09297), le framework décompose chaque tâche en deux composantes : des blocs de coordination invariants, communs à toutes les exécutions, et des ajustements variables selon la forme et la position des objets manipulés. En combinant un alignement guidé par vision artificielle et une optimisation légère des trajectoires, le système produit des données d'entraînement riches en contacts physiques et réalistes, le tout en quelques heures, sans nécessiter des sessions répétées de téléopération humaine. Les expériences couvrent six tâches différentes impliquant deux bras robotiques simultanés. L'enjeu est considérable : entraîner des robots capables de manipuler des objets avec les deux mains de façon habile reste l'un des défis les plus difficiles de la robotique d'apprentissage par imitation. Jusqu'ici, les équipes devaient choisir entre la téléopération, précise mais extrêmement coûteuse en temps humain, et la simulation, scalable mais souvent déconnectée de la réalité physique. BiDemoSyn court-circuite ce compromis : les politiques entraînées sur ses données généralisent à de nouvelles poses et formes d'objets inédits, surpassant nettement les méthodes de référence existantes. Plus remarquable encore, ces politiques réalisent un transfert zéro-shot vers d'autres plateformes robotiques, sans réentraînement, grâce à une représentation centrée sur les objets et une action en six degrés de liberté découplée de la mécanique propre à chaque robot. Ce travail s'inscrit dans une course intense à la scalabilité des données robotiques, un goulot d'étranglement majeur qui freine le déploiement de robots polyvalents dans des environnements industriels et domestiques. Des acteurs comme Google DeepMind, Physical Intelligence ou Tesla Optimus investissent massivement dans cette problématique. BiDemoSyn propose une voie intermédiaire pragmatique : ancrer les données dans le réel dès la première démonstration, puis les amplifier algorithmiquement. L'extension naturelle en mode few-shot, également démontrée dans l'article, ouvre la perspective d'une diversification encore plus large avec un effort humain minimal, rapprochant l'apprentissage par imitation d'une industrialisation viable.

RobotiqueOpinion

1 source

3arXiv cs.RO

BridgeACT : relier les démonstrations humaines aux actions robotiques via les affordances outils-cibles unifiées

Des chercheurs ont présenté BridgeACT, un nouveau framework d'apprentissage robotique capable d'enseigner des gestes de manipulation à un robot uniquement à partir de vidéos humaines, sans aucune donnée de démonstration robotique. Publié sur arXiv (2604.23249), le système repose sur un concept central : l'affordance, soit la représentation de ce qu'un objet permet de faire et comment l'atteindre. BridgeACT décompose chaque tâche en deux sous-problèmes distincts : d'abord identifier où saisir un objet dans la scène, puis prédire comment se déplacer en 3D pour accomplir la manipulation. Ces affordances sont ensuite traduites en commandes exécutables par le robot via un module de préhension et un contrôleur de mouvement en boucle fermée. Les expériences conduites sur des tâches réelles montrent que BridgeACT surpasse les approches existantes et généralise à des objets, des scènes et des angles de vue inédits. L'enjeu est considérable : les vidéos humaines disponibles sur internet constituent une source d'apprentissage d'une richesse et d'une diversité incomparables, mais les convertir en comportements robotiques exploitables reste l'un des verrous majeurs du domaine. BridgeACT ouvre une voie concrète pour entraîner des robots sans passer par des phases coûteuses de collecte de données téléopérées ou de simulation robotique. Pour l'industrie, cela pourrait drastiquement réduire le temps et le coût de déploiement de robots dans de nouveaux environnements ou pour de nouvelles tâches. La robotique d'apprentissage par imitation se heurte depuis des années au problème du fossé entre l'observation humaine et l'exécution robotique. La plupart des approches actuelles, comme RT-2 ou ACT, exigent encore des volumes importants de démonstrations réalisées directement par des robots. BridgeACT s'inscrit dans une tendance plus large visant à exploiter les données humaines brutes, aux côtés de travaux comme Droid ou HumanPlus, mais se distingue par l'utilisation d'affordances comme représentation intermédiaire indépendante du corps (embodiment-agnostic). La prochaine étape sera de tester la robustesse du système sur des tâches plus complexes impliquant des chaînes de manipulation multi-étapes dans des environnements non contrôlés.

RobotiqueOpinion

1 source

4Ars Technica AI

GEN-1 : le modele robotique passe de 99 % de fiabilite, du pliage de cartons a la reparation d aspirateurs

La startup Generalist a dévoilé GEN-1, un modèle d'intelligence artificielle physique capable d'accomplir une large gamme de tâches manuelles avec un taux de fiabilité atteignant 99 %. Pliage de cartons, réparation d'aspirateurs, manipulation d'objets fragiles : autant de gestes qui nécessitaient jusqu'ici la dextérité propre aux mains humaines. GEN-1 se distingue également par sa capacité à improviser face aux imprévus, en combinant des connaissances issues de domaines différents pour résoudre des problèmes inédits en temps réel. Ce niveau de fiabilité marque un tournant dans la robotique industrielle. Atteindre les 99 % sur des tâches physiques variées, c'est franchir le seuil qui sépare un prototype de démonstration d'un système déployable en conditions réelles. Pour les entreprises manufacturières, logistiques ou de maintenance, cela ouvre la voie à une automatisation de tâches jusque-là réservées aux opérateurs humains, sans pour autant exiger des environnements ultra-contrôlés. L'impact potentiel touche aussi bien les chaînes d'assemblage que les services de réparation à domicile. GEN-1 s'appuie sur le modèle précédent de Generalist, GEN-0, présenté en novembre dernier comme une preuve de concept démontrant que les lois de mise à l'échelle -- bien connues dans le domaine des grands modèles de langage -- s'appliquent aussi à la robotique : plus de données et de calcul en pré-entraînement améliorent les performances post-entraînement. Mais contrairement aux LLM, qui ont pu s'alimenter de milliards de textes disponibles sur Internet, les modèles robotiques manquent de données sur la manipulation d'objets. Pour combler ce vide, Generalist a développé des "data hands", des pinces portables qui capturent les micro-mouvements et les informations visuelles lors de tâches manuelles réalisées par des humains. La société affirme avoir ainsi collecté plus d'un demi-million d'heures d'interactions physiques, représentant des pétaoctets de données d'entraînement.

RobotiqueActu

1 source