
SPEAR-1 : dépasser les limites des démonstrations robotiques grâce à la compréhension 3D
Des chercheurs de l'INSAIT ont présenté SPEAR-1, un modèle de fondation robotique capable de surpasser ou d'égaler des systèmes de pointe comme π0-FAST et π0.5 tout en utilisant vingt fois moins de démonstrations robotiques. Entraîné sur environ 45 millions de séquences vidéo issues de 24 jeux de données Open X-Embodiment, le modèle repose sur SPEAR-VLM, un modèle vision-langage doté d'une compréhension 3D capable de déduire les coordonnées spatiales d'objets à partir d'une simple image 2D. Les poids du modèle ainsi que les données annotées en 3D sont disponibles en accès libre sur spear.insait.ai.
L'enjeu central de SPEAR-1 est la généralisation : là où la plupart des modèles robotiques peinent à s'adapter à de nouveaux environnements ou de nouvelles tâches une fois leur entraînement terminé, SPEAR-1 y parvient avec une fraction des données habituellement nécessaires. Cette efficacité représente un gain considérable pour les équipes de recherche et les industriels : collecter des démonstrations robotiques est coûteux, lent et difficile à mettre à l'échelle. En substituant une partie de ces données par des images ordinaires annotées en 3D, les chercheurs ouvrent une voie beaucoup moins contraignante vers des robots polyvalents.
Le verrou que SPEAR-1 tente de lever est bien connu dans le domaine : les grands modèles vision-langage sur lesquels reposent aujourd'hui la plupart des systèmes robotiques ont été pré-entraînés sur des données 2D issues d'internet, sans capacité de raisonnement spatial en trois dimensions, pourtant indispensable pour agir dans le monde physique. Plutôt que de combler ce fossé en accumulant massivement des données robotiques, SPEAR-1 enrichit des images non robotiques avec des annotations 3D pour doter le modèle de base de cette compétence manquante. Cette approche s'inscrit dans une course mondiale à la robotique généraliste, où des acteurs comme Physical Intelligence, Google DeepMind et Figure AI investissent massivement pour créer des robots capables de s'adapter à des tâches variées sans reprogrammation.
INSAIT, institution européenne basée en Bulgarie, publie SPEAR-1 en open source, donnant aux chercheurs et industriels européens un accès direct à un modèle robotique de pointe nécessitant vingt fois moins de démonstrations que les systèmes concurrents.
Le vrai problème de la robotique généraliste, c'est pas les modèles, c'est la data : collecter des démos robot coûte cher, ça prend du temps, et ça ne se met pas à l'échelle. SPEAR-1 contourne ça en substituant une bonne partie de ces démos par des images ordinaires annotées en 3D, et si ça tient hors du labo, c'est une avancée sérieuse pour des équipes qui n'ont pas les moyens de Physical Intelligence. Open source en plus, depuis l'Europe.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




