
STARRY : modélisation du monde centrée sur l'action spatio-temporelle pour la manipulation robotique
Des chercheurs ont publié sur arXiv (arXiv:2604.26848) un nouveau modèle de politique robotique appelé STARRY, conçu pour améliorer la manipulation d'objets en intégrant un module de prédiction spatiotemporelle directement dans la boucle de génération d'actions. L'architecture repose sur un débruitage conjoint de latents spatiotemporels futurs et de séquences d'actions, complété par un mécanisme baptisé Geometry-Aware Selective Attention Modulation (GASAM), qui convertit la profondeur prédite et la géométrie de l'effecteur terminal en poids d'attention alignés sur les tokens d'action. Sur le benchmark RoboTwin 2.0, STARRY atteint 93,82 % de taux de succès moyen en configuration propre (Clean) et 93,30 % en configuration aléatoire (Randomized). En conditions réelles, le modèle améliore le taux de succès de 42,5 % à 70,8 % par rapport à π0.5, la politique de référence de Physical Intelligence.
Ce résultat en conditions réelles mérite attention : le delta de +28,3 points sur π0.5 suggère que l'intégration explicite de la structure spatiotemporelle dans la politique, plutôt qu'en post-traitement, apporte un gain concret au-delà du benchmark simulé. Pour les intégrateurs et décideurs industriels, c'est un signal que le sim-to-real gap sur des tâches de manipulation précise reste un vrai verrou, et que les architectures VLA (Vision-Language-Action) classiques, sans modélisation de l'interaction future, plafonnent sur les scénarios à forte contrainte géométrique. La distinction entre prédire le monde et prédire ce qui est pertinent pour l'action semble être la clé ici, ce que STARRY formalise avec GASAM.
STARRY s'inscrit dans une compétition dense autour des politiques VLA pour la manipulation : π0 et π0.5 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA, et les travaux issus des labos de Stanford, CMU ou Berkeley. Le benchmark RoboTwin 2.0, utilisé comme terrain d'évaluation principal, est un environnement de simulation récent orienté tâches bimanuelles. Il convient de noter que cette publication est un preprint arXiv, sans revue par les pairs à ce stade, et que les expériences réelles décrites semblent limitées en nombre de tâches et de contextes. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks plus diversifiés comme LIBERO ou Open X-Embodiment, et une validation à plus grande échelle en environnement industriel réel.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




