GroundedPlanBench : planification de tâches longues horizon pour la manipulation robotique avec ancrage spatial
Des chercheurs ont publié **GroundedPlanBench**, un nouveau benchmark conçu pour évaluer la capacité des modèles de vision-langage (**VLM**) à planifier des séquences d'actions robotiques tout en déterminant précisément *où* chaque action doit s'effectuer dans l'espace. Le benchmark s'appuie sur **308 scènes de manipulation robotique** issues du dataset DROID, à partir desquelles des experts ont défini **1 009 tâches** allant de séquences courtes (1 à 4 actions) à des chaînes longues et complexes (jusqu'à 26 actions). Chaque tâche est formulée selon deux styles d'instruction : explicite ("poser une cuillère sur l'assiette blanche") ou implicite ("ranger la table"). Pour accompagner ce benchmark, l'équipe a également développé **V2GP** (Video-to-Spatially Grounded Planning), un framework qui convertit des vidéos de démonstration robotique en données d'entraînement spatialement ancrées, en exploitant notamment **SAM3**, le modèle de segmentation vidéo open-vocabulary de **Meta**, pour suivre les objets manipulés image par image. Ce processus a permis de générer **43 000 plans ancrés**.
L'enjeu est de taille : aujourd'hui, la plupart des systèmes robotiques fonctionnent en deux temps séparés — un VLM génère un plan en langage naturel, puis un second modèle le traduit en actions exécutables. Cette approche découplée introduit des erreurs en cascade, car le langage naturel reste **ambigu ou halluciné** lorsqu'il s'agit de préciser à la fois ce qu'il faut faire et à quel endroit. GroundedPlanBench force les modèles à traiter ces deux dimensions simultanément, ce que les VLMs actuels — qu'ils soient open-source ou propriétaires — peinent à faire sur des tâches longues. Les résultats montrent que l'approche de planification ancrée améliore à la fois le **taux de réussite des tâches** et la **précision des actions**, surpassant les architectures découplées aussi bien sur le benchmark qu'en conditions réelles avec de vrais robots.
Ce travail s'inscrit dans un mouvement plus large visant à doter les robots d'une compréhension spatiale fine du monde réel, au-delà de la simple compréhension sémantique. Les VLMs ont transformé la planification robotique en rendant possible l'interprétation d'instructions en langage naturel, mais **l'ancrage spatial** — savoir précisément sur quel objet agir et où le déposer — reste un verrou majeur pour les tâches du quotidien. En proposant à la fois un protocole d'évaluation standardisé et une méthode pour générer automatiquement des données d'entraînement à partir de vidéos de démonstration existantes, cette contribution pourrait **accélérer le développement de robots manipulateurs** capables d'opérer de façon autonome dans des environnements non contrôlés. Les prochaines étapes probables concerneront l'extension à des scènes encore plus dynamiques et à des instructions encore plus ambiguës, là où la frontière entre compréhension linguistique et raisonnement spatial est la plus ténue.

