
GroundedPlanBench : planification de tâches longues horizon pour la manipulation robotique avec ancrage spatial
Les modèles de vision-langage (VLM) peinent à piloter des robots sur des tâches longues et complexes : générer un plan en langage naturel puis le traduire en actions concrètes en deux étapes distinctes crée des ambiguïtés et des hallucinations qui font échouer la chaîne de commandes. Des chercheurs proposent GroundedPlanBench, un benchmark inédit qui évalue la capacité des VLM à décider simultanément quoi faire et où le faire — ce qu'ils appellent la planification avec ancrage spatial.
L'enjeu dépasse la robotique académique. Si les systèmes actuels divisent raisonnement et localisation spatiale en modules séparés, les erreurs d'une étape se propagent inévitablement à la suivante. En forçant les modèles à ancrer chaque action sur une zone précise de l'image (une boîte délimitant l'objet à saisir ou l'endroit où le déposer), l'approche proposée vise à rendre les plans directement exécutables par un robot réel, sans couche d'interprétation supplémentaire.
GroundedPlanBench s'appuie sur 308 scènes issues du dataset DROID (Distributed Robot Interaction Dataset), un corpus de vidéos de robots en action. Les chercheurs en ont extrait 1 009 tâches structurées en quatre actions fondamentales — saisir, poser, ouvrir, fermer — rédigées en deux styles (instructions explicites ou implicites), avec des séquences allant de 1 à 26 actions. Pour entraîner les modèles, le framework V2GP (Video-to-Spatially Grounded Planning) automatise la création de données d'entraînement : il détecte les interactions robot-objet via les signaux de préhension, segmente les objets avec le modèle SAM3 de Meta, et reconstruit des plans ancrés spatialement — produisant ainsi 43 000 exemples annotés.
Les évaluations sur des VLM open- et closed-source confirment que la planification ancrée reste difficile pour les tâches longues, mais que V2GP améliore à la fois la précision des plans et la localisation spatiale, avec des gains validés en conditions réelles sur des robots physiques. Cette approche ouvre une voie vers des systèmes de manipulation robotique plus robustes, capables de traiter des consignes ambiguës dans des environnements non contrôlés.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




