
Planification VLA à horizon étendu par conditionnement sur traces
Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint.
Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide.
Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.




