
Modèles VLA : éviter le verrouillage et préserver le contrôle lors de l'affinage avec peu de données
Des chercheurs ont publié sur arXiv un article présentant DeLock, une méthode destinée à résoudre un problème concret rencontré lors de l'entraînement de politiques robotiques dites "vision-langage-action" (VLA). Ces modèles, conçus pour contrôler des robots en combinant perception visuelle et instructions en langage naturel, perdent leur capacité à généraliser dès qu'on les affine sur un petit jeu de données. Le phénomène, baptisé "lock-in", se manifeste sous deux formes : le concept lock-in, où le modèle se fixe sur les objets ou attributs vus à l'entraînement, et le spatial lock-in, où il se cantonne aux positions spatiales rencontrées durant la phase de fine-tuning. DeLock combine la préservation de l'ancrage visuel pendant le post-entraînement avec un guidage contrastif appliqué au moment de l'inférence pour orienter dynamiquement la génération d'actions selon de nouvelles instructions. Sur huit évaluations en simulation et en conditions réelles, il surpasse les méthodes concurrentes et égale ou dépasse les performances d'une politique généraliste entraînée sur un volume de données nettement plus important.
Ce résultat est particulièrement significatif pour les équipes qui développent des robots polyvalents avec des budgets de données limités. Jusqu'ici, récupérer la généralisation perdue après un fine-tuning minimal exigeait soit des signaux de supervision supplémentaires issus de modèles fondationnels, soit des jeux de données augmentés, deux ressources coûteuses à produire. DeLock montre qu'il est inutile de chercher ailleurs : la connaissance pré-entraînée du modèle suffit, à condition de ne pas l'écraser pendant l'adaptation. Pour les développeurs d'applications robotiques industrielles ou domestiques, cela ouvre la voie à des déploiements spécialisés beaucoup plus accessibles, sans sacrifier la flexibilité face à des ordres inédits.
Le lock-in illustre une tension fondamentale en apprentissage automatique entre spécialisation et généralisation, particulièrement aiguë en robotique où collecter des démonstrations physiques est lent et onéreux. Les grandes politiques VLA généralistes comme OpenVLA ou pi0 ont montré que l'entraînement à grande échelle produit des agents capables de suivre des instructions variées, mais leur adaptation à des tâches précises reste fragile. DeLock s'inscrit dans un courant de recherche cherchant à rendre ces modèles à la fois spécialisables et robustes, une propriété indispensable si l'on veut déployer des robots utiles dans des environnements réels et changeants.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




