
Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme
Des chercheurs ont publié sur arXiv un nouveau cadre algorithmique, baptisé EEAgent (Evolvable Embodied Agent), conçu pour doter les robots d'une capacité d'adaptation continue sans nécessiter de réentraînement lourd. Le système s'appuie sur des modèles de vision et de langage (VLMs) de grande taille pour interpréter l'environnement et planifier les actions du robot. Sa pièce maîtresse est un mécanisme appelé LSTRO (Long Short-Term Reflective Optimization), qui affine dynamiquement les instructions en combinant les expériences passées et les leçons récemment apprises. Évalué sur six tâches du benchmark VIMA-Bench, EEAgent établit un nouvel état de l'art et surpasse significativement les systèmes concurrents, notamment dans les scénarios les plus complexes.
Ce travail s'attaque à un obstacle central de la robotique moderne : la généralisation. Les approches traditionnelles nécessitent des données d'entraînement massives et peinent à transférer leurs compétences d'une tâche à une autre, tout en restant difficiles à interpréter. EEAgent contourne ce problème en remplaçant le réentraînement par une réflexion structurée sur l'expérience accumulée, une approche analogue à ce qu'un opérateur humain ferait naturellement. La distinction court terme / long terme dans LSTRO permet au robot de ne pas simplement mémoriser ses erreurs récentes, mais d'en distiller des principes généraux réutilisables, améliorant les taux de réussite sur des tâches variées sans intervention humaine supplémentaire.
La course à la robotique généraliste s'est intensifiée ces dernières années, portée par des acteurs comme Boston Dynamics, Figure, Physical Intelligence ou Google DeepMind. Tous cherchent à créer des systèmes capables d'opérer dans des environnements non structurés sans reprogrammation constante. L'apprentissage par prompts, que EEAgent pousse plus loin avec LSTRO, s'affirme comme une alternative légère aux pipelines d'apprentissage par renforcement classiques, coûteux en calcul et en données. Si les résultats sur VIMA-Bench sont encourageants, la prochaine étape sera de valider ce type de système dans des environnements physiques réels, là où la robustesse et l'adaptabilité sont véritablement mises à l'épreuve.




