NVIDIA AI présente ASPIRE, un framework robotique auto-améliorant qui atteint 31% en zero-shot sur les tâches longues de LIBERO-Pro
Un consortium de chercheurs de NVIDIA, de l'université du Michigan, de l'UIUC, de UC Berkeley et de Carnegie Mellon a présenté ASPIRE (Agentic Skill Programming through Iterative Robot Exploration), un système d'apprentissage continu destiné à la robotique par code. Contrairement aux agents de codage robotique classiques, qui ne reçoivent qu'un retour grossier indiquant simplement l'échec ou la réussite d'une tâche, ASPIRE s'appuie sur un moteur d'exécution en boucle fermée capturant des traces multimodales détaillées pour chaque appel de perception, de planification et de contrôle: images RGB, superpositions visuelles, candidats de préhension, poses d'objets et résultats de planification de mouvement. Dans les tests en simulation, l'agent de codage utilisé est Claude Code avec Claude Opus 4.6 et une fenêtre de contexte d'un million de tokens, les programmes étant écrits dans CaP-X, un cadre open source basé sur MuJoCo Playground. L'agent n'a accès à aucune donnée privilégiée du simulateur: toute lecture directe de fichiers physiques ou d'assets comme les fichiers .bddl, .xml ou .urdf est interdite, seule l'information qu'un robot réel équipé d'une caméra pourrait obtenir étant autorisée. Sur le benchmark LIBERO-Pro pour les tâches longues, le système atteint 31% de réussite en zero-shot.
L'apport principal d'ASPIRE tient à sa capacité à transformer chaque échec en connaissance réutilisable plutôt qu'en information perdue. Une architecture coordinateur-acteurs orchestre plusieurs agents de codage qui n'échangent jamais l'historique complet de leurs conversations ni leurs trajectoires brutes, mais uniquement des compétences distillées et validées, stockées dans une bibliothèque centrale. Ces compétences prennent la forme de règles compactes comprenant une signature d'échec, une condition d'application et une stratégie de réparation, parfois accompagnée d'un exemple de code. Le coordinateur ne les admet qu'après validation par débogage et vérification de conformité à l'API. Concrètement, cela signifie qu'un robot confronté à sa centième tâche bénéficie de l'expérience accumulée sur les quatre-vingt-dix-neuf précédentes, contrairement aux systèmes actuels où chaque tâche repart de zéro. Pour l'industrie robotique, cela ouvre la voie à des flottes de robots capables de s'améliorer progressivement en production, réduisant le besoin de reprogrammation manuelle coûteuse à chaque nouvel échec rencontré sur le terrain.
Le défi de fond que résout ASPIRE est celui de la fragilité des systèmes de code-as-policy, où les modèles de langage composent des programmes robotiques exécutables à partir de perception multimodale, de dynamiques de contact physique et de configurations variées, un processus jusqu'ici difficile à faire passer à l'échelle. L'équipe illustre le mécanisme par un exemple concret tiré du benchmark BEHAVIOR-1K: un robot chargé de saisir une radio près d'une table échoue de manière répétée car la position cible se situe à environ vingt centimètres du bord de la table, à l'intérieur de la zone tampon d'évitement de collision, provoquant une erreur de planification du planificateur de mouvement cuRobo. En analysant la trace d'exécution, l'agent identifie que la cause est l'inaccessibité de la cible et non un problème de perception ou de préhension, puis génère une réparation en échantillonnant plusieurs poses de retrait autour de l'objet. Pour éviter que le système ne s'enferme dans des boucles de correction locales sur une même stratégie défaillante, ASPIRE intègre aussi une recherche évolutive proposant plusieurs programmes candidats à chaque itération, conditionnés sur les meilleures versions précédentes et leurs traces d'échec restantes, ce qui favorise l'exploration de stratégies véritablement distinctes plutôt que le simple raffinement d'une solution unique.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




