
AsgardBench : un benchmark pour la planification interactive ancrée dans la vision
AsgardBench est un nouveau benchmark conçu pour évaluer une capacité précise et souvent négligée des agents IA incarnés : leur aptitude à réviser leurs plans d'action en fonction de ce qu'ils observent visuellement. Développé sur le simulateur AI2-THOR, il soumet les agents à 108 instances de tâches contrôlées réparties sur 12 types de tâches ménagères, où l'état des objets — propre ou sale, vide ou rempli — varie à chaque exécution, rendant toute planification rigide inopérante.
L'enjeu est fondamental pour le champ de l'IA incarnée (embodied AI) : la plupart des benchmarks existants mélangent navigation, perception et contrôle physique, rendant impossible l'isolation d'une compétence spécifique. AsgardBench tranche ce nœud en plaçant les agents directement en position d'interaction, sans qu'ils aient à naviguer dans l'espace. Seule une question compte : l'agent peut-il mettre à jour son plan quand la réalité perçue contredit ce qu'il anticipait ?
Le protocole est volontairement minimaliste. L'agent dispose d'un jeu d'actions restreint — find, pickup, put, clean, toggle_on/off — et reçoit à chaque tour uniquement des images couleur, un historique succès/échec de ses actions passées, et son propre plan en cours. Il propose une séquence complète à chaque étape, mais seule la première action s'exécute. Il doit alors réévaluer sa stratégie à la lumière des nouvelles observations. Un tapis roulant de café dans une tasse, un évier déjà encombré : autant de signaux visuels qui doivent déclencher une révision du plan, et non une exécution aveugle.
Ce design force une distinction nette entre les agents qui scriptent leurs actions à l'avance et ceux qui raisonnent réellement sur ce qu'ils perçoivent — une distinction que les benchmarks plus larges masquaient jusqu'ici. AsgardBench ouvre ainsi une voie rigoureuse pour mesurer le véritable ancrage visuel des systèmes de planification interactive.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




