NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial
Les chercheurs de NVIDIA ont publié SpatialClaw, un framework d'agent pour le raisonnement spatial qui ne nécessite aucun réentraînement des modèles. Testé sur 20 benchmarks couvrant cinq catégories de tâches visuelles (image unique, multi-vues, vidéo, 4D et compréhension vidéo générale), le système atteint 59,9 % de précision moyenne, soit 11,2 points de plus que SpaceTools, le précédent agent spatial de référence. SpatialClaw fonctionne comme une boucle agentique enveloppant un noyau Python persistant, pré-chargé avec les images d'entrée et un ensemble de primitives de perception. Deux outils sont au cœur du système : Reconstruct, qui s'appuie sur Depth Anything 3 pour produire cartes de profondeur, géométrie caméra et nuages de points, et SAM3, qui exploite SAM 3 pour générer des masques vidéo ou image à partir de texte ou de coordonnées. Le système a été évalué sur six architectures de modèles allant de 26 à 397 milliards de paramètres, issues des familles Qwen3 et Gemma4.
Le vrai apport de SpatialClaw est moins dans ses outils que dans la manière dont l'agent les utilise. NVIDIA a comparé trois interfaces d'action sur les mêmes outils et le même prompt : code en passe unique (+1,8 point sur la baseline sans outil), appels structurés via schéma JSON (+3,3 points), et l'interface de SpatialClaw où le code lui-même est l'interface d'action (+6,5 points). La différence tient à la capacité d'inspection intermédiaire : plutôt que de soumettre un programme complet sans retour, l'agent observe les résultats partiels et révise sa stratégie en cours de route. Sur un exemple concret, mesurer la distance minimale entre un radiateur et une porte, l'agent corrige son premier calcul de centroïde en basculant vers scipy.spatial.KDTree, obtenant 0,9439 m contre une vérité terrain à 0,9 m. Les gains les plus importants apparaissent sur les tâches dynamiques : +17,6 points sur DSI-Bench et +15,3 sur MindCube avec le backbone Gemma4-31B.
Le raisonnement spatial reste l'un des talons d'Achille des grands modèles vision-langage : localiser précisément des objets, estimer leurs relations géométriques et suivre leurs trajectoires dans un espace 3D dépasse les capacités actuelles de la plupart des VLM, quelle que soit leur taille. Les approches existantes comme VADAR ou pySpatial utilisaient toutes du code en passe unique ou des appels d'outils structurés, avec des résultats limités à respectivement 40,5 % et 47,8 % de moyenne. En traitant le code comme interface d'action native plutôt que comme sortie figée, NVIDIA propose une solution qui s'applique à n'importe quel modèle sans modifier ses poids, ce qui facilite l'adoption. Le framework est documenté sur le site du projet et représente un signal fort pour les applications robotiques, les véhicules autonomes et les systèmes d'assistance visuelle, où la précision géométrique est non négociable.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




