Aller au contenu principal
RechercheMarkTechPost5h· 2 min de lecture

NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial

Source originale ↗·

Les chercheurs de NVIDIA ont publié SpatialClaw, un framework d'agent pour le raisonnement spatial qui ne nécessite aucun réentraînement des modèles. Testé sur 20 benchmarks couvrant cinq catégories de tâches visuelles (image unique, multi-vues, vidéo, 4D et compréhension vidéo générale), le système atteint 59,9 % de précision moyenne, soit 11,2 points de plus que SpaceTools, le précédent agent spatial de référence. SpatialClaw fonctionne comme une boucle agentique enveloppant un noyau Python persistant, pré-chargé avec les images d'entrée et un ensemble de primitives de perception. Deux outils sont au cœur du système : Reconstruct, qui s'appuie sur Depth Anything 3 pour produire cartes de profondeur, géométrie caméra et nuages de points, et SAM3, qui exploite SAM 3 pour générer des masques vidéo ou image à partir de texte ou de coordonnées. Le système a été évalué sur six architectures de modèles allant de 26 à 397 milliards de paramètres, issues des familles Qwen3 et Gemma4.

Le vrai apport de SpatialClaw est moins dans ses outils que dans la manière dont l'agent les utilise. NVIDIA a comparé trois interfaces d'action sur les mêmes outils et le même prompt : code en passe unique (+1,8 point sur la baseline sans outil), appels structurés via schéma JSON (+3,3 points), et l'interface de SpatialClaw où le code lui-même est l'interface d'action (+6,5 points). La différence tient à la capacité d'inspection intermédiaire : plutôt que de soumettre un programme complet sans retour, l'agent observe les résultats partiels et révise sa stratégie en cours de route. Sur un exemple concret, mesurer la distance minimale entre un radiateur et une porte, l'agent corrige son premier calcul de centroïde en basculant vers scipy.spatial.KDTree, obtenant 0,9439 m contre une vérité terrain à 0,9 m. Les gains les plus importants apparaissent sur les tâches dynamiques : +17,6 points sur DSI-Bench et +15,3 sur MindCube avec le backbone Gemma4-31B.

Le raisonnement spatial reste l'un des talons d'Achille des grands modèles vision-langage : localiser précisément des objets, estimer leurs relations géométriques et suivre leurs trajectoires dans un espace 3D dépasse les capacités actuelles de la plupart des VLM, quelle que soit leur taille. Les approches existantes comme VADAR ou pySpatial utilisaient toutes du code en passe unique ou des appels d'outils structurés, avec des résultats limités à respectivement 40,5 % et 47,8 % de moyenne. En traitant le code comme interface d'action native plutôt que comme sortie figée, NVIDIA propose une solution qui s'applique à n'importe quel modèle sans modifier ses poids, ce qui facilite l'adoption. Le framework est documenté sur le site du projet et représente un signal fort pour les applications robotiques, les véhicules autonomes et les systèmes d'assistance visuelle, où la précision géométrique est non négociable.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs
1MarkTechPost 

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

Des chercheurs de Sakana AI et NVIDIA ont publié en mai 2026 un article accepté à ICML 2026 (arXiv:2603.23198) présentant TwELL, un nouveau format de calcul creux accompagné de noyaux CUDA dédiés, permettant d'accélérer les grands modèles de langage de 20,5 % à l'inférence et de 21,9 % à l'entraînement. Le travail cible les couches feedforward des transformeurs, qui concentrent plus des deux tiers des paramètres d'un modèle et consomment plus de 80 % des opérations flottantes totales. Le constat de départ est frappant : pour n'importe quel token traité, plus de 99 % des neurones cachés dans ces couches produisent une valeur nulle après la fonction d'activation. Cette sparsité dite "d'activation" existe donc à grande échelle, mais n'avait jusqu'ici jamais pu être exploitée efficacement sur GPU. L'impact potentiel est considérable pour l'ensemble de l'industrie du calcul IA. Les GPU NVIDIA sont architecturés pour des multiplications matricielles denses via les Tensor Cores, qui exigent de larges blocs de données contiguës. Les formats creux classiques comme ELLPACK nécessitaient un passage kernel supplémentaire pour convertir les activations du format dense au format creux, une surcharge qui annulait tout gain. Les travaux précédents de sparsité dans les LLM, notamment TurboSparse, ProSparse et Q-Sparse, ne traitaient que les opérations GEMV à un seul token, un cas marginal en production. TwELL résout le problème réellement difficile : les opérations GEMM batchées avec des milliers de tokens simultanés, qui correspondent à la fois à l'inférence à haut débit et à l'entraînement. Un gain de 20 % sur ces régimes se traduit directement par des économies massives en coût de calcul et en consommation électrique pour quiconque opère des modèles à l'échelle. L'innovation technique centrale de TwELL réside dans un découpage des colonnes en tuiles horizontales correspondant exactement à la taille de tuile T_n du kernel de multiplication matricielle. Les valeurs non nulles sont compactées localement dans chaque tuile, et cette construction s'effectue dans l'épilogue du kernel de projection existant, sans kernel supplémentaire, sans lecture mémoire additionnelle ni synchronisation entre blocs. À l'inférence, un seul kernel fusionné lit les activations au format TwELL et effectue les projections montante et descendante conjointement, évitant d'écrire l'état caché intermédiaire en mémoire globale et réduisant ainsi drastiquement le trafic DRAM. Pour l'entraînement, un format hybride route dynamiquement chaque ligne vers une matrice ELL compacte ou vers un bloc dense de secours selon le taux de sparsité local. Ce travail ouvre la voie à des optimisations architecturales profondes sans modifier les poids ni les architectures existantes, une direction que d'autres laboratoires devraient rapidement explorer.

RecherchePaper
1 source
Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %
2VentureBeat AI 

Des chercheurs automatisent la conception de stratégies de raisonnement pour LLM et réduisent l'utilisation de tokens de 69,5 %

Des chercheurs affiliés à Meta, Google et plusieurs universités ont publié AutoTTS, un cadre algorithmique capable de concevoir automatiquement des stratégies d'optimisation pour les grands modèles de langage au moment de l'inférence. Jusqu'ici, les ingénieurs devaient manuellement définir les règles régissant le raisonnement des modèles, quand explorer de nouvelles pistes, quand approfondir une réflexion existante, quand élaguer une branche peu prometteuse. AutoTTS remplace ce travail artisanal par un agent explorateur, typiquement un LLM comme Claude, qui teste et affine des politiques d'allocation de calcul de façon itérative. Dans les expérimentations menées par les chercheurs, cette approche a permis de réduire la consommation de tokens de 69,5 % sans perte de précision. L'enjeu est considérable pour les entreprises qui déploient des modèles de raisonnement en production. Le "test-time scaling" (TTS) consiste à accorder aux modèles des cycles de calcul supplémentaires à l'inférence, générer plusieurs chemins de raisonnement, voter par majorité sur la réponse, ou s'arrêter dès qu'un seuil de confiance est atteint. Ces stratégies sont coûteuses, et les réduire de 69,5 % sans sacrifier la qualité représente une économie opérationnelle directe et substantielle. Pour les organisations déployant ces modèles à grande échelle, c'est la différence entre une technologie économiquement viable et un budget calcul incontrôlable. Le TTS s'est imposé ces dernières années comme l'une des voies principales pour améliorer les performances des LLM sans passer par un réentraînement coûteux. Les méthodes existantes, self-consistency, adaptive-consistency, parallel-probe, partagent toutes le même défaut : elles sont conçues à la main, limitées par l'intuition humaine dans un espace de configurations potentielles immense. AutoTTS redéfinit le rôle de l'ingénieur : plutôt que de coder les règles elles-mêmes, il définit l'environnement de découverte (l'espace d'états, les objectifs d'optimisation, les mécanismes de feedback), et laisse le LLM explorateur trouver la politique optimale. Pour rendre cette recherche économiquement supportable, le cadre s'appuie sur un environnement de simulation hors ligne, évitant d'appeler le modèle cible à chaque itération. La publication ouvre la voie à une nouvelle catégorie d'outils où l'IA conçoit ses propres stratégies d'inférence, potentiellement adaptées dynamiquement selon le type de tâche ou le budget disponible.

UEUne réduction de 69,5% des tokens à l'inférence bénéficierait aux entreprises et institutions européennes déployant des LLMs en production, réduisant significativement leurs coûts opérationnels cloud.

RecherchePaper
1 source
Microsoft dévoile Phi-4-Raisonnement-Vision-15B : un modèle multimodal compact pour la compréhension des mathématiques, des sciences et des interfaces utilisateur
3MarkTechPost 

Microsoft dévoile Phi-4-Raisonnement-Vision-15B : un modèle multimodal compact pour la compréhension des mathématiques, des sciences et des interfaces utilisateur

Microsoft a publié Phi-4-reasoning-vision-15B, un modèle multimodal de 15 milliards de paramètres pour comprendre des tâches d'image et de texte nécessitant à la fois la perception et le raisonnement sélectif. Il s'agit d'un modèle compact équilibrant la qualité de raisonnement, l'efficacité computationnelle et les besoins en données d'entraînement, avec une force particulière en raisonnement scientifique et mathématique, et en compréhension des interfaces utilisateur. Ce modèle combine la base de langage Phi-4-Reasoning avec l'encodeur visuel SigLIP-2, utilisant une architecture de fusion intermédiaire, préservant ainsi une forte raisonnement transmodal tout en maintenant des coûts d'entraînement et d'inférence gérables. Microsoft a opté pour un modèle plus petit pour réduire les latences et les coûts de déploiement, entraîné sur 200 milliards de jetons multimodaux, comparativement aux plus d'1 billions de jetons utilisés pour des modèles multimodaux récents. Une autre caractéristique est l'adoption d'un raisonnement mixte, permettant au modèle de passer entre deux modes, plutôt que d'imposer le raisonnement pour toutes les tâches.

RechercheOutil
1 source
Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
4MarkTechPost 

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic