Aller au contenu principal
Microsoft dévoile Phi-4-Raisonnement-Vision-15B : un modèle multimodal compact pour la compréhension des mathématiques, des sciences et des interfaces utilisateur
RechercheMarkTechPost15sem· 1 min de lecture

Microsoft dévoile Phi-4-Raisonnement-Vision-15B : un modèle multimodal compact pour la compréhension des mathématiques, des sciences et des interfaces utilisateur

Source originale ↗·

Microsoft a publié Phi-4-reasoning-vision-15B, un modèle multimodal de 15 milliards de paramètres pour comprendre des tâches d'image et de texte nécessitant à la fois la perception et le raisonnement sélectif. Il s'agit d'un modèle compact équilibrant la qualité de raisonnement, l'efficacité computationnelle et les besoins en données d'entraînement, avec une force particulière en raisonnement scientifique et mathématique, et en compréhension des interfaces utilisateur. Ce modèle combine la base de langage Phi-4-Reasoning avec l'encodeur visuel SigLIP-2, utilisant une architecture de fusion intermédiaire, préservant ainsi une forte raisonnement transmodal tout en maintenant des coûts d'entraînement et d'inférence gérables. Microsoft a opté pour un modèle plus petit pour réduire les latences et les coûts de déploiement, entraîné sur 200 milliards de jetons multimodaux, comparativement aux plus d'1 billions de jetons utilisés pour des modèles multimodaux récents. Une autre caractéristique est l'adoption d'un raisonnement mixte, permettant au modèle de passer entre deux modes, plutôt que d'imposer le raisonnement pour toutes les tâches.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
1MarkTechPost 

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source
NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial
2MarkTechPost 

NVIDIA présente SpatialClaw : un agent sans entraînement qui utilise le code comme interface pour le raisonnement spatial

Les chercheurs de NVIDIA ont publié SpatialClaw, un framework d'agent pour le raisonnement spatial qui ne nécessite aucun réentraînement des modèles. Testé sur 20 benchmarks couvrant cinq catégories de tâches visuelles (image unique, multi-vues, vidéo, 4D et compréhension vidéo générale), le système atteint 59,9 % de précision moyenne, soit 11,2 points de plus que SpaceTools, le précédent agent spatial de référence. SpatialClaw fonctionne comme une boucle agentique enveloppant un noyau Python persistant, pré-chargé avec les images d'entrée et un ensemble de primitives de perception. Deux outils sont au cœur du système : Reconstruct, qui s'appuie sur Depth Anything 3 pour produire cartes de profondeur, géométrie caméra et nuages de points, et SAM3, qui exploite SAM 3 pour générer des masques vidéo ou image à partir de texte ou de coordonnées. Le système a été évalué sur six architectures de modèles allant de 26 à 397 milliards de paramètres, issues des familles Qwen3 et Gemma4. Le vrai apport de SpatialClaw est moins dans ses outils que dans la manière dont l'agent les utilise. NVIDIA a comparé trois interfaces d'action sur les mêmes outils et le même prompt : code en passe unique (+1,8 point sur la baseline sans outil), appels structurés via schéma JSON (+3,3 points), et l'interface de SpatialClaw où le code lui-même est l'interface d'action (+6,5 points). La différence tient à la capacité d'inspection intermédiaire : plutôt que de soumettre un programme complet sans retour, l'agent observe les résultats partiels et révise sa stratégie en cours de route. Sur un exemple concret, mesurer la distance minimale entre un radiateur et une porte, l'agent corrige son premier calcul de centroïde en basculant vers scipy.spatial.KDTree, obtenant 0,9439 m contre une vérité terrain à 0,9 m. Les gains les plus importants apparaissent sur les tâches dynamiques : +17,6 points sur DSI-Bench et +15,3 sur MindCube avec le backbone Gemma4-31B. Le raisonnement spatial reste l'un des talons d'Achille des grands modèles vision-langage : localiser précisément des objets, estimer leurs relations géométriques et suivre leurs trajectoires dans un espace 3D dépasse les capacités actuelles de la plupart des VLM, quelle que soit leur taille. Les approches existantes comme VADAR ou pySpatial utilisaient toutes du code en passe unique ou des appels d'outils structurés, avec des résultats limités à respectivement 40,5 % et 47,8 % de moyenne. En traitant le code comme interface d'action native plutôt que comme sortie figée, NVIDIA propose une solution qui s'applique à n'importe quel modèle sans modifier ses poids, ce qui facilite l'adoption. Le framework est documenté sur le site du projet et représente un signal fort pour les applications robotiques, les véhicules autonomes et les systèmes d'assistance visuelle, où la précision géométrique est non négociable.

💬 Honnêtement, c'est plus intéressant que ça en a l'air. NVIDIA avec SpatialClaw, c'est une évolution concrète dans le raisonnement spatial. Le truc, c'est qu'ils ont su tirer parti du code comme interface d'action directe, pas juste comme sortie figée. Cela signifie que les agents peuvent s'ajuster en temps réel, corriger et améliorer leurs calculs grâce à une inspection intermédiaire. Sur des tâches dynamiques, les gains sont substantiels, ce qui montre qu'on touche quelque chose de pertinent pour les robots, les voitures autonomes et les systèmes d'aide visuelle où la précision est primordiale. C'est pas juste un ajout de performance, c'est une nouvelle manière de travailler avec l'IA.

RecherchePaper
1 source
DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire
3arXiv cs.RO 

DriVerse : un modèle de monde pour la simulation de conduite via des instructions multimodales et l'alignement de trajectoire

Des chercheurs ont présenté DriVerse, un modèle génératif capable de simuler des scènes de conduite réalistes à partir d'une seule image et d'une trajectoire future. Évalué sur deux jeux de données de référence dans le domaine, nuScenes et Waymo, DriVerse surpasse les modèles spécialisés existants sur les tâches de génération vidéo prospective, et ce avec un entraînement minimal et sans données supplémentaires. Le système prend en entrée une trajectoire 3D et la convertit selon deux représentations complémentaires : d'une part, en séquence de tokens textuels grâce à un vocabulaire de tendances prédéfini, permettant une intégration fluide avec les modèles génératifs de base ; d'autre part, en prior de mouvement spatial 2D pour mieux contrôler les éléments statiques de la scène. Un module léger d'alignement du mouvement complète l'architecture en renforçant la cohérence temporelle des objets dynamiques, piétons, véhicules, sur des séquences longues. Ce travail répond à une limite majeure des simulateurs de conduite autonome actuels : l'écart entre les signaux de contrôle fournis au modèle et ses représentations internes. Les approches précédentes injectaient directement des trajectoires brutes ou des commandes discrètes dans le pipeline de génération, ce qui produisait des vidéos peu fidèles, insuffisantes pour évaluer rigoureusement des algorithmes de conduite réelle. DriVerse comble ce fossé en rendant la trajectoire compréhensible au modèle génératif sous forme textuelle et spatiale simultanément, ce qui améliore sensiblement la qualité et la précision des scènes simulées. La simulation réaliste de scènes de conduite est un enjeu central pour accélérer le développement de la conduite autonome, car elle permet de tester des algorithmes dans des conditions variées sans recourir à des kilomètres de captation réelle, coûteuse et dangereuse. Les approches concurrentes, dont certaines issues de grands laboratoires, peinent à concilier fidélité vidéo et contrôle fin de la trajectoire. En publiant son code et ses modèles en accès libre, l'équipe derrière DriVerse ouvre la voie à une adoption large par la communauté de recherche, potentiellement accélérant les cycles d'itération pour des acteurs comme Waymo, Mobileye ou les constructeurs automobiles engagés dans la course à l'autonomie de niveau 4.

UELes laboratoires académiques et constructeurs européens spécialisés en conduite autonome (Renault, Stellantis, Valeo) peuvent intégrer ce modèle open-source pour réduire leur dépendance aux coûteuses collectes de données réelles.

RecherchePaper
1 source
PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils
4Apple Machine Learning 

PORTool : optimisation de politique avec arbre de récompenses pour le raisonnement multi-outils

Des chercheurs ont publié PORTool, un algorithme d'optimisation de politique dit "importance-aware" conçu pour améliorer l'entraînement des agents LLM capables d'utiliser plusieurs outils simultanément. Le système introduit un arbre de récompenses (rewarded tree) qui attribue des crédits à chaque étape intermédiaire d'un raisonnement, plutôt qu'uniquement à l'issue finale d'une tâche. Concrètement, lorsqu'un agent enchaîne des appels à des outils externes avant de produire une réponse, PORTool est capable de noter individuellement chaque décision prise en cours de route. Le problème central que PORTool cherche à résoudre est l'ambiguïté d'attribution de crédit, un obstacle persistant dans l'entraînement des agents multi-outils. Avec les méthodes classiques basées uniquement sur le résultat final, il est impossible de savoir quelles décisions intermédiaires ont contribué au succès ou à l'échec d'une séquence. Ce manque de granularité dégrade la qualité de l'apprentissage et rend les agents peu fiables en conditions réelles. PORTool offre un signal d'entraînement plus précis, ce qui devrait se traduire par des agents mieux capables de mobiliser les bons outils au bon moment. Le raisonnement multi-outils est devenu un enjeu central depuis l'essor des agents autonomes comme GPT-4 avec plugins, ou les architectures ReAct et ToolLLM. Ces systèmes montrent un potentiel considérable pour automatiser des tâches complexes en milieu professionnel, mais leur fiabilité dépend directement de la qualité de leur entraînement. PORTool s'inscrit dans une vague de travaux sur l'apprentissage par renforcement appliqué aux LLM, un domaine en pleine effervescence depuis les succès de DeepSeek-R1 et d'autres modèles à raisonnement renforcé.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic