Aller au contenu principal
Concevoir un pipeline RLVR multimodal complet : Open-MM-RL, prompting vision-langage, scoring des récompenses et export GRPO
RechercheMarkTechPost5h

Concevoir un pipeline RLVR multimodal complet : Open-MM-RL, prompting vision-langage, scoring des récompenses et export GRPO

Résumé IASource uniqueImpact UE
Source originale ↗·

Un tutoriel publié récemment sur Hugging Face propose un pipeline complet pour entraîner des modèles de vision-langage par apprentissage par renforcement à récompenses vérifiables (RLVR). Le travail s'appuie sur le dataset TuringEnterprises/Open-MM-RL, accessible publiquement sur la plateforme, et couvre l'intégralité du workflow : chargement des données, analyse statistique du corpus, conception d'une fonction de récompense multicritère, formatage des prompts pour les modèles multimodaux, et export final au format GRPO. Le dataset regroupe des exemples annotés répartis en plusieurs domaines (mathématiques, sciences, raisonnement visuel) avec une ou plusieurs images par exemple, des questions de longueur variable et des réponses sous formats divers, numériques, fractions, LaTeX, expressions symboliques. Le tutoriel utilise notamment SmolVLM comme modèle de test pour valider les prompts construits sur des échantillons représentatifs.

L'intérêt principal de cette approche réside dans sa capacité à rendre le fine-tuning RLVR accessible sans infrastructure lourde. La fonction de récompense proposée gère cinq types de réponses différents, exact, numérique, fractionnaire, LaTeX et symbolique via sympy, ce qui permet d'évaluer automatiquement la justesse d'un modèle sur des tâches de raisonnement multimodal sans annotation humaine supplémentaire. Pour les équipes travaillant sur l'alignement ou l'amélioration de modèles vision-langage, disposer d'un tel pipeline structuré réduit considérablement le temps d'ingénierie nécessaire pour passer d'un dataset brut à une boucle d'entraînement fonctionnelle. L'export au format GRPO (Group Relative Policy Optimization) est particulièrement pertinent puisqu'il permet une intégration directe avec les frameworks d'entraînement modernes compatibles avec cette méthode.

Ce tutoriel s'inscrit dans une dynamique plus large initiée fin 2024 par DeepSeek-R1, qui a popularisé le GRPO comme alternative efficace au PPO classique pour le fine-tuning par renforcement des LLMs. Depuis, la communauté open-source s'emploie à reproduire et étendre ces résultats au domaine multimodal, où les benchmarks de raisonnement visuel restent plus difficiles à évaluer automatiquement qu'en texte pur. TuringEnterprises positionne Open-MM-RL comme une ressource de référence pour combler ce manque. Les prochaines étapes logiques incluent l'entraînement effectif d'un modèle via GRPO sur ce dataset, la comparaison avec des baselines supervisées, et l'extension à des domaines visuels plus complexes comme le raisonnement spatial ou la compréhension de graphiques scientifiques.

Impact France/UE

Les équipes de recherche et startups européennes travaillant sur les modèles vision-langage peuvent exploiter directement ce pipeline open-source hébergé sur Hugging Face pour réduire le temps d'ingénierie nécessaire au fine-tuning RLVR multimodal.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action
1MarkTechPost 

Comment créer un agent IA web guidé par la vision avec MolmoWeb-4B en utilisant une raisonnement multimodal et une prédiction d'action

Section 1: Les faits essentiels Dans cet article intitulé "Comment construire un agent AI pour le Web guidé par la vision avec MolmoWeb-4B en utilisant la raisonnement multimodal et la prédiction d'actions", l'auteur décrit comment mettre en place MolmoWeb, un agent multimodal open source développé par Ai2. Cet agent peut comprendre et interagir directement avec les sites web à partir de captures d'écran, sans dépendre du HTML ou du parsing DOM. L'auteur configure l'ensemble de l'environnement dans Google Colab, charge le modèle MolmoWeb-4B avec une quantification efficace en 4 bits et établit précisément la séquence de prompts qui permet au modèle de raisonner sur une tâche web et de prédire les actions du navigateur. Le modèle est testé sur des pages vides, des captures d'écran synthétiques de sites web, et des scénarios de navigation à plusieurs étapes pour comprendre comment les agents web basés sur des captures d'écran pensent, agissent et maintiennent le contexte entre les étapes. Section 2: Pourquoi c'est important Cette approche est significative car elle permet aux IA d'interagir avec le contenu web de manière plus intuitive, similaire à la façon dont les humains le font lorsqu'ils naviguent sur Internet. Cela ouvre des possibilités pour créer des assistants intelligents capables de suivre des instructions complexes en utilisant des captures d'écran ou des descriptions visuelles comme entrée, améliorant ainsi l'accessibilité et la facilité d'utilisation pour les utilisateurs ayant des difficultés avec les interfaces traditionnelles. De plus, comprendre le processus de pensée interne d'un tel agent peut contribuer au développement de nouvelles méthodes de raisonnement artificiel et à une meilleure interprétabilité des systèmes d'IA. Section 3: Le contexte Le contexte de cet article est l'avancement rapide dans le domaine des grands modèles de langage (Large Language Models - LLMs) et l'intérêt croissant pour les agents AI capables d'interagir avec des environnements externes, y compris le Web. MolmoWeb représente une étape importante dans ce domaine en combinant la vision par ordinateur et le traitement du langage naturel pour permettre aux IA de naviguer sur Internet à partir de captures d'écran plutôt que de code source. En résumé, cet article décrit un tutoriel pour configurer et utiliser MolmoWeb-4B, un agent web multimodal open source qui peut comprendre et interagir avec des sites web à partir de captures d'écran. Cette approche offre des avantages significatifs en termes de facilité d'utilisation et d'accessibilité pour les utilisateurs et contribue au développement de modèles plus interprétables et capables dans le domaine du traitement du langage naturel et de la vision par ordinateur.

UECet agent IA pourrait améliorer l'accessibilité des utilisateurs européens confrontés à des interfaces web complexes grâce à la navigation basée sur des captures d'écran.

RechercheActu
1 source
2MarkTechPost 

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Les chercheurs du Tongyi Lab d'Alibaba Group ont publié VimRAG, un nouveau cadre de travail conçu pour résoudre les limitations des systèmes de Retrieval-Augmented Generation (RAG) face aux données visuelles. Là où les approches classiques accumulent un historique linéaire croissant ou compriment les observations passées en résumés textuels, VimRAG modélise le raisonnement sous forme de graphe orienté acyclique dynamique. Chaque nœud du graphe encode une sous-requête décomposée, un résumé textuel concis, et une banque de tokens visuels extraits des documents ou vidéos récupérés. Le système a été évalué avec le modèle Qwen3-VL-30B sur un corpus vidéo, et trois études préliminaires ont guidé l'architecture finale. La méthode de mémoire visuelle sémantique sélective développée atteint 58,2 % de précision sur les tâches images et 43,7 % sur les tâches vidéo, en n'utilisant que 2 700 tokens en moyenne, contre 15 800 pour les approches retenant l'intégralité des tokens visuels bruts. Ces résultats sont significatifs car ils s'attaquent à deux problèmes fondamentaux qui paralysaient les agents RAG multimodaux jusqu'ici. Le premier est la "cécité d'état" : les agents qui résument itérativement leurs observations perdent la trace des requêtes déjà effectuées, ce qui les conduit à répéter les mêmes recherches dans des scénarios de raisonnement multi-étapes. Le second est le rapport signal/bruit : stocker les tokens visuels bruts noie l'information pertinente dans une masse de données inutiles. Le graphe de mémoire de VimRAG résout les deux problèmes simultanément, réduisant les actions de recherche redondantes tout en conservant les détails fins nécessaires à la vérification des réponses, une capacité critique pour des applications comme l'analyse de documents techniques ou la compréhension de vidéos longues. Le développement de VimRAG s'inscrit dans une course mondiale à la maîtrise du raisonnement multimodal, où les acteurs majeurs, OpenAI avec GPT-4o, Google avec Gemini, et Meta avec ses modèles Llama Vision, cherchent tous à aller au-delà de la simple compréhension d'images isolées vers un raisonnement complexe sur des corpus visuels massifs. Alibaba positionne ici Tongyi Lab comme un contributeur de premier plan à la recherche fondamentale en IA, après la sortie remarquée de la série Qwen3. La troisième composante de VimRAG porte sur l'entraînement par renforcement : les chercheurs ont montré qu'environ 80 % des étapes dans les trajectoires positives standard contiennent du bruit qui fausse les gradients d'apprentissage, et que supprimer les étapes redondantes des trajectoires négatives restaure entièrement les performances. L'article complet est disponible sur arXiv (2602.12735).

RecherchePaper
1 source
Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs
3arXiv cs.RO 

Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs

Des chercheurs ont publié une étude systématique sur le déploiement de modèles Vision-Language-Action (VLA) sur des accélérateurs matériels embarqués, une problématique centrale pour la robotique autonome à faible coût. Ces modèles, capables de combiner perception visuelle, compréhension du langage naturel et génération de commandes motrices, sont évalués jusqu'ici quasi exclusivement sur des GPU de bureau haut de gamme, ce qui masque les véritables compromis coût-performance des architectures embarquées. L'équipe a construit un tableau de comparaison multi-accélérateurs (GPU, XPU, NPU) en évaluant chaque combinaison modèle-matériel selon trois critères : coût, énergie consommée et temps d'inférence, regroupés sous l'acronyme CET. Résultat : des accélérateurs edge correctement dimensionnés se révèlent plus efficaces en coût et en énergie que des GPU phares, tout en respectant les contraintes de fréquence de contrôle requises par les robots en temps réel. L'étude apporte aussi un éclairage inédit sur le comportement interne de ces modèles lors de l'inférence. Les chercheurs ont identifié un schéma en deux phases répétable : un backbone VLM (le module vision-langage) limité par la puissance de calcul, suivi d'un module expert d'action limité par la bande passante mémoire. Cette alternance crée une sous-utilisation structurelle du matériel, source d'inefficacité. À partir de ce diagnostic, ils ont développé deux optimisations : DP-Cache, qui réduit les calculs redondants dans la diffusion, et V-AEFusion, qui introduit un parallélisme asynchrone entre les deux phases. Ces techniques permettent des accélérations allant jusqu'à 2,9x sur GPU et 6x sur NPU edge, avec une dégradation marginale des performances de contrôle. Ce travail s'inscrit dans une course plus large à l'embarquabilité des modèles d'IA généralistes dans les systèmes physiques. Les robots humanoïdes et mobiles de nouvelle génération, développés par des acteurs comme Figure, Physical Intelligence ou Boston Dynamics, font face à des contraintes énergétiques et économiques sévères dès lors qu'on les sort des laboratoires. L'approche de co-caractérisation modèle-matériel proposée ici offre un cadre méthodologique transposable, et le leaderboard public mis en ligne sur Vercel constitue une ressource ouverte pour orienter les prochains choix d'architecture dans l'IA incarnée.

UEAucune entité française ou européenne n'est directement impliquée, mais les équipes européennes de robotique autonome peuvent s'appuyer sur le leaderboard public et les optimisations en open source pour guider leurs choix d'architecture embarquée.

RecherchePaper
1 source
Microsoft dévoile Phi-4-Raisonnement-Vision-15B : un modèle multimodal compact pour la compréhension des mathématiques, des sciences et des interfaces utilisateur
4MarkTechPost 

Microsoft dévoile Phi-4-Raisonnement-Vision-15B : un modèle multimodal compact pour la compréhension des mathématiques, des sciences et des interfaces utilisateur

Microsoft a publié Phi-4-reasoning-vision-15B, un modèle multimodal de 15 milliards de paramètres pour comprendre des tâches d'image et de texte nécessitant à la fois la perception et le raisonnement sélectif. Il s'agit d'un modèle compact équilibrant la qualité de raisonnement, l'efficacité computationnelle et les besoins en données d'entraînement, avec une force particulière en raisonnement scientifique et mathématique, et en compréhension des interfaces utilisateur. Ce modèle combine la base de langage Phi-4-Reasoning avec l'encodeur visuel SigLIP-2, utilisant une architecture de fusion intermédiaire, préservant ainsi une forte raisonnement transmodal tout en maintenant des coûts d'entraînement et d'inférence gérables. Microsoft a opté pour un modèle plus petit pour réduire les latences et les coûts de déploiement, entraîné sur 200 milliards de jetons multimodaux, comparativement aux plus d'1 billions de jetons utilisés pour des modèles multimodaux récents. Une autre caractéristique est l'adoption d'un raisonnement mixte, permettant au modèle de passer entre deux modes, plutôt que d'imposer le raisonnement pour toutes les tâches.

RechercheOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour