RechercheMarkTechPost13sem· 2 min de lecture

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Les chercheurs du Tongyi Lab d'Alibaba Group ont publié VimRAG, un nouveau cadre de travail conçu pour résoudre les limitations des systèmes de Retrieval-Augmented Generation (RAG) face aux données visuelles. Là où les approches classiques accumulent un historique linéaire croissant ou compriment les observations passées en résumés textuels, VimRAG modélise le raisonnement sous forme de graphe orienté acyclique dynamique. Chaque nœud du graphe encode une sous-requête décomposée, un résumé textuel concis, et une banque de tokens visuels extraits des documents ou vidéos récupérés. Le système a été évalué avec le modèle Qwen3-VL-30B sur un corpus vidéo, et trois études préliminaires ont guidé l'architecture finale. La méthode de mémoire visuelle sémantique sélective développée atteint 58,2 % de précision sur les tâches images et 43,7 % sur les tâches vidéo, en n'utilisant que 2 700 tokens en moyenne, contre 15 800 pour les approches retenant l'intégralité des tokens visuels bruts.

Ces résultats sont significatifs car ils s'attaquent à deux problèmes fondamentaux qui paralysaient les agents RAG multimodaux jusqu'ici. Le premier est la "cécité d'état" : les agents qui résument itérativement leurs observations perdent la trace des requêtes déjà effectuées, ce qui les conduit à répéter les mêmes recherches dans des scénarios de raisonnement multi-étapes. Le second est le rapport signal/bruit : stocker les tokens visuels bruts noie l'information pertinente dans une masse de données inutiles. Le graphe de mémoire de VimRAG résout les deux problèmes simultanément, réduisant les actions de recherche redondantes tout en conservant les détails fins nécessaires à la vérification des réponses, une capacité critique pour des applications comme l'analyse de documents techniques ou la compréhension de vidéos longues.

Le développement de VimRAG s'inscrit dans une course mondiale à la maîtrise du raisonnement multimodal, où les acteurs majeurs, OpenAI avec GPT-4o, Google avec Gemini, et Meta avec ses modèles Llama Vision, cherchent tous à aller au-delà de la simple compréhension d'images isolées vers un raisonnement complexe sur des corpus visuels massifs. Alibaba positionne ici Tongyi Lab comme un contributeur de premier plan à la recherche fondamentale en IA, après la sortie remarquée de la série Qwen3. La troisième composante de VimRAG porte sur l'entraînement par renforcement : les chercheurs ont montré qu'environ 80 % des étapes dans les trajectoires positives standard contiennent du bruit qui fausse les gradients d'apprentissage, et que supprimer les étapes redondantes des trajectoires négatives restaure entièrement les performances. L'article complet est disponible sur arXiv (2602.12735).

Dans nos dossiers

Alibaba Qwen3 OpenAI Gemini

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1VentureBeat AI

Un nouveau framework de mémoire pour agents utilise 118K tokens par requête. LangMem en consomme 3,26M

Des chercheurs de la National University of Singapore ont présenté MRAgent, un nouveau cadre de gestion de la mémoire pour agents d'intelligence artificielle qui consomme environ 118 000 tokens par requête, contre 3,26 millions pour LangMem, l'un des frameworks concurrents. MRAgent abandonne l'approche classique dite « retrieve-then-reason », où un agent récupère passivement des documents puis les soumet à un grand modèle de langage. À la place, il introduit un mécanisme de reconstruction mémorielle dynamique, intégré directement dans le processus de raisonnement du LLM : l'agent explore activement un graphe de mémoire structuré, évalue des preuves intermédiaires à chaque étape et ajuste sa stratégie de recherche en temps réel, comme un enquêteur qui affine ses pistes au fil des découvertes. L'enjeu est considérable pour quiconque déploie des agents IA sur des tâches longues et complexes. Les pipelines de récupération traditionnels souffrent de trois défauts majeurs : ils ne peuvent pas réviser leur stratégie en cours de raisonnement, ils inondent la fenêtre de contexte du modèle avec des résultats superficiellement similaires mais peu pertinents, et ils s'appuient sur des structures rigides comme les top-k résultats ou des fonctions de pertinence statiques. Ces limitations se traduisent concrètement par des agents qui oublient des détails cruciaux, hallucinent des connexions, ou explosent les coûts d'API à mesure que les conversations s'allongent. MRAgent réduit ce gaspillage d'un facteur proche de 28 par rapport à LangMem, ce qui représente une économie substantielle à l'échelle industrielle. L'architecture repose sur un mécanisme baptisé « Cue-Tag-Content », un graphe associatif à trois niveaux : des indices fins comme des noms d'entités ou des attributs contextuels, des étiquettes sémantiques qui résument les relations entre ces indices et les contenus stockés, et enfin les unités mémorielles elles-mêmes, organisées en couches de granularité variable, mémoire épisodique pour les événements concrets, mémoire sémantique pour les faits stables et préférences utilisateur. Ce design s'inspire directement des neurosciences cognitives, où la récupération mémorielle est un processus actif et associatif plutôt qu'une simple lecture de base de données. Dans un secteur où les coûts d'inférence et la fiabilité des agents sur les tâches longues sont devenus des critères de sélection déterminants, MRAgent ouvre une voie concrète vers des systèmes à la fois plus précis et plus économiques.

UELes développeurs et entreprises européens déployant des agents IA à grande échelle pourraient bénéficier d'une réduction substantielle des coûts d'inférence si MRAgent est intégré dans les frameworks disponibles, mais l'impact reste indirect à ce stade académique.

RecherchePaper

1 source

2MarkTechPost

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper

1 source

3Apple Machine Learning

Les grands modèles de langage comprennent-ils vraiment le contexte ?

Une équipe de chercheurs a publié un nouveau benchmark destiné à évaluer la capacité des grands modèles de langage (LLMs) à comprendre le contexte dans les textes en langage naturel. Ce travail, qui s'appuie sur l'adaptation de jeux de données existants, propose quatre tâches distinctes réparties sur neuf datasets, spécifiquement conçus pour tester les modèles génératifs plutôt que les architectures discriminatives traditionnelles. C'est l'une des premières initiatives à formaliser l'évaluation de la compréhension contextuelle comme discipline à part entière dans le domaine du traitement automatique du langage. La compréhension du contexte est fondamentale dans la communication humaine : un même mot ou une même phrase peut signifier des choses très différentes selon la situation, le registre ou les informations implicites partagées entre les interlocuteurs. Or, si les LLMs comme GPT-4 ou Claude sont évalués sur de nombreuses capacités linguistiques, cette dimension contextuelle restait jusqu'ici peu explorée de façon systématique. Ce benchmark comble ce manque et permettra aux équipes de recherche de mieux identifier les limites réelles de ces modèles face à des situations ambiguës ou implicites, ce qui a des implications directes pour les applications de chat, de résumé automatique ou d'assistance à la rédaction. La question de ce que "comprennent" réellement les LLMs anime le débat scientifique depuis l'émergence des architectures Transformer. Beaucoup de benchmarks actuels mesurent des performances sur des tâches bien délimitées, sans capturer la subtilité de l'interprétation contextuelle. En proposant un cadre d'évaluation dédié, ce travail pourrait influencer la façon dont les prochaines générations de modèles sont entraînées et comparées, en poussant l'industrie à intégrer la robustesse contextuelle comme critère de qualité à part entière.

RecherchePaper

1 source

4VentureBeat AI

Nouveau framework IA d'Alibaba : évite de charger tous les outils, réduit l'usage de tokens de 99%

Des chercheurs d'Alibaba ont développé SkillWeaver, un framework conçu pour résoudre le problème du routage d'outils dans les systèmes d'IA d'entreprise, où un agent peut disposer de centaines de compétences différentes et se retrouver incapable de choisir la bonne à chaque étape d'une tâche. Le système construit un graphe d'exécution pour chaque requête complexe et sélectionne les compétences adaptées à chaque nœud, via trois étapes baptisées Decompose, Retrieve et Compose. Les chercheurs y associent une technique appelée Skill-Aware Decomposition (SAD), qui utilise une boucle de rétroaction permettant à l'agent de récupérer et de vérifier itérativement les outils candidats, au lieu de les choisir en une seule fois comme le font la plupart des frameworks concurrents. Dans leurs expériences, cette approche de récupération et de routage a permis de réduire la consommation de tokens de plus de 99% par rapport à une méthode naïve exposant l'agent à l'intégralité de la bibliothèque d'outils, tout en améliorant sensiblement la précision des résultats. Pour les équipes qui construisent des agents IA en entreprise, l'enjeu est concret : exposer un LLM à une bibliothèque d'outils entière consomme rapidement des centaines de milliers de tokens et sature les limites de contexte, ce qui rend les architectures actuelles difficiles à faire passer à l'échelle. C'est particulièrement critique pour les écosystèmes construits autour du Model Context Protocol (MCP), où des agents orchestrent de façon autonome de multiples outils pour exécuter des opérations métier en plusieurs étapes, comme télécharger un jeu de données, le transformer, puis générer des rapports visuels. Selon les auteurs, le principal enseignement pour les praticiens est que la granularité du découpage des tâches constitue le véritable goulot d'étranglement pour une récupération d'outils précise, plus que la taille de la bibliothèque elle-même. Ce travail répond à une limite structurelle des approches existantes, qu'il s'agisse de récupération par API, de correspondance documentaire ou de structures hiérarchiques : elles traitent le routage comme un problème de sélection d'une seule compétence par étape, alors que les requêtes réelles sont par nature compositionnelles. Une demande classique comme "télécharger le jeu de données, le transformer et créer des rapports visuels" ne peut être satisfaite par un seul outil ; elle nécessite de décomposer la tâche, puis d'enchaîner un client API, un processeur de données et un outil de visualisation dans un plan cohérent. SkillWeaver formalise cette étape finale sous la forme d'un graphe orienté acyclique (DAG), qui cartographie les dépendances entre sous-tâches et permet, lorsque c'est possible, une exécution en parallèle des étapes indépendantes.

💬 99% de tokens en moins, ça sent le chiffre marketing calibré pour le titre. Le vrai enseignement est ailleurs : c'est la granularité du découpage des tâches qui bloque le routage d'outils, pas la taille de la bibliothèque, ce qui inverse pas mal d'hypothèses des équipes qui bricolent leurs agents MCP en ce moment. Bonne nouvelle sur le papier, mais reste à voir si ça tient avec des centaines d'outils réels en prod et pas juste sur un benchmark maison.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic