Aller au contenu principal
RechercheVentureBeat AI1j· 2 min de lecture

Un nouveau framework de mémoire pour agents utilise 118K tokens par requête. LangMem en consomme 3,26M

Source originale ↗·

Des chercheurs de la National University of Singapore ont présenté MRAgent, un nouveau cadre de gestion de la mémoire pour agents d'intelligence artificielle qui consomme environ 118 000 tokens par requête, contre 3,26 millions pour LangMem, l'un des frameworks concurrents. MRAgent abandonne l'approche classique dite « retrieve-then-reason », où un agent récupère passivement des documents puis les soumet à un grand modèle de langage. À la place, il introduit un mécanisme de reconstruction mémorielle dynamique, intégré directement dans le processus de raisonnement du LLM : l'agent explore activement un graphe de mémoire structuré, évalue des preuves intermédiaires à chaque étape et ajuste sa stratégie de recherche en temps réel, comme un enquêteur qui affine ses pistes au fil des découvertes.

L'enjeu est considérable pour quiconque déploie des agents IA sur des tâches longues et complexes. Les pipelines de récupération traditionnels souffrent de trois défauts majeurs : ils ne peuvent pas réviser leur stratégie en cours de raisonnement, ils inondent la fenêtre de contexte du modèle avec des résultats superficiellement similaires mais peu pertinents, et ils s'appuient sur des structures rigides comme les top-k résultats ou des fonctions de pertinence statiques. Ces limitations se traduisent concrètement par des agents qui oublient des détails cruciaux, hallucinent des connexions, ou explosent les coûts d'API à mesure que les conversations s'allongent. MRAgent réduit ce gaspillage d'un facteur proche de 28 par rapport à LangMem, ce qui représente une économie substantielle à l'échelle industrielle.

L'architecture repose sur un mécanisme baptisé « Cue-Tag-Content », un graphe associatif à trois niveaux : des indices fins comme des noms d'entités ou des attributs contextuels, des étiquettes sémantiques qui résument les relations entre ces indices et les contenus stockés, et enfin les unités mémorielles elles-mêmes, organisées en couches de granularité variable, mémoire épisodique pour les événements concrets, mémoire sémantique pour les faits stables et préférences utilisateur. Ce design s'inspire directement des neurosciences cognitives, où la récupération mémorielle est un processus actif et associatif plutôt qu'une simple lecture de base de données. Dans un secteur où les coûts d'inférence et la fiabilité des agents sur les tâches longues sont devenus des critères de sélection déterminants, MRAgent ouvre une voie concrète vers des systèmes à la fois plus précis et plus économiques.

Impact France/UE

Les développeurs et entreprises européens déployant des agents IA à grande échelle pourraient bénéficier d'une réduction substantielle des coûts d'inférence si MRAgent est intégré dans les frameworks disponibles, mais l'impact reste indirect à ce stade académique.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM
1MarkTechPost 

MEMO : un framework modulaire pour entraîner un modèle de mémoire dédié sur de nouvelles connaissances sans modifier les paramètres du LLM

Une équipe de chercheurs de la National University of Singapore, du MIT CSAIL, d'A*STAR et de la Singapore-MIT Alliance for Research and Technology (SMART) a présenté MEMO (Memory as a Model), un cadre modulaire permettant d'intégrer de nouvelles connaissances dans un grand modèle de langage sans toucher à ses paramètres. L'approche repose sur deux composants distincts : un modèle mémoire dédié, Qwen2.5-14B-Instruct, entraîné spécifiquement sur un corpus cible, et un modèle exécutif figé, soit Qwen2.5-32B-Instruct soit Gemini-3-Flash, qui reste intact et n'est interrogé que via son interface standard. Le modèle mémoire est construit à partir d'un pipeline de synthèse de données en cinq étapes, piloté par un modèle générateur : extraction de faits explicites et inférés, consolidation de paires question-réponse, vérification de leur autonomie, révélation d'entités pour contourner la "malédiction de l'inversion" (où un modèle entraîné sur "A est B" échoue à déduire "B est A"), et enfin synthèse cross-documentaire reliant plusieurs sources. Cette dernière étape s'avère critique : la supprimer fait chuter la précision de 24,00 % à 6,37 % sur le benchmark NarrativeQA. MEMO s'attaque à un problème central : les grands modèles de langage sont figés après leur préentraînement et ne s'actualisent pas au fil des évolutions du monde. Les approches existantes peinent toutes sur un point ou un autre. La génération augmentée par récupération (RAG) est sensible au bruit dans les documents récupérés et échoue lorsque les réponses exigent un raisonnement à travers plusieurs sources. Le fine-tuning continu expose quant à lui au "catastrophic forgetting", où les nouvelles données dégradent les connaissances antérieures. MEMO contourne ces deux écueils en maintenant le modèle principal totalement intact et en traitant la connaissance comme une couche séparée. Les mises à jour de mémoire n'interfèrent jamais avec les capacités générales du modèle exécutif, et le même modèle mémoire peut théoriquement alimenter différents LLM, y compris propriétaires, sans accès à leurs poids ni à leurs logits. Ce travail s'inscrit dans un champ de recherche en pleine effervescence autour de la gestion du savoir dans les LLM. Depuis que des modèles comme GPT-4, Llama ou Mistral ont popularisé ces architectures à grande échelle, la question de leur mise à jour économique est devenue stratégique : réentraîner un LLM de plusieurs dizaines de milliards de paramètres coûte des millions de dollars. Les approches par mémoire latente existantes souffrent en outre d'un fort couplage à l'architecture qui les a générées, les rendant peu transférables d'un modèle à l'autre. MEMO propose une séparation nette entre mémoire et raisonnement, ouvrant la voie à des systèmes où la connaissance peut être mise à jour, remplacée ou spécialisée indépendamment du modèle central. Si les résultats se confirment à plus grande échelle et sur des corpus plus larges, ce type d'architecture modulaire pourrait redéfinir la façon dont les entreprises maintiennent leurs assistants IA à jour sans engager des coûts de réentraînement prohibitifs.

RecherchePaper
1 source
Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base
2VentureBeat AI 

Un nouveau framework permet aux agents IA de réécrire leurs propres compétences sans réentraîner le modèle de base

Des chercheurs de plusieurs universités ont publié Memento-Skills, un nouveau cadre technique qui permet à des agents IA d'améliorer leurs propres compétences de manière autonome, sans modifier ni réentraîner le modèle de langage sous-jacent. Contrairement aux approches classiques qui figent les capacités d'un agent après son déploiement, Memento-Skills fonctionne comme une mémoire externe évolutive : le système stocke des compétences sous forme de fichiers markdown structurés, chacun composé de trois éléments, une spécification déclarative, des instructions pour guider le raisonnement du modèle, et du code exécutable. Lorsqu'il rencontre une nouvelle tâche, l'agent interroge un routeur spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental, l'exécute, puis met à jour sa base de connaissances en fonction du résultat obtenu. Ce mécanisme, baptisé "Read-Write Reflective Learning", traite chaque exécution comme une itération active de politique plutôt qu'un simple journal de bord passif. L'enjeu est considérable pour les équipes qui déploient des agents en production. Aujourd'hui, adapter un agent à son environnement implique soit de fine-tuner les poids du modèle, une opération coûteuse en données et en temps, soit de concevoir manuellement de nouvelles compétences, ce qui exige un effort opérationnel permanent. Memento-Skills contourne ces deux obstacles. Le système corrige également un défaut majeur des architectures RAG classiques : la récupération par similarité sémantique. Un agent standard pourrait retrouver un script de "réinitialisation de mot de passe" pour résoudre une requête de "traitement de remboursement", simplement parce que les deux documents partagent du vocabulaire d'entreprise. Le routeur de Memento-Skills sélectionne au contraire la compétence la plus utile sur le plan comportemental, indépendamment de la proximité lexicale. Ce travail s'inscrit dans une réflexion plus large sur les limites des grands modèles de langage une fois déployés : leurs paramètres sont figés, et ils ne peuvent pas intégrer de nouvelles connaissances sans réentraînement. Plusieurs approches tentent d'y remédier, mémoire contextuelle, fine-tuning continu, bibliothèques de compétences manuelles, mais aucune ne combinait jusqu'ici apprentissage autonome, récupération comportementale et mise à jour réflexive en un seul système cohérent. Jun Wang, co-auteur du papier, positionne Memento-Skills comme un complément aux outils existants comme OpenClaw ou Claude Code. Si les résultats se confirment à plus grande échelle, ce type de cadre pourrait redéfinir la manière dont les agents IA évoluent en environnement réel, en déplaçant la charge d'adaptation des ingénieurs vers le système lui-même.

RecherchePaper
1 source
3MarkTechPost 

Alibaba lance VimRAG, un framework RAG multimodal avec graphe de mémoire pour les grands contextes visuels

Les chercheurs du Tongyi Lab d'Alibaba Group ont publié VimRAG, un nouveau cadre de travail conçu pour résoudre les limitations des systèmes de Retrieval-Augmented Generation (RAG) face aux données visuelles. Là où les approches classiques accumulent un historique linéaire croissant ou compriment les observations passées en résumés textuels, VimRAG modélise le raisonnement sous forme de graphe orienté acyclique dynamique. Chaque nœud du graphe encode une sous-requête décomposée, un résumé textuel concis, et une banque de tokens visuels extraits des documents ou vidéos récupérés. Le système a été évalué avec le modèle Qwen3-VL-30B sur un corpus vidéo, et trois études préliminaires ont guidé l'architecture finale. La méthode de mémoire visuelle sémantique sélective développée atteint 58,2 % de précision sur les tâches images et 43,7 % sur les tâches vidéo, en n'utilisant que 2 700 tokens en moyenne, contre 15 800 pour les approches retenant l'intégralité des tokens visuels bruts. Ces résultats sont significatifs car ils s'attaquent à deux problèmes fondamentaux qui paralysaient les agents RAG multimodaux jusqu'ici. Le premier est la "cécité d'état" : les agents qui résument itérativement leurs observations perdent la trace des requêtes déjà effectuées, ce qui les conduit à répéter les mêmes recherches dans des scénarios de raisonnement multi-étapes. Le second est le rapport signal/bruit : stocker les tokens visuels bruts noie l'information pertinente dans une masse de données inutiles. Le graphe de mémoire de VimRAG résout les deux problèmes simultanément, réduisant les actions de recherche redondantes tout en conservant les détails fins nécessaires à la vérification des réponses, une capacité critique pour des applications comme l'analyse de documents techniques ou la compréhension de vidéos longues. Le développement de VimRAG s'inscrit dans une course mondiale à la maîtrise du raisonnement multimodal, où les acteurs majeurs, OpenAI avec GPT-4o, Google avec Gemini, et Meta avec ses modèles Llama Vision, cherchent tous à aller au-delà de la simple compréhension d'images isolées vers un raisonnement complexe sur des corpus visuels massifs. Alibaba positionne ici Tongyi Lab comme un contributeur de premier plan à la recherche fondamentale en IA, après la sortie remarquée de la série Qwen3. La troisième composante de VimRAG porte sur l'entraînement par renforcement : les chercheurs ont montré qu'environ 80 % des étapes dans les trajectoires positives standard contiennent du bruit qui fausse les gradients d'apprentissage, et que supprimer les étapes redondantes des trajectoires négatives restaure entièrement les performances. L'article complet est disponible sur arXiv (2602.12735).

RecherchePaper
1 source
NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code
4MarkTechPost 

NVIDIA publie Polar, un framework de rollout GRPO fidèle aux tokens pour Codex, Claude Code et Qwen Code

NVIDIA a publié Polar, un framework de déploiement conçu pour entraîner des agents de langage par apprentissage par renforcement (RL) sans modifier les outils existants. Présenté dans un article de recherche disponible sur arXiv (2605.24220), Polar permet d'appliquer des algorithmes comme GRPO à des agents comme Codex CLI, Claude Code, Qwen Code ou Pi, en s'intercalant entre l'agent et le modèle de langage via un proxy réseau. Concrètement, un proxy intercepte chaque appel API entrant, détecte le format utilisé (Anthropic Messages, OpenAI Chat Completions, Google generateContent), normalise la requête, capture les tokens générés avec leurs probabilités logarithmiques, puis retourne la réponse dans le format attendu par l'agent. L'unique modification requise côté harness est de rediriger l'URL de base du modèle vers ce gateway. L'intérêt majeur de Polar est de préserver intégralement le comportement des outils d'agents en production lors de l'entraînement. Jusqu'ici, les infrastructures RL standard exigeaient de réécrire la logique interne de chaque harness derrière une API propriétaire (env.init(), env.step(), env.reset() à la manière d'OpenAI Gym), ce qui entraînait une perte de fidélité et un coût d'intégration élevé pour chaque nouvel outil. Avec Polar, les chercheurs peuvent entraîner un modèle sur les mêmes chemins d'exécution exacts que ceux utilisés en évaluation, ce qui réduit l'écart entre les performances mesurées et les performances réelles. Les évaluateurs intégrés couvrent des benchmarks comme SWE-Bench et SWE-Gym, et le système permet de récupérer des traces partielles même lorsqu'un agent dépasse son budget de temps après avoir effectué des appels modèles. L'architecture repose sur deux composants principaux : un serveur de rollout qui distribue des sessions parallèles à des noeuds gateway, et ces mêmes gateways qui gèrent l'intégralité du cycle de vie d'une session, du démarrage du runtime à l'évaluation de la sortie. Des pools de workers isolés gèrent les phases INIT, RUNNING et POSTRUN, tandis qu'un buffer READY maintient des runtimes préchauffés pour éviter de bloquer l'exécution GPU. Polar supporte Docker et Apptainer sans droits root, et propose des raccourcis natifs pour les principaux harnesses du marché. Cette approche s'inscrit dans une tendance plus large : les laboratoires et équipes de recherche cherchent à industrialiser l'entraînement RL sur des agents de codage complexes, capables de gérer des contextes longs et des orchestrations multi-agents. NVIDIA se positionne ainsi comme fournisseur d'infrastructure pour cette nouvelle génération de pipelines d'entraînement, à mesure que la frontière entre inférence et apprentissage continu s'estompe.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic