Un nouveau framework de mémoire pour agents utilise 118K tokens par requête. LangMem en consomme 3,26M
Des chercheurs de la National University of Singapore ont présenté MRAgent, un nouveau cadre de gestion de la mémoire pour agents d'intelligence artificielle qui consomme environ 118 000 tokens par requête, contre 3,26 millions pour LangMem, l'un des frameworks concurrents. MRAgent abandonne l'approche classique dite « retrieve-then-reason », où un agent récupère passivement des documents puis les soumet à un grand modèle de langage. À la place, il introduit un mécanisme de reconstruction mémorielle dynamique, intégré directement dans le processus de raisonnement du LLM : l'agent explore activement un graphe de mémoire structuré, évalue des preuves intermédiaires à chaque étape et ajuste sa stratégie de recherche en temps réel, comme un enquêteur qui affine ses pistes au fil des découvertes.
L'enjeu est considérable pour quiconque déploie des agents IA sur des tâches longues et complexes. Les pipelines de récupération traditionnels souffrent de trois défauts majeurs : ils ne peuvent pas réviser leur stratégie en cours de raisonnement, ils inondent la fenêtre de contexte du modèle avec des résultats superficiellement similaires mais peu pertinents, et ils s'appuient sur des structures rigides comme les top-k résultats ou des fonctions de pertinence statiques. Ces limitations se traduisent concrètement par des agents qui oublient des détails cruciaux, hallucinent des connexions, ou explosent les coûts d'API à mesure que les conversations s'allongent. MRAgent réduit ce gaspillage d'un facteur proche de 28 par rapport à LangMem, ce qui représente une économie substantielle à l'échelle industrielle.
L'architecture repose sur un mécanisme baptisé « Cue-Tag-Content », un graphe associatif à trois niveaux : des indices fins comme des noms d'entités ou des attributs contextuels, des étiquettes sémantiques qui résument les relations entre ces indices et les contenus stockés, et enfin les unités mémorielles elles-mêmes, organisées en couches de granularité variable, mémoire épisodique pour les événements concrets, mémoire sémantique pour les faits stables et préférences utilisateur. Ce design s'inspire directement des neurosciences cognitives, où la récupération mémorielle est un processus actif et associatif plutôt qu'une simple lecture de base de données. Dans un secteur où les coûts d'inférence et la fiabilité des agents sur les tâches longues sont devenus des critères de sélection déterminants, MRAgent ouvre une voie concrète vers des systèmes à la fois plus précis et plus économiques.
Les développeurs et entreprises européens déployant des agents IA à grande échelle pourraient bénéficier d'une réduction substantielle des coûts d'inférence si MRAgent est intégré dans les frameworks disponibles, mais l'impact reste indirect à ce stade académique.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



