Aller au contenu principal
RechercheMicrosoft Research7h· 2 min de lecture

Memora : une représentation mémorielle harmonique entre abstraction et précision

Source originale ↗·

Des chercheurs de Microsoft ont présenté Memora à la conférence ICML 2026, un système de mémoire scalable conçu pour les agents IA opérant sur des tâches longues durées. Publiés en open source sur GitHub sous le compte Microsoft, les travaux montrent que Memora établit de nouveaux records sur les benchmarks LoCoMo et LongMemEval, surpassant des systèmes existants comme Mem0, les approches RAG classiques et l'inférence en contexte complet, tout en consommant jusqu'à 98 % moins de tokens de contexte. Le principe central du système est de dissocier ce qui est stocké, c'est-à-dire un contenu riche et expressif comme une chronologie de projet ou une discussion multi-tours, de la manière dont ce contenu est récupéré, via une couche structurelle légère composée d'abstractions et d'ancres de rappel.

L'enjeu est considérable pour quiconque utilise ou développe des assistants IA dans des contextes professionnels. Les grands modèles de langage actuels sont fondamentalement apatrides : chaque session repart de zéro, chaque longue conversation oblige le modèle à relire l'intégralité de son historique, et chaque nouvelle information est soit stockée telle quelle sous forme de texte brut fragmenté, soit compressée en résumé vague qui efface les détails précis. Pour un copilote qui suit un projet pendant plusieurs mois, ou un agent de recherche qui accumule une expertise sur le long terme, cette absence de mémoire structurée est devenue le principal goulot d'étranglement. Memora résout ce problème en permettant à un agent de naviguer dans son propre historique sans tout relire, en consolidant les informations liées en unités stables et en restituant les détails fins uniquement quand ils sont pertinents.

Les approches existantes buttaient toutes sur la même contradiction fondamentale entre spécificité et abstraction. Les systèmes orientés fragmentation de contenu, comme RAG ou Mem0, préservent le détail mais produisent des entrées isolées qui perdent toute cohérence narrative. Les systèmes de compression résument l'expérience en blocs compacts mais sacrifient les contraintes, cas limites et chiffres précis qui rendent une mémoire réellement utile. Les systèmes à base de graphes comme Zep ou GraphRAG ajoutent de la structure mais restent dépendants d'ontologies rigides qui ne se généralisent pas d'un domaine à l'autre. Memora s'inscrit dans une dynamique plus large où l'industrie cherche à doter les agents autonomes d'une continuité cognitive réelle, condition nécessaire pour passer du chatbot ponctuel à l'assistant capable de gérer des missions complexes s'étalant sur des semaines ou des mois. La publication du code en open source suggère que Microsoft entend positionner ce système comme une brique fondamentale de l'écosystème d'agents IA en pleine structuration.

Impact France/UE

Les développeurs et laboratoires européens travaillant sur des agents IA à longue durée peuvent intégrer directement ce système open source pour améliorer la persistance mémorielle de leurs assistants.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision
1VentureBeat AI 

La compression de contexte devient viable en production : une nouvelle technique réduit les entrées des LLM par 16 sans perte de précision

Une équipe de chercheurs issue de six institutions américaines, NYU, Columbia, Princeton, l'Université du Maryland, Harvard et le Lawrence Livermore National Laboratory, a publié cette semaine un article présentant les Latent Context Language Models (LCLMs), une nouvelle famille de modèles encodeur-décodeur capables de compresser le contexte d'entrée avant qu'il n'atteigne le décodeur. Résultat : une réduction du contexte jusqu'à 16 fois, avec des sorties générées 8,8 fois plus rapidement que les méthodes actuelles de référence sur le benchmark RULER. À un taux de compression de 4x, la précision atteint 91,76 % contre 94,41 % sans compression, soit moins de 3 points de perte pour diviser la taille du contexte par quatre. À 16x, où 93,75 % des tokens d'entrée sont supprimés, la précision descend à 75,06 %, mais surpasse encore toutes les méthodes de compression KV cache testées au même ratio. L'architecture repose sur un encodeur de 0,6 milliard de paramètres couplé à un décodeur de 4 milliards, entraîné sur plus de 350 milliards de tokens. Les modèles sont disponibles en open source sur HuggingFace. Ce travail s'attaque à un goulot d'étranglement croissant dans les systèmes d'IA en production : plus un agent fonctionne longtemps, plus il accumule de tokens issus de documents récupérés, de traces de raisonnement et d'historique de conversation, et plus la mémoire et le calcul nécessaires explosent. Contrairement aux méthodes de compression KV cache dominantes, qui chargent quand même le cache complet avant d'en supprimer des entrées, les LCLMs compriment la séquence de tokens en amont, ce qui réduit directement la charge côté décodeur. « Notre objectif était d'entraîner des modèles de bout en bout capables de gérer des contextes très longs de manière efficace et précise. Si vous y parvenez, tout devient moins cher et plus rapide », explique Micah Goldblum, co-responsable du projet et chercheur à Columbia. Les gains se confirment aussi sur des entrées courtes : sur GSM8K, un benchmark de problèmes mathématiques, les LCLMs surpassent toutes les autres méthodes testées, quel que soit le taux de compression. La compression de contexte n'est pas un problème nouveau, mais la plupart des solutions existantes souffrent d'un compromis rédhibitoire en production : soit elles dégradent trop la précision, soit les économies de mémoire ne se traduisent pas en gains de vitesse réels dans les infrastructures de déploiement standard. Les LCLMs sont conçus pour s'intégrer directement dans une architecture agentique existante, il suffit de faire passer les documents récupérés par le compresseur avant de les injecter dans le contexte du modèle. L'équipe a également démontré comment construire des agents capables de décompresser sélectivement les passages pertinents, à la manière d'un lecteur qui parcourt rapidement un texte avant de zoomer sur les détails utiles. Avec la montée en puissance des systèmes d'agents longs et des pipelines RAG à grande échelle, ce type de compression en amont pourrait devenir une brique technique incontournable pour maîtriser les coûts d'inférence.

UELes startups et entreprises européennes développant des agents IA ou des pipelines RAG pourraient bénéficier indirectement de cette technique open source pour réduire leurs coûts d'inférence sans impact spécifique à la France ou à l'UE.

💬 Moins de 3 points de précision pour diviser le contexte par 4, c'est le compromis qu'on attendait pour que ça tienne en prod. Ce qui tranche avec les approches KV cache, c'est que la compression se fait en amont du décodeur : les gains se traduisent en vitesse réelle, pas juste en mémoire sur le papier. Si tu fais du RAG ou de l'agentique, ça vaut le détour sur HuggingFace cette semaine.

RecherchePaper
1 source
2VentureBeat AI 

Meta présente les 'hyperagents' pour une IA auto-améliorante sur des tâches non techniques

Des chercheurs de Meta et de plusieurs universités ont présenté un nouveau cadre d'agents autonomes baptisé "hyperagents", conçu pour surmonter les limites des systèmes d'IA auto-améliorants actuels. Contrairement aux architectures existantes, comme la Darwin Gödel Machine (DGM) de Sakana AI, qui ne fonctionnent efficacement que sur des tâches de programmation, les hyperagents peuvent réécrire et optimiser leur propre logique de résolution de problèmes dans des domaines non techniques comme la robotique, l'analyse documentaire ou la revue d'articles scientifiques. Le système est dit "entièrement autoréférentiel" : il peut analyser, évaluer et modifier n'importe quelle partie de lui-même sans contraintes liées à sa configuration initiale. Les hyperagents inventent de façon autonome des capacités génériques comme la mémoire persistante ou le suivi automatisé des performances, sans intervention humaine. L'enjeu est considérable pour les entreprises qui cherchent à déployer des agents IA dans des environnements de production réels, où les tâches sont imprévisibles et variables. Jusqu'ici, les systèmes auto-améliorants étaient bridés par un "meta-agent" statique, conçu par des ingénieurs humains et incapable d'évoluer plus vite que ces derniers ne pouvaient le maintenir. Jenny Zhang, co-auteure de l'article, résume le problème ainsi : "Chaque fois que quelque chose change ou se casse, une personne doit intervenir pour mettre à jour les règles ou la logique." Les hyperagents brisent ce "mur de maintenance" en découplant la capacité à améliorer les tâches de la capacité à modifier le code sous-jacent, deux compétences fondamentalement distinctes. Le résultat est un système qui non seulement s'améliore sur les tâches, mais optimise également le cycle d'auto-amélioration lui-même, accélérant les progrès de façon exponentielle avec moins de prompt engineering manuel. Ce travail s'inscrit dans une course plus large à l'automatisation de l'ingénierie des agents IA, un domaine en pleine effervescence depuis les succès de DGM sur les benchmarks de programmation en 2025. La DGM avait démontré qu'une amélioration récursive et ouverte était techniquement réalisable, mais uniquement lorsque la tâche elle-même était du code. Meta franchit une étape supplémentaire en généralisant ce principe à des domaines où l'évaluation des performances et la réécriture du comportement requièrent des compétences radicalement différentes, comme l'analyse textuelle subjective ou l'exploration de données métier. Si les hyperagents tiennent leurs promesses à l'échelle, ils pourraient réduire drastiquement la dépendance aux équipes d'ingénierie spécialisées pour adapter les agents à chaque nouveau contexte, ouvrant la voie à des systèmes véritablement capables de s'adapter seuls aux environnements d'entreprise en constante évolution.

RecherchePaper
1 source
SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires
3Apple Machine Learning 

SQUIRE : création interactive d'interfaces utilisateur par représentations intermédiaires

Des chercheurs ont présenté SQUIRE (Slot QUery Intermediate REpresentations), un nouveau système d'assistance à la création d'interfaces utilisateur conçu pour aider les développeurs front-end à prototyper plus efficacement. L'outil s'appuie sur l'IA générative mais introduit une couche intermédiaire structurée, les "slot queries", entre l'intention du développeur et le code produit, afin de rendre la génération plus prévisible et plus contrôlable. Le problème que SQUIRE cherche à résoudre est bien réel : les assistants IA actuels, qui fonctionnent via une interface de chat, offrent beaucoup de flexibilité mais peu de précision. Le langage naturel reste ambigu, et les modèles peuvent répondre de façon imprévisible, forçant les développeurs à itérer longuement avant d'obtenir un résultat satisfaisant. En introduisant des représentations intermédiaires explicites, SQUIRE permet à l'utilisateur de spécifier ses intentions de manière plus structurée, réduisant ainsi les allers-retours et accélérant le cycle de prototypage. Cette approche s'inscrit dans une tendance plus large de la recherche en interaction homme-machine : plutôt que de confier entièrement la génération à un modèle de langage via un prompt libre, on intercale des étapes de structuration qui préservent le contrôle humain. Des systèmes similaires ont émergé dans d'autres domaines de la génération de code, et SQUIRE applique ce principe au domaine spécifique des interfaces graphiques, où la précision visuelle et fonctionnelle est particulièrement exigeante. Les suites potentielles incluent une intégration dans des environnements de développement existants comme Figma ou VS Code.

RecherchePaper
1 source
Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision
4VentureBeat AI 

Metis d'Alibaba réduit les appels d'outils IA redondants de 98 % à 2 %, avec une meilleure précision

Des chercheurs d'Alibaba ont publié un cadre d'apprentissage par renforcement appelé HDPO (Hierarchical Decoupled Policy Optimization), conçu pour entraîner des agents IA à mieux décider quand utiliser des outils externes et quand s'appuyer sur leurs propres connaissances. Appliqué à leur modèle multimodal Metis, ce framework réduit les appels d'outils redondants de 98 % à seulement 2 %, tout en améliorant la précision sur les benchmarks de référence du secteur. L'enjeu est concret : les agents IA actuels ont tendance à invoquer systématiquement des utilitaires externes comme la recherche web ou l'exécution de code, même lorsque la question posée ne le nécessite pas. Chaque appel inutile crée un goulet d'étranglement de traitement séquentiel, alourdit les coûts d'API et injecte du bruit dans le contexte du modèle, ce qui dégrade la qualité du raisonnement final. Ce problème touche directement les entreprises qui déploient des agents IA en production : des systèmes techniquement capables deviennent lents et coûteux à opérer, sans que cela se traduise par de meilleures réponses. Les approches précédentes tentaient de corriger ce comportement en combinant précision et efficacité dans un seul signal de récompense, mais cette conception créait un dilemme d'optimisation insoluble. Une pénalité trop forte sur l'usage des outils rend le modèle trop conservateur et nuit à sa précision sur les tâches complexes, tandis qu'une pénalité trop faible ne change rien au comportement. Pire, ce signal mélangé crée une ambiguïté sémantique : une réponse incorrecte sans aucun appel d'outil pouvait obtenir la même récompense qu'une réponse correcte avec un usage excessif. HDPO résout ce paradoxe en séparant les deux objectifs dans des canaux d'optimisation indépendants. Le canal de précision maximise la justesse des réponses sur l'ensemble des rollouts, tandis que le canal d'efficacité minimise les appels superflus. Les deux signaux ne sont combinés qu'à la dernière étape du calcul de la perte, et surtout, l'efficacité reste conditionnelle à la précision : une réponse incorrecte n'est jamais récompensée simplement parce qu'elle a été rapide ou économe en appels. Cette décorrélation offre au modèle des gradients d'apprentissage propres pour chaque objectif, sans interférence. Alibaba s'inscrit dans une course intense au développement d'agents IA fiables et économiques, où la maîtrise du coût opérationnel est devenue aussi stratégique que la performance brute. HDPO représente une avancée méthodologique qui pourrait influencer la façon dont l'ensemble de l'industrie entraîne ses agents à instrumenter le monde extérieur avec discernement plutôt qu'automatisme.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic