OutilsMarkTechPost4h· 2 min de lecture

EverOS : runtime de mémoire open source pour agents, récupération hybride BM25/vectorielle et compétences auto-évolutives

EverMind a publié EverOS, un moteur de mémoire open source pour agents IA, sous licence Apache 2.0. Le projet s'attaque à un problème fondamental des grands modèles de langage : leur absence d'état persistant. Dès qu'une conversation se termine, le contexte disparaît. EverOS propose une approche différente : plutôt que d'enfermer la mémoire dans une base de données vectorielle opaque, il stocke chaque souvenir sous forme de fichiers Markdown ordinaires. Ces fichiers deviennent la source de vérité que les agents lisent, modifient et interrogent entre les sessions. La bibliothèque Python s'appuie sur une pile de stockage en trois couches : Markdown comme source canonique, SQLite pour la gestion des états et des files d'attente, et LanceDB pour les vecteurs et les index. La récupération est hybride : une seule requête LanceDB combine la recherche par mots-clés BM25, la recherche vectorielle dense et un filtrage scalaire, ce que l'équipe nomme mRAG. Les performances annoncées par EverMind sont de 93,05 % sur le benchmark LoCoMo, 83,00 % sur LongMemEval, et une latence p95 inférieure à 500 ms.

Ce que change EverOS pour les développeurs d'agents, c'est avant tout l'inspectabilité et la portabilité. Les fichiers .md peuvent être ouverts dans n'importe quel éditeur, versionnés avec Git, ou consultés dans Obsidian. Il n'y a pas besoin de MongoDB, Elasticsearch, Milvus, Redis ou Kafka, ce qui réduit considérablement le coût opérationnel pour les développeurs indépendants et les petites équipes. L'architecture distingue deux pistes mémoire : côté utilisateur, des Profils, Épisodes, Faits et Prévisions ; côté agent, des Cas et des Compétences. Cette séparation est rare dans les bibliothèques concurrentes qui se concentrent généralement sur l'historique de chat. La mémoire procédurale est la fonctionnalité la plus distinctive : EverOS enregistre chaque tâche complétée comme un Cas, puis distille offline les patterns réussis en Compétences réutilisables partagées entre agents, sans curation manuelle. Le runtime est compatible avec le protocole OpenAI et se connecte à OpenRouter, vLLM, Ollama ou DeepInfra via un simple changement d'URL.

EverOS s'inscrit dans une tendance plus large de recherche d'alternatives aux architectures mémoire complexes et coûteuses pour les systèmes agentiques. La version 1.1.0 a introduit des APIs de Knowledge pour des pages Markdown adossées à des sources taxonomiques, ainsi qu'un processus de Réflexion offline qui fusionne des clusters d'épisodes et affine les profils entre sessions. EverMind propose également EverOS Cloud pour les équipes qui préfèrent ne pas gérer l'infrastructure, avec parité complète du SDK et du format mémoire avec la version auto-hébergée. Les scores de benchmark sont prometteurs mais proviennent d'EverMind eux-mêmes, ce qui appelle une vérification sur des charges de travail réelles avant adoption en production.

Dans nos dossiers

OpenAI Agents IA Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1MarkTechPost

Concevoir un runtime d'agents style OpenHarness : outils, mémoire, permissions, compétences et coordination multi-agents

Un tutoriel publié récemment propose de reconstruire de zéro un environnement d'exécution d'agents IA baptisé OpenHarness, en Python, afin de comprendre concrètement le fonctionnement interne d'un tel système. Le guide couvre l'intégralité des composants fondamentaux : appel d'outils typés, gestion des permissions, hooks de cycle de vie, mémoire persistante, compétences modulaires (skills), compaction de contexte, logique de réessai, suivi des coûts et coordination multi-agents. Le code fourni est entièrement exécutable sans clé API ni infrastructure complexe, ce qui en fait un terrain d'expérimentation accessible. L'implémentation s'appuie sur des structures de données légères comme ToolCall, AssistantTurn et Message, et intègre un module CostMeter qui convertit les tokens consommés en coût estimé en dollars, en s'appuyant sur un barème tarifaire par modèle incluant des références à claude-sonnet-4 (3,00 dollars par million de tokens en entrée, 15,00 dollars en sortie) et GPT-4.1 (2,00 dollars en entrée, 8,00 dollars en sortie). L'intérêt principal de cette approche est pédagogique mais aussi pratique : en exposant l'intégralité de la boucle de contrôle, l'auteur montre exactement comment le harness reçoit une tâche, laisse le modèle choisir l'action suivante, valide et exécute les appels d'outils, récupère les observations et itère jusqu'à la complétion. Cette transparence permet aux développeurs de modifier chaque maillon de la chaîne, notamment pour adapter les règles de permissions, injecter de la mémoire entre les tours, ou orchestrer plusieurs agents en parallèle. Pour les équipes qui construisent des applications sur des LLM, comprendre ce niveau d'abstraction évite de traiter les frameworks existants comme des boîtes noires et de subir leurs limitations sans pouvoir y remédier. Ce tutoriel s'inscrit dans une tendance plus large d'outillage autour des agents IA autonomes, accélérée par la montée en puissance des modèles capables d'utiliser des outils de façon fiable. Des frameworks comme LangChain, LlamaIndex ou le SDK Agents d'Anthropic proposent des abstractions similaires, mais leur complexité croissante pousse une partie de la communauté à revenir à des implémentations minimalistes et lisibles. La publication d'OpenHarness comme exercice de reconstruction illustre ce besoin de maîtrise du substrat technique, à mesure que les agents passent du prototype à la production et que les questions de coût, de sécurité et de contrôle deviennent centrales.

OutilsOutil

1 source

2MarkTechPost

Memory OS : une architecture mémoire open source à 6 couches pour agents Hermes

Un développeur de la communauté open-source, ClaudioDrews, vient de publier Memory OS, une bibliothèque sous licence MIT qui superpose six couches de mémoire à Hermes Agent, l'agent conversationnel de Nous Research. Là où Hermes propose déjà des fichiers de workspace et une base de données de sessions avec recherche plein texte, Memory OS y ajoute une base vectorielle Qdrant, des faits structurés avec scoring de confiance, un wiki de concepts auto-curé, et un système de rappel chirurgical à chaque appel LLM. L'ensemble tourne en local via Docker, Qdrant, Redis et Python 3.11+, et fonctionne avec n'importe quel fournisseur LLM supporté par Hermes : OpenRouter, OpenAI, Anthropic ou Ollama. Les six couches vont du simple fichier MEMORY.md injecté dans le prompt système (couche 1) jusqu'à un wiki LLM continuellement réingéré dans Qdrant (couche 6), en passant par une base SQLite avec FTS5, des vecteurs Cosine en 4096 dimensions combinés à une recherche BM25, et une version fortement remaniée du plugin Icarus gérant le rappel inter-sessions via 16 outils dédiés. L'intérêt concret de cette architecture réside dans son mécanisme de récupération : à chaque appel LLM, le système interroge simultanément quatre sources (Fabric, Qdrant, Sessions, Facts), filtre les résultats par seuil de pertinence, déduplique par session et ignore les messages triviaux. En sortie de session, il extrait et capitalise automatiquement les nouveaux apprentissages. Un scanner hebdomadaire fait vieillir les entrées obsolètes, et une déduplication sémantique fusionne les souvenirs quasi-identiques dès que la similarité cosinus dépasse 0,92. L'objectif affiché est l'efficacité en tokens : ne charger dans le contexte que ce qui est réellement utile, pas saturer la fenêtre. Pour les équipes soumises à des règles de résidence des données, le fait que rien ne quitte la machine locale représente un avantage réel que les services cloud comme mem0, Zep ou Letta ne peuvent pas offrir. Memory OS s'inscrit dans un débat plus large sur la mémoire des agents IA : jusqu'où peut-on aller avec une mémoire embarquée dans l'agent lui-même, sans passer par une infrastructure cloud payante ? Hermes Agent propose déjà huit fournisseurs de mémoire externes officiels, dont mem0 et Honcho, mais Memory OS n'en fait pas partie, c'est une surcouche communautaire indépendante, ce qui dit quelque chose sur l'appétit des développeurs pour des solutions souveraines. Le projet est récent et sa maturité reste à prouver à l'usage, mais son architecture en cascade de fallback (hybride, puis vectoriel dense, puis lexical, puis SQLite) montre une réflexion sérieuse sur la robustesse. Si l'adoption suit, ce type de stack mémoire locale pourrait devenir un modèle de référence pour les agents à usage intensif en entreprise.

UEL'architecture 100 % locale de Memory OS répond directement aux exigences de résidence des données imposées par le RGPD, offrant aux entreprises européennes une alternative souveraine aux services mémoire cloud pour leurs agents IA.

OutilsOutil

1 source

3MarkTechPost

Créer une couche de mémoire à long terme universelle pour les agents IA avec Mem0 et OpenAI

Des chercheurs et développeurs s'appuient désormais sur Mem0, une bibliothèque open source compatible avec les modèles OpenAI et la base de données vectorielle ChromaDB, pour construire une couche de mémoire persistante destinée aux agents d'intelligence artificielle. Le principe repose sur une architecture en plusieurs modules : extraction automatique de souvenirs structurés à partir de conversations naturelles, stockage sémantique dans ChromaDB via les embeddings text-embedding-3-small, récupération contextuelle par recherche vectorielle, et intégration directe dans les réponses générées par GPT-4.1-nano. Concrètement, le système segmente les échanges conversationnels en faits durables associés à un identifiant utilisateur, comme les préférences techniques, les projets en cours ou les informations personnelles, puis les rend disponibles lors des interactions futures via une API CRUD complète permettant d'ajouter, modifier, supprimer ou interroger ces souvenirs. Cette approche résout un problème fondamental des agents IA actuels : leur amnésie entre les sessions. Sans mémoire persistante, chaque conversation repart de zéro, obligeant l'utilisateur à reformuler son contexte à chaque échange. Avec ce type d'architecture, un agent peut se souvenir qu'un utilisateur est ingénieur logiciel, qu'il travaille sur un pipeline RAG pour une fintech, et qu'il préfère VS Code en mode sombre, sans que ces informations aient été répétées. Pour les entreprises qui déploient des assistants IA internes, des copilotes de code ou des outils de support client, cela représente un gain de personnalisation et d'efficacité considérable. L'isolation multi-utilisateurs intégrée dans Mem0 garantit par ailleurs que les souvenirs d'un profil ne contaminent pas ceux d'un autre. La mémoire à long terme est l'un des chantiers prioritaires de l'IA générative en 2025-2026, aux côtés du raisonnement et de l'utilisation d'outils. Des acteurs comme OpenAI avec la mémoire de ChatGPT, ou des startups spécialisées telles que Mem0 (anciennement EmbedChain), se positionnent sur ce marché en pleine expansion. L'approche présentée ici est dite "production-ready" : elle exploite ChromaDB en local pour réduire les coûts et la latence, mais reste compatible avec des backends cloud. La tendance de fond est de faire évoluer les agents d'un mode sans état vers une continuité contextuelle, condition nécessaire pour des assistants véritablement utiles sur la durée. Les prochaines étapes probables incluent la gestion de la decay mémorielle (oublier les informations obsolètes) et l'intégration dans des frameworks multi-agents comme LangGraph ou AutoGen.

💬 Le problème de l'amnésie entre sessions, c'est le truc qui rend les agents inutilisables en vrai. Mem0 propose une architecture propre pour ça, avec ChromaDB en local et une isolation multi-utilisateurs qui tient la route, ce qui évite les bricolages maison qu'on voit partout. Bon, "production-ready" ça se vérifie, mais l'approche est solide.

OutilsOutil

1 source

4MarkTechPost

Découvrez OpenViking : une base de données contextuelle open-source qui apporte la mémoire et la récupération basées sur le système de fichiers aux systèmes d'agents intelligents comme OpenClaw

OpenViking est une base de données contextuelle open-source pour agents AI développée par Volcengine. Elle utilise un paradigme de système de fichiers pour organiser le contexte, permettant une gestion unifiée des mémoires, ressources et compétences via une structure hiérarchique. Cette approche vise à résoudre cinq problèmes courants dans le développement d'agents : fragmentation du contexte, augmentation volumineuse du contexte pendant les tâches longues, faible qualité de récupération dans des pipelines RAG plats, mauvaise observabilité des comportements de récupération et limitation de l'iteration mémoire au-delà de l'historique de la conversation. Le cœur du design est un système de fichiers virtuel exposant le protocole viking:// pour gérer différents types de contexte via des répertoires (ressources, utilisateur, agent), offrant une navigation plus déterministe par rapport aux recherches de similarité sur un index vecteur plat. La méthode de récupération en arbre de répertoires permet de conserver à la fois la pertinence locale et la structure globale du contexte, améliorant ainsi les modèles de récupération traditionnels. De plus, OpenViking inclut un mécanisme intégré pour la chargement progressif du contexte en couches (L0, L1, L2) pour minimiser la surcharge token lors des requêtes d'agents étendues à plusieurs référentiels et mémoires accumulées.

OutilsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic