Aller au contenu principal
Les 7 types de mémoire des agents IA : guide technique pour les ingénieurs
LLMsMarkTechPost6h· 2 min de lecture

Les 7 types de mémoire des agents IA : guide technique pour les ingénieurs

Source originale ↗·

Les grands modèles de langage sont sans mémoire par défaut : chaque appel à l'API repart de zéro, sans souvenir de l'échange précédent. Cette limitation, acceptable pour une simple question, devient un obstacle dès qu'on construit un agent capable de planifier, d'appeler des outils et d'opérer sur plusieurs étapes. Pour combler ce vide, les ingénieurs en IA ont identifié sept types de mémoire distincts, chacun répondant à un besoin précis. La mémoire de travail, ou mémoire en contexte, correspond à tout ce que le modèle voit dans sa fenêtre de contexte à un instant donné : le prompt système, les messages récents, les résultats d'outils. C'est la RAM de l'agent, rapide mais éphémère et limitée en taille. La mémoire sémantique stocke quant à elle des faits et préférences durables dans une base externe, comme "cet utilisateur préfère Python à JavaScript". La mémoire épisodique journalise les événements passés, les conversations entières et les résultats de tâches, permettant à des systèmes comme Reflexion ou ExpeL d'écrire des bilans post-tâche et d'en tirer des leçons pour les exécutions suivantes.

Ces distinctions ne sont pas purement académiques : elles déterminent concrètement les performances et le coût des systèmes agentiques en production. La mémoire procédurale encode les savoir-faire, les workflows et les règles comportementales, ce qui évite à un agent de support de raisonner à nouveau chaque réinitialisation de mot de passe après en avoir traité cent. La mémoire externe ou de récupération repose sur une base vectorielle interrogée à l'inférence par similarité, c'est le principe du RAG appliqué à l'historique de l'agent : la qualité de la recherche devient rapidement le goulot d'étranglement. La mémoire paramétrique, elle, est figée dans les poids du modèle lors de l'entraînement, inaccessible à la mise à jour en temps réel. Enfin, la mémoire prospective gère les intentions futures et les objectifs planifiés mais non encore exécutés, indispensable pour les agents à planification longue qui, sans elle, oublient leurs propres engagements.

Cette taxonomie émerge à mesure que les agents IA passent des démonstrateurs de laboratoire aux systèmes opérationnels dans les entreprises. Les frameworks comme LangChain, LlamaIndex ou AutoGPT intègrent désormais plusieurs de ces couches simultanément, mais sans architecture mémoire explicite, les agents accumulent les erreurs, répètent les mêmes échecs et perdent le fil sur des tâches longues. Le choix de la combinaison mémoire dépend du cas d'usage : un agent de service client n'a pas les mêmes besoins qu'un assistant de recherche scientifique multi-session. À mesure que les fenêtres de contexte s'allongent, certains types comme la mémoire de récupération externe pourraient fusionner avec la mémoire de travail, redessinant profondément l'architecture des agents de demain.

💬 L'analyse de Mathieu

Sept types de mémoire, ça paraît beaucoup jusqu'à ce que ton agent oublie ses propres objectifs à mi-tâche. La vraie valeur de cette taxonomie, c'est qu'elle force à traiter la mémoire comme une décision d'architecture, pas une base vectorielle branchée au dernier moment faute de mieux. C'est le genre de clarification qui manquait depuis que tout le monde se met à construire des agents sans vraiment comprendre pourquoi ils déraillent.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks
1MarkTechPost 

Les meilleurs agents IA pour le développement logiciel : classement par benchmarks

En l'espace d'un an et demi, les agents de codage IA sont passés du simple complètement automatique à des systèmes entièrement autonomes capables de lire des issues GitHub, naviguer dans des bases de code multi-fichiers, écrire des correctifs, exécuter des tests et ouvrir des pull requests sans qu'un humain tape une seule ligne. Début 2026, environ 85 % des développeurs déclarent utiliser régulièrement une forme d'assistance IA pour coder. Le marché s'est structuré en quatre grandes familles : les agents terminaux, les IDE natifs IA, les ingénieurs autonomes hébergés dans le cloud, et les frameworks open source permettant de choisir librement son modèle. Chaque outil se réclame du meilleur, mais les benchmarks invoqués pour le prouver ne mesurent pas toujours les mêmes choses, et certains ont perdu toute crédibilité. Le coup de tonnerre est venu le 23 février 2026, quand l'équipe Frontier Evals d'OpenAI a annoncé qu'elle cessait de publier ses scores sur SWE-bench Verified, le benchmark de référence du secteur depuis mi-2024. Ce test soumet des agents à 500 vraies issues GitHub tirées de dépôts Python populaires, en mesurant leur capacité à comprendre le problème, naviguer le code, générer un correctif et valider les tests, sans intervention humaine. L'audit d'OpenAI a porté sur 138 des problèmes les plus difficiles, répartis sur 64 sessions indépendantes : 59,4 % présentaient des cas de test fondamentalement défectueux ou insolubles, exigeant par exemple des noms de fonctions précis absents de l'énoncé. Plus grave encore, les auditeurs ont constaté que les trois grands modèles frontière, GPT-5.2, Claude Opus 4.5 et Gemini 3 Flash, étaient capables de reproduire mot pour mot les solutions de référence à partir du seul identifiant de tâche, confirmant une contamination systématique des données d'entraînement. La conclusion d'OpenAI est sans appel : les progrès mesurés sur SWE-bench Verified ne reflètent plus d'améliorations réelles dans le développement logiciel. OpenAI recommande désormais SWE-bench Pro comme successeur. Ce nouveau benchmark contient 1 865 tâches réparties en trois sous-ensembles : 731 tâches publiques, 858 tâches en set caché, et 276 tâches commerciales issues de 18 bases de code propriétaires de startups. Les scores y sont nettement plus bas qu'en Verified : lorsque Scale AI avait évalué les modèles frontière avec un scaffold unifié SWE-Agent, le meilleur résultat n'atteignait pas 25 % (GPT-5 à 23,3 %). Les chiffres publiés aujourd'hui par les labs sont bien supérieurs grâce à des harness optimisés : OpenAI annonce GPT-5.5 à 58,6 % sur le set public, Anthropic revendique 64,3 % pour Claude Opus 4.7, et Google affiche 54,2 % pour Gemini 3.1 Pro. La difficulté à comparer ces résultats, obtenus avec des configurations très différentes, illustre le défi central du marché en 2026 : choisir son agent de codage exige désormais de décrypter les benchmarks autant que les fonctionnalités.

UELes développeurs français et européens utilisant des agents de codage IA doivent recalibrer leurs critères de sélection face à l'invalidité confirmée du benchmark SWE-bench Verified et adopter SWE-bench Pro comme nouvelle référence comparative.

💬 Le coup de balai sur SWE-bench Verified était attendu, mais que les modèles reproduisent les solutions mot pour mot depuis l'identifiant de tâche, c'est quand même un niveau au-dessus. SWE-bench Pro repart à 23% avec un scaffold unifié, ce qui donne une image plus juste de là où on en est vraiment. Les 58-64% qu'annoncent les Labs maintenant, c'est avec leurs propres harness optimisés, donc compare qui peut.

LLMsOutil
1 source
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
2NVIDIA AI Blog 

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques. L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine. Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

UELa concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

LLMsOpinion
1 source
Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents
3MarkTechPost 

Z.ai lance GLM-5V-Turbo : un modèle multimodal de vision et de code optimisé pour les workflows d'ingénierie à base d'agents

Zhipu AI (Z.ai), laboratoire d'intelligence artificielle chinois, a lancé GLM-5V-Turbo, un nouveau modèle de vision multimodale spécialement conçu pour la génération de code et les workflows d'ingénierie logicielle. Ce modèle se distingue par une architecture dite de fusion multimodale native, associant un encodeur visuel CogViT à une architecture MTP (Multi-Token Prediction), avec une fenêtre de contexte de 200 000 tokens. Il est capable de traiter simultanément des images, des vidéos, des maquettes de design et des documents techniques complexes, tout en produisant du code syntaxiquement rigoureux. Son entraînement repose sur une technique de reinforcement learning conjoint sur plus de 30 tâches distinctes couvrant le raisonnement STEM, l'ancrage visuel, l'analyse vidéo et l'utilisation d'outils externes. Ce lancement répond à un problème structurel bien connu dans le domaine des modèles vision-langage : le « effet de balançoire », où les gains en perception visuelle se font au détriment des capacités de programmation logique. En optimisant conjointement ces deux dimensions, GLM-5V-Turbo ouvre la voie à des agents d'interface graphique (GUI agents) véritablement opérationnels — des systèmes capables de « voir » un écran et d'en déduire les actions ou le code nécessaire pour y interagir. Concrètement, cela permet à un développeur de soumettre une capture d'écran d'un bug ou une maquette de fonctionnalité, et d'obtenir directement le code correspondant, sans passer par une description textuelle intermédiaire. L'intégration avec OpenClaw, framework open source pour agents GUI, et avec Claude Code, l'outil de programmation assistée d'Anthropic, renforce son positionnement dans des pipelines d'automatisation logicielle à haute capacité. Ce modèle s'inscrit dans une compétition mondiale de plus en plus intense autour des modèles multimodaux orientés code, où des acteurs comme Google (Gemini), OpenAI (GPT-4o) et Anthropic (Claude) investissent massivement. La stratégie de Z.ai se distingue par une spécialisation assumée : plutôt que de viser un usage généraliste, GLM-5V-Turbo cible explicitement les workflows agentiques, en s'intégrant dès le départ dans des écosystèmes d'outils existants. Cette approche de « deep adaptation » pourrait s'avérer décisive pour les équipes d'ingénierie cherchant à automatiser des tâches visuellement complexes — déploiement d'environnements, analyse de sessions enregistrées, génération de code à partir de maquettes — sans sacrifier la précision logique indispensable au développement logiciel professionnel.

LLMsActu
1 source
Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark
4MarkTechPost 

Google Gemma 4, NVIDIA et OpenClaw s'attaquent au coût des tokens pour les agents IA en local, du RTX au DGX Spark

Google a lancé la famille de modèles Gemma 4, une nouvelle génération de modèles d'intelligence artificielle open source conçus pour fonctionner localement sur du matériel grand public. Développés en collaboration avec NVIDIA, ces modèles se déclinent en quatre variantes — E2B, E4B, 26B et 31B paramètres — et couvrent un spectre allant des modules embarqués Jetson Orin Nano aux stations de travail RTX, en passant par le DGX Spark, le superordinateur personnel d'IA récemment annoncé par NVIDIA. Ils supportent nativement l'appel de fonctions pour les agents autonomes et acceptent des entrées multimodales mêlant texte et images dans un même prompt. Sur un RTX 5090, les gains de performance atteignent 2,7 fois ceux obtenus sur un Mac M3 Ultra avec llama.cpp, selon les mesures publiées par NVIDIA. L'enjeu central de cette annonce est ce que les développeurs appellent la "token tax" — le coût financier cumulatif engendré par chaque requête envoyée à un modèle cloud comme GPT-4o ou Gemini. Pour une application d'IA toujours active, qui traite en continu des fichiers, des fenêtres d'applications ou des flux de capteurs, ces coûts deviennent rapidement prohibitifs. En exécutant Gemma 4 localement sur un GPU NVIDIA, le coût marginal par inférence tombe à zéro. Des plateformes comme OpenClaw, qui permettent de construire des assistants IA personnels fonctionnant en permanence sur des PC RTX, bénéficient directement de cette combinaison : débit élevé, latence faible, et aucune dépendance à une connexion ou à un abonnement cloud. Cette évolution s'inscrit dans une tendance de fond qui voit les grands laboratoires — Google, Meta, Mistral — publier des modèles compacts capables de rivaliser avec des systèmes bien plus lourds, à mesure que les techniques de distillation et de quantification progressent. NVIDIA, dont la domination sur les GPU d'entraînement est bien établie, cherche à étendre son emprise sur le marché de l'inférence locale, notamment avec le DGX Spark positionné comme outil de développement personnel haut de gamme. La disponibilité de modèles comme Gemma 4 optimisés pour son écosystème renforce cette stratégie. Les prochains mois verront probablement une multiplication d'applications agentiques locales, portées par cette convergence entre modèles ouverts performants et matériel grand public suffisamment puissant pour les faire tourner sans compromis.

UELa disponibilité de modèles open source performants réduit la dépendance des entreprises et développeurs européens aux API cloud payantes, facilitant la conformité RGPD via le traitement local des données.

LLMsOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic