Aller au contenu principal
InfrastructureVentureBeat AI2h· 2 min de lecture

Les agents IA ont besoin de contexte partout, même là où le cloud ne peut pas les suivre

Source originale ↗·

Couchbase a annoncé mardi son AI Data Plane, une plateforme opérationnelle unifiée qui combine mémoire persistante pour agents IA, récupération de contexte en temps réel et serveur MCP géré en entreprise. L'annonce positionne la société comme un acteur central dans la bataille pour le contrôle du contexte des agents IA en entreprise, un terrain où s'affrontent déjà des géants comme Databricks, AWS et Redis. L'AI Data Plane regroupe trois composants : une couche de persistance unifiée pour le contexte conversationnel, les données opérationnelles structurées et les embeddings vectoriels ; un serveur MCP auto-géré livré nativement dans la plateforme ; et un catalogue d'outils agents appelé Agent Catalog. La plateforme tourne de manière identique sur le cloud, en on-premises et dans des environnements edge déconnectés, grâce à Couchbase Lite, le moteur embarqué qui exécute SQL, recherche plein texte et recherche vectorielle localement sans connexion réseau.

L'enjeu concret est celui de l'efficacité opérationnelle et de la souveraineté des données. Pour les secteurs réglementés, les déploiements industriels ou le retail en mobilité, l'impossibilité d'envoyer des données vers le cloud n'est pas un détail technique mais une contrainte légale ou physique. En cachant le contexte partagé localement, la plateforme évite que chaque agent récupère et traite les mêmes données indépendamment, réduisant la consommation de tokens pour les sessions concurrentes. Couchbase cite l'exemple concret d'une chaîne hôtelière où plusieurs agents servent simultanément des clients, chacun puisant dans un contexte local via recherche vectorielle on-device, la mémoire de session se synchronisant ensuite de manière bidirectionnelle vers le cloud dès que la connectivité est rétablie. Agora, une plateforme d'intégration d'IA conversationnelle pour les entreprises, utilise Couchbase en production depuis février 2024.

Couchbase arrive à ce problème avec une architecture distincte : la société était un système de cache avant de devenir une base de données, ce que son CTO Gopi Duddi présente comme un avantage structurel. Écrire en mémoire est dix fois plus rapide qu'écrire sur disque, argue-t-il, séparant Couchbase des bases NoSQL qui superposent des workloads mémoire sur un stockage disque. Redis, qui partage ces racines dans le cache, a également annoncé récemment une couche de contexte pour agents IA, mais Duddi souligne que Couchbase maintient une conformité ACID, atomicité, cohérence, isolation, durabilité, essentielle pour les charges de travail transactionnelles. La vraie bataille qui se joue ici est celle du substrat de mémoire des agents : quelle plateforme de données va devenir le système d'enregistrement de l'intelligence artificielle en production, y compris là où le cloud ne peut pas suivre.

Impact France/UE

Pour les entreprises européennes soumises au RGPD ou à des réglementations sectorielles imposant la localisation des données, la capacité de déploiement on-premises et edge constitue une alternative concrète aux architectures cloud-first pour les agents IA en production.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production
1The Decoder 

Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production

Un article de synthèse publié récemment soutient que le véritable goulot d'étranglement dans le développement d'agents IA autonomes n'est pas le modèle de langage lui-même, mais la couche logicielle qui l'entoure. Baptisée "harness", cette infrastructure regroupe les outils externes, la mémoire persistante, les systèmes de test et les mécanismes de contrôle des permissions. C'est elle, selon les auteurs, qui transforme un modèle stateless en agent opérationnel. Le laboratoire chinois Deepseek a déjà tiré les conclusions pratiques de cette thèse en montant à Pékin une équipe dédiée exclusivement au développement du harness, avec une formule qui résume tout : modèle plus harness égal agent IA. Cela repose la question fondamentale de la valeur dans l'écosystème IA. Si le modèle seul ne suffit pas, les entreprises qui maîtrisent l'orchestration logicielle autour du modèle, et non uniquement l'entraînement, détiennent un avantage concurrentiel décisif. Pour les développeurs et les équipes produit, cela signifie que construire des agents performants exige autant d'ingénierie système que de puissance brute en paramètres. Cette vision s'inscrit dans une tendance plus large où les grands laboratoires et startups investissent massivement dans les frameworks agentiques. LangChain, LlamaIndex, ou encore les outils natifs d'Anthropic et OpenAI illustrent cette course à l'infrastructure plutôt qu'au modèle. Le mouvement de Deepseek, qui structure une équipe entière autour du harness plutôt que de simplement scaler les paramètres, pourrait annoncer une réorganisation profonde des priorités dans la course à l'IA agentique.

InfrastructureOpinion
1 source
L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte
2VentureBeat AI 

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte

L'intelligence artificielle fait face à un nouveau goulot d'étranglement en 2026, et ce n'est plus la puissance de calcul des GPU. Selon Jeff Harthorn, responsable de la recherche appliquée en IA chez Solidigm, le vrai frein est désormais la gestion du contexte, la mémoire persistante qui doit survivre entre les sessions d'inférence. "Les GPU sont devenus bien moins chers par FLOP, les architectures de modèles et les moteurs d'inférence sont plus efficaces. Mais ce qui a crû plus vite que tout, c'est le contexte", explique-t-il. Les fenêtres de contexte ont explosé en taille, les systèmes d'IA agentiques enchaînent désormais des dizaines voire des centaines d'appels de modèles successifs, et les entreprises exigent que les états d'inférence persistent entre les sessions à des fins d'audit, de gouvernance et de réutilisation. Ces trois tendances se cumulent et propulsent les volumes de données contextuelles bien au-delà de ce que les architectures mémoire existantes peuvent absorber. Cette évolution a des conséquences directes sur les coûts et le retour sur investissement des infrastructures d'IA en entreprise. Quand les données de cache KV (Key-Value), les informations qui permettent à un modèle de retrouver et réutiliser le contexte d'une interaction, ne sont pas disponibles dans un tier de stockage rapide, le système est obligé de les recalculer à chaque session. Ce processus de "re-prefill" mobilise des cycles GPU entiers sans produire aucun nouveau token, autrement dit sans créer aucune valeur. "Si votre stockage n'est pas à la hauteur, votre ROI en souffre directement", souligne Ace Stryker, directeur marketing IA chez Solidigm. L'architecture de stockage héritée de l'ère de l'entraînement, séquentielle, dominée par les grandes écritures en bloc, n'est tout simplement pas adaptée aux accès fins et latence-sensibles que requiert l'inférence moderne. La réponse qui émerge est une nouvelle couche dédiée, baptisée CMX par Nvidia, qui s'intercale entre la mémoire HBM des GPU et le stockage réseau en masse. Ce tier intermédiaire, constitué de SSD haute performance et haute densité optimisés pour les charges d'inférence, est conçu pour héberger et servir rapidement le cache KV ainsi que les données de récupération utilisées dans les architectures RAG. Solidigm fait partie des fabricants de stockage qui développent des produits SSD spécifiquement taillés pour cette architecture. Jusqu'ici, le stockage était traité comme une commodité dans les plans d'infrastructure IA, on cherchait simplement le meilleur prix au gigaoctet. Ce paradigme est en train de changer en profondeur, à mesure que les systèmes agentiques persistants font du stockage un composant critique de la chaîne de performance des grands modèles de langage.

InfrastructureActu
1 source
L'architecture de contexte remplace le RAG à mesure que les agents IA poussent la récupération d'information en entreprise à ses limites
3VentureBeat AI 

L'architecture de contexte remplace le RAG à mesure que les agents IA poussent la récupération d'information en entreprise à ses limites

Redis a lancé lundi Redis Iris, une plateforme de contexte et de mémoire conçue pour les agents d'intelligence artificielle en production. L'annonce vient du CEO Rowan Trollope et marque une évolution majeure dans la stratégie de l'entreprise, historiquement connue comme couche de cache pour les applications web. Redis Iris se positionne entre l'agent et les données dont il a besoin pour agir, en combinant cinq composants : Redis Data Integration (désormais en disponibilité générale), qui synchronise en continu les bases relationnelles, entrepôts et documents via des connecteurs pour Oracle, Snowflake, Databricks et Postgres ; un Context Retriever (en préversion) qui génère automatiquement des outils MCP à partir de modèles de données métier définis en Pydantic, avec contrôles d'accès appliqués côté serveur ; un serveur de mémoire agent pour conserver le contexte à court et long terme entre les sessions ; et Redis Flex, un moteur de stockage réécrit faisant tourner 99 % des données sur SSD et 1 % en RAM, réduisant le coût à un dixième du stockage purement en mémoire. La raison d'être de cette architecture tient à un déséquilibre structurel entre agents et humains. Trollope le formule clairement : les entreprises auront un nombre d'agents plusieurs ordres de grandeur supérieur à celui de leurs employés humains, ce qui génère une charge équivalente sur les systèmes backend. Les pipelines RAG classiques, construits pour des requêtes humaines ponctuelles, ne tiennent pas face au volume que produisent des agents opérant en continu. Redis inverse la logique : plutôt que de présupposer quelles données injecter dans le pipeline, il laisse l'agent tirer lui-même l'information via des interfaces construites pour lui. Le marché confirme l'urgence : selon le VB Pulse RAG Infrastructure Market Tracker du premier trimestre 2026, l'intention d'adoption du retrieval hybride a triplé de 10,3 % à 33,3 % entre janvier et mars, l'optimisation du retrieval est devenue la première priorité d'investissement enterprise devant l'évaluation, et les stacks de retrieval maison sont passées de 24,1 % à 35,6 % du marché. Redis n'est pas le seul acteur à repositionner son offre autour des couches de contexte agent, plusieurs fournisseurs de plateformes de données ayant fait des annonces similaires ces dernières semaines. Trollope tire le parallèle avec l'ère mobile : quand les systèmes bancaires conçus pour les guichets ont dû absorber des millions d'utilisateurs smartphone, Redis est devenu la couche de cache qui a évité une refonte totale des backends. La différence aujourd'hui, c'est que les agents ne peuvent pas écrire leur propre middleware : ils ont besoin, au moment de l'exécution, d'interfaces préparées en amont, ou ils s'arrêtent. La transition de l'infrastructure RAG vers des architectures de contexte dédiées aux agents semble donc moins être une tendance émergente qu'un basculement déjà en cours dans les grandes entreprises.

InfrastructureOpinion
1 source
Google et AWS répartissent la pile des agents IA entre contrôle et exécution
4VentureBeat AI 

Google et AWS répartissent la pile des agents IA entre contrôle et exécution

Google et Amazon Web Services viennent de redéfinir leurs approches respectives pour orchestrer les agents IA d'entreprise, révélant une fracture profonde dans la façon de concevoir l'infrastructure agentique. Google a lancé une nouvelle version de Gemini Enterprise, regroupant sous une même bannière sa plateforme Gemini Enterprise et son application éponyme, tout en rebaptisant Vertex AI en Gemini Enterprise Platform. De son côté, AWS a enrichi Bedrock AgentCore d'un système de harness, un dispositif de configuration automatique alimenté par Strands Agents, son framework open source. Ce harness permet aux équipes de définir ce que l'agent doit faire, quel modèle utiliser et quels outils appeler, le reste étant pris en charge automatiquement. Dans le même temps, Anthropic a dévoilé ses Claude Managed Agents et OpenAI a renforcé son Agents SDK, confirmant que l'ensemble de l'industrie cherche simultanément à résoudre le même problème : comment gérer des agents IA qui tournent durablement en production. L'enjeu dépasse la simple question de l'outillage développeur. À mesure que les agents passent de courtes tâches ponctuelles à des workflows autonomes de longue durée, un nouveau type de défaillance émerge : la dérive d'état (state drift). Un agent qui fonctionne en continu accumule de la mémoire, des réponses et un contexte évolutif. Avec le temps, ce contexte devient obsolète : les sources de données changent, les outils renvoient des réponses contradictoires, et l'agent perd en fiabilité sans que personne ne s'en rende forcément compte. C'est ce problème systémique que Google et AWS cherchent à prévenir, par deux chemins opposés. Google mise sur un plan de contrôle à la manière de Kubernetes, centré sur la gouvernance et la visibilité. AWS privilégie la vitesse de déploiement et la simplification de la configuration, en déléguant la coordination à la couche d'exécution. Cette divergence illustre une transformation plus profonde de la pile IA, qui se stratifie désormais en couches spécialisées. Google positionne Gemini Enterprise comme une porte d'entrée unifiée vers l'ensemble de ses systèmes IA, avec des outils de sécurité et de gouvernance inclus dans l'abonnement, selon Maryam Gholami, directrice senior produit chez Google. AWS, Anthropic et OpenAI s'orientent davantage vers la vélocité et la flexibilité d'exécution. La question de savoir quelle approche s'imposera reste ouverte : Gholami elle-même reconnaît que ce sont les clients qui dicteront les usages des agents longue durée, un domaine où les bonnes pratiques restent encore à définir. Le vrai test viendra lorsque les entreprises feront tourner ces systèmes en conditions réelles, avec des agents qui devront remonter de l'information, demander des validations humaines, et résister à la dégradation progressive de leur contexte.

UELes entreprises européennes qui déploient des agents IA en production sur Google Cloud ou AWS devront arbitrer entre les deux approches d'orchestration pour leurs workflows agentiques durables.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic