Aller au contenu principal
InfrastructureVentureBeat AI4sem

Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble

Résumé IASource uniqueImpact UE
Source originale ↗·
Le prochain goulot d'étranglement de l'IA n'est pas les modèles, c'est la capacité des agents à raisonner ensemble
▶ Voir sur YouTube

Les agents d'intelligence artificielle peuvent désormais être interconnectés dans des workflows complexes, mais Vijoy Pandey, SVP et directeur général d'Outshift by Cisco, pointe une limite fondamentale : la connexion n'est pas la cognition. Chaque agent repart de zéro à chaque interaction, sans contexte partagé ni alignement sémantique avec ses pairs. Pour résoudre ce problème, l'équipe de Pandey développe trois nouveaux protocoles de communication inter-agents : le Semantic State Transfer Protocol (SSTP), qui opère au niveau du langage pour permettre aux systèmes d'inférer la bonne tâche ; le Latent Space Transfer Protocol (LSTP), capable de transférer l'espace latent complet d'un agent à un autre, en transmettant directement le cache KV pour éviter le coût de la tokenisation ; et le Compressed State Transfer Protocol (CSTP), orienté vers les déploiements en périphérie de réseau où il faut transmettre de grandes quantités d'état de manière précise et compressée. En parallèle, Cisco a collaboré avec le MIT sur le Ripple Effect Protocol, une initiative complémentaire dans cette direction.

L'enjeu derrière ces travaux est considérable : atteindre ce que Pandey appelle l'"internet de la cognition", un niveau où des agents peuvent résoudre des problèmes inédits, sans intervention humaine, en partageant véritablement leur intention et leur contexte. Ce saut qualitatif représente selon lui le "grand déblocage" pour les systèmes d'IA de prochaine génération. Sur le plan opérationnel, Cisco a déjà montré des résultats concrets : en déployant plus de vingt agents, dont certains développés en interne et d'autres issus de fournisseurs tiers, l'équipe SRE de Cisco a automatisé plus d'une douzaine de workflows de bout en bout, incluant les pipelines CI/CD, les déploiements Kubernetes et les instanciations EC2. Ces agents accèdent à plus de cent outils via des frameworks comme le Model Context Protocol (MCP), tout en s'intégrant aux plateformes de sécurité de Cisco.

Pandey situe cette évolution dans une trajectoire historique plus large : l'intelligence humaine a d'abord émergé individuellement, avant que la communication progressive entre individus ne déclenche une révolution cognitive collective, permettant l'intention partagée, la coordination et l'innovation distribuée. Son équipe reproduit délibérément cette trajectoire dans le silicium, en codifiant l'intention, le contexte et l'innovation collective directement dans l'infrastructure sous forme de règles, d'API et de capacités. L'architecture cible se décompose en trois couches : les protocoles (SSTP, LSTP, CSTP), un tissu de distribution pour synchroniser les états cognitifs entre endpoints, et des "moteurs de cognition" fournissant garde-fous et accélération. Cisco n'est pas seul sur ce terrain : la course à l'infrastructure agentique de nouvelle génération s'intensifie, avec des acteurs comme Anthropic, OpenAI et des startups spécialisées qui poussent chacun leurs propres standards, rendant la bataille des protocoles aussi stratégique que celle des modèles eux-mêmes.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Le capital, et non la puissance de calcul, est le vrai goulet d'étranglement de l'IA
1The Information AI 

Le capital, et non la puissance de calcul, est le vrai goulet d'étranglement de l'IA

L'explosion de la demande en infrastructure IA a déclenché l'un des cycles d'investissement les plus colossaux de l'histoire moderne. Jensen Huang, PDG de Nvidia, estime qu'un gigawatt de capacité de calcul peut coûter jusqu'à 50 milliards de dollars. McKinsey projette que la demande mondiale en centres de données pourrait atteindre 156 gigawatts d'ici 2030, ce qui porterait l'investissement total nécessaire à près de 7 000 milliards de dollars. Lors d'un récent panel organisé par The Information, trois dirigeants du secteur ont dressé un constat convergent : ce n'est pas le manque de GPU qui freine le déploiement de l'IA, mais bien le capital. Charles Fisher, directeur financier de Lambda, Marc Boroditsky, directeur commercial de Nebius, et Nick Robbins, vice-président développement chez CoreWeave, ont tous pointé la même tension : les GPU sont disponibles aujourd'hui, mais les infrastructures nécessaires pour les déployer à grande échelle prennent des années à financer et à construire. Ce goulot d'étranglement financier tient en partie à des idées reçues persistantes dans le monde bancaire. Les prêteurs rechignent à financer des actifs dont la durée de vie estimée est de six ans seulement, contre plusieurs décennies pour les réseaux câblés. Ils supposent également que la demande se concentre sur une poignée de géants du cloud, ignorant la réalité du marché. Lambda compte plus de 10 000 clients sur son cloud public, représentant environ un tiers de ses revenus, avec des comportements d'abonnement très fidèles. Chez CoreWeave, Robbins souligne que les anciens GPU Nvidia V100 et A100 continuent de générer des rendements solides bien au-delà de leur durée de vie théorique. Les contrats fermes avec des clients solvables restent le principal levier pour débloquer des financements : Nebius a ainsi conclu un accord plurimilliardaire avec Meta Platforms qui garantit l'absorption des GPU non vendus, permettant à Nebius d'utiliser la solidité financière de Meta comme caution implicite. Le vrai défi n'est donc pas tant financier que logistique. Fisher parle d'un problème de "chorégraphie" : la demande des clients se matérialise bien plus vite que la construction des centres de données ne peut suivre. Nebius répond à cette contrainte en menant tous les chantiers simultanément, sécurisant les terrains, générant la demande et levant le capital en parallèle. Au-delà des hyperscalers comme Microsoft, Google ou Amazon, qui captent l'essentiel de l'attention médiatique, la prochaine vague de croissance proviendrait de startups IA en forte croissance et de l'adoption enterprise. Des entreprises comme Cursor ou Harvey sont citées comme signaux avant-coureurs d'un marché qui dépasse largement les seuls géants technologiques, et dont le financement structuré reste encore à inventer.

InfrastructureOpinion
1 source
Lightelligence bondit de 400% en bourse, pari sur l'interconnexion optique comme prochain goulot d'étranglement de l'IA
2AI News 

Lightelligence bondit de 400% en bourse, pari sur l'interconnexion optique comme prochain goulot d'étranglement de l'IA

Lightelligence, fabricant chinois de puces photoniques basé à Shanghai, a fait une entrée fracassante à la Bourse de Hong Kong mardi, avec un cours qui a bondi de près de 400% dès le premier jour de cotation. L'action a ouvert à 882 HK$ contre un prix d'introduction de 183,2 HK$, le haut de la fourchette initiale. L'entreprise a levé 2,4 milliards HK$ (environ 310 millions de dollars) lors de son IPO, dont la tranche grand public a été sursouscrite près de 5 785 fois. Première entreprise de photonique continentale à s'introduire à Hong Kong, Lightelligence affiche 106 millions de RMB (15,5 millions de dollars) de chiffre d'affaires annuel en 2025, pour une capitalisation boursière qui a brièvement atteint 10 milliards de dollars. Son produit phare, LightSphere X, est présenté comme la première solution de commutation optique distribuée pour les interconnexions de supernœuds GPU, capable d'augmenter l'utilisation des FLOPS de plus de 50% tout en réduisant le coût total d'exploitation. Au 31 mars 2026, la société détenait 410 brevets et revendiquait 88,3% de parts de marché parmi les fournisseurs indépendants en Chine pour les interconnexions optiques à l'échelle des nœuds de calcul haute performance. L'engouement des investisseurs repose sur une conviction croissante : le câblage en cuivre entre les puces d'intelligence artificielle est en train de devenir le prochain goulet d'étranglement des infrastructures d'IA. Les grands clusters de GPU, nécessaires pour entraîner et faire tourner les grands modèles de langage, transfèrent des volumes de données colossaux entre les puces. Le cuivre génère de la chaleur, consomme beaucoup d'énergie et atteint ses limites en termes de débit sur de courtes distances. L'interconnexion optique, qui remplace les signaux électriques par de la lumière, offre une latence réduite, une bande passante plus élevée et une meilleure efficacité énergétique. Pour les opérateurs de datacenters et les fournisseurs cloud qui cherchent à optimiser leurs coûts à mesure que les clusters d'IA grossissent, cette technologie représente une rupture potentiellement structurelle. Lightelligence évolue néanmoins dans un contexte financier tendu. Ses pertes nettes ont atteint 1,34 milliard de RMB en 2025, et son ratio actif-passif s'établit à 473%, ce qui signifie que ses dettes dépassent largement ses actifs. Un seul client représente 40,6% de son chiffre d'affaires. Dans le marché global chinois, Huawei reste dominant avec 98,4% de parts, Lightelligence n'en détenant que 8,3% en tant que premier fournisseur tiers indépendant. Malgré ces signaux d'alerte, le tour de table des investisseurs cornerstone est impressionnant : Alibaba, GIC, Temasek, BlackRock, Fidelity, Schroders, Hillhouse Capital, Lenovo et ZTE ont tous participé. La croissance annuelle composée du chiffre d'affaires atteint 66,9% sur deux ans, et le secteur de l'informatique photonique, encore largement peuplé de startups pré-revenus, laisse une fenêtre d'opportunité à qui peut prouver une commercialisation à grande échelle.

InfrastructureActu
1 source
3AWS ML Blog 

AWS Agent Registry : la gestion des agents à grande échelle désormais en prévisualisation

Amazon Web Services a lancé en preview l'AWS Agent Registry, une nouvelle fonctionnalité intégrée à sa plateforme Amazon Bedrock AgentCore, conçue pour permettre aux entreprises de découvrir, partager et réutiliser leurs agents IA à grande échelle. Disponible dès maintenant via la console AgentCore, les SDK AWS et une API dédiée, le registre centralise les métadonnées de chaque agent, outil, serveur MCP, compétence d'agent ou ressource personnalisée sous forme de fiches structurées. Chaque entrée documente l'auteur, les protocoles supportés, les capacités exposées et les modalités d'invocation. Le registre prend en charge nativement les standards ouverts MCP (Model Context Protocol) et A2A, et peut indexer des agents hébergés n'importe où : sur AWS, chez d'autres fournisseurs cloud ou dans des environnements on-premises. Il est également accessible comme serveur MCP, ce qui le rend interrogeable directement depuis des clients compatibles comme Kiro ou Claude Code. L'enjeu est considérable pour les entreprises qui opèrent des centaines ou des milliers d'agents simultanément. Sans registre central, trois problèmes se cumulent : l'invisibilité (personne ne sait ce qui existe), l'absence de gouvernance (n'importe qui peut publier n'importe quoi), et la duplication (plusieurs équipes reconstruisent les mêmes capacités en parallèle). AWS Agent Registry répond à ces trois défis en un seul endroit. La recherche hybride combine correspondance par mots-clés et compréhension sémantique : une requête sur "traitement de paiements" remonte ainsi des outils étiquetés "facturation" ou "invoicing", même s'ils portent des noms différents. Pour les organisations avec des fournisseurs d'identité tiers, un accès basé sur OAuth permet aux équipes de construire leurs propres interfaces de découverte sans dépendre des credentials IAM d'AWS. Ce lancement s'inscrit dans une tendance de fond : l'industrialisation des architectures multi-agents, où les organisations ne déploient plus un ou deux agents expérimentaux mais des écosystèmes entiers interconnectés. AWS positionne AgentCore comme la couche d'infrastructure universelle pour ces systèmes, indépendante du modèle, du framework ou du fournisseur cloud. Le registre est la pièce manquante qui transforme une collection d'agents dispersés en un actif organisationnel géré, versionné et auditable. La roadmap annoncée prévoit des workflows d'approbation pour la publication, des capacités de monitoring en production et des mécanismes de retrait des agents obsolètes. Dans un secteur où OpenAI, Google et Microsoft développent leurs propres orchestrateurs d'agents, AWS mise sur l'ouverture et l'interopérabilité comme différenciateurs pour conquérir les grandes entreprises déjà ancrées dans des architectures hybrides.

UELes entreprises européennes déployant des agents IA sur AWS peuvent désormais centraliser leur gouvernance et audit, facilitant la conformité aux exigences de traçabilité de l'AI Act.

InfrastructureOpinion
1 source
Google et AWS répartissent la pile des agents IA entre contrôle et exécution
4VentureBeat AI 

Google et AWS répartissent la pile des agents IA entre contrôle et exécution

Google et Amazon Web Services viennent de redéfinir leurs approches respectives pour orchestrer les agents IA d'entreprise, révélant une fracture profonde dans la façon de concevoir l'infrastructure agentique. Google a lancé une nouvelle version de Gemini Enterprise, regroupant sous une même bannière sa plateforme Gemini Enterprise et son application éponyme, tout en rebaptisant Vertex AI en Gemini Enterprise Platform. De son côté, AWS a enrichi Bedrock AgentCore d'un système de harness, un dispositif de configuration automatique alimenté par Strands Agents, son framework open source. Ce harness permet aux équipes de définir ce que l'agent doit faire, quel modèle utiliser et quels outils appeler, le reste étant pris en charge automatiquement. Dans le même temps, Anthropic a dévoilé ses Claude Managed Agents et OpenAI a renforcé son Agents SDK, confirmant que l'ensemble de l'industrie cherche simultanément à résoudre le même problème : comment gérer des agents IA qui tournent durablement en production. L'enjeu dépasse la simple question de l'outillage développeur. À mesure que les agents passent de courtes tâches ponctuelles à des workflows autonomes de longue durée, un nouveau type de défaillance émerge : la dérive d'état (state drift). Un agent qui fonctionne en continu accumule de la mémoire, des réponses et un contexte évolutif. Avec le temps, ce contexte devient obsolète : les sources de données changent, les outils renvoient des réponses contradictoires, et l'agent perd en fiabilité sans que personne ne s'en rende forcément compte. C'est ce problème systémique que Google et AWS cherchent à prévenir, par deux chemins opposés. Google mise sur un plan de contrôle à la manière de Kubernetes, centré sur la gouvernance et la visibilité. AWS privilégie la vitesse de déploiement et la simplification de la configuration, en déléguant la coordination à la couche d'exécution. Cette divergence illustre une transformation plus profonde de la pile IA, qui se stratifie désormais en couches spécialisées. Google positionne Gemini Enterprise comme une porte d'entrée unifiée vers l'ensemble de ses systèmes IA, avec des outils de sécurité et de gouvernance inclus dans l'abonnement, selon Maryam Gholami, directrice senior produit chez Google. AWS, Anthropic et OpenAI s'orientent davantage vers la vélocité et la flexibilité d'exécution. La question de savoir quelle approche s'imposera reste ouverte : Gholami elle-même reconnaît que ce sont les clients qui dicteront les usages des agents longue durée, un domaine où les bonnes pratiques restent encore à définir. Le vrai test viendra lorsque les entreprises feront tourner ces systèmes en conditions réelles, avec des agents qui devront remonter de l'information, demander des validations humaines, et résister à la dégradation progressive de leur contexte.

UELes entreprises européennes qui déploient des agents IA en production sur Google Cloud ou AWS devront arbitrer entre les deux approches d'orchestration pour leurs workflows agentiques durables.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour