InfrastructureVentureBeat AI · 22 avr. 2026, 15:00· 2 min de lecture

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

Résumé IASource uniqueImpact UE Take éditorial

Cirrascale Cloud Services a annoncé lors du Google Cloud Next 2026 à Las Vegas un accord élargi avec Google Cloud pour déployer le modèle Gemini en mode entièrement déconnecté, sur des serveurs physiques isolés d'internet. Cirrascale devient ainsi le premier fournisseur de cloud spécialisé à proposer le modèle phare de Google sous forme d'appliance privée, installée soit dans les centres de données de Cirrascale, soit directement dans les locaux du client. Le système repose sur un serveur certifié Google, fabriqué par Dell, équipé de huit GPU Nvidia et protégé par des mécanismes de calcul confidentiel. Une préversion est disponible immédiatement, avec une disponibilité générale attendue en juin ou juillet 2026. Dave Driggers, PDG de Cirrascale, a insisté sur un point clé : il s'agit du modèle Gemini complet, sans aucune restriction ni version allégée, déployé dans un environnement où les données d'entrée comme de sortie restent entièrement sous le contrôle du client. Fait notable sur le plan technique, les poids du modèle résident uniquement en mémoire volatile : dès que l'alimentation est coupée, le modèle disparaît sans laisser de trace persistante.

Cette annonce répond à un problème structurel qui bloque depuis des années les secteurs régulés comme la finance, la santé, la défense et les administrations publiques. Ces organisations devaient jusqu'ici choisir entre accéder aux modèles les plus puissants via des API cloud publiques, au risque d'exposer leurs données sensibles à l'infrastructure d'un tiers, ou se contenter de modèles open source moins performants hébergés en interne. Le déploiement Cirrascale entend supprimer ce compromis. Driggers décrit l'escalade du problème de confiance : après les inquiétudes sur les données propriétaires confiées aux hyperscalers, les entreprises ont pris conscience que les prompts et les réponses générées étaient également récupérés par ces mêmes plateformes pour alimenter leurs propres systèmes, ce qui a rendu la demande de souveraineté totale incontournable.

Cette évolution s'inscrit dans un mouvement plus large de migration des modèles d'IA frontier hors des centres de données des grands hyperscalers, vers les infrastructures propres des clients, ce qui représente une rupture avec la logique cloud dominante de la dernière décennie. Driggers distingue explicitement cette offre des déploiements on-premises proposés par Microsoft Azure avec les modèles OpenAI ou par AWS Outposts : dans ces cas, les modèles restent liés à l'infrastructure de leurs éditeurs. Ici, Google ne possède pas le matériel, et son modèle fonctionne en dehors de tout réseau Google. Pour le géant de Mountain View, accepter ce niveau de délégation sur son modèle le plus avancé traduit une stratégie commerciale claire : conquérir les marchés réglementés qui lui étaient jusqu'ici fermés, quitte à renoncer au contrôle direct de l'inférence.

Impact France/UE

Ce mode de déploiement air-gap répond directement aux exigences du RGPD et de l'AI Act en matière de souveraineté des données, ouvrant potentiellement Gemini aux administrations publiques, établissements de santé et institutions financières européennes soumis à des contraintes strictes de localisation et d'isolation des données.

💬 L'analyse de Mathieu

Le truc des poids uniquement en mémoire volatile, c'est la partie que je trouve la plus maligne. Parce que le blocage dans les secteurs régulés c'était pas juste "mes données sortent du réseau", c'était aussi "quelqu'un peut extraire ou copier le modèle", et là, coupe l'alimentation, ça disparaît. Google accepte de perdre le contrôle de l'inférence de son meilleur modèle pour aller chercher des marchés qui lui étaient fermés depuis des années. Ça, c'est un vrai mouvement.

Dans nos dossiers

Gemini Microsoft Google Cloud Souveraineté IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1NVIDIA AI Blog

Les modèles Anthropic tournent désormais sur NVIDIA GB300 Blackwell Ultra dans Azure

Les modèles Claude d'Anthropic sont désormais disponibles en accès général sur Microsoft Azure via Microsoft Foundry, avec une infrastructure propulsée par les GPU NVIDIA GB300 Blackwell Ultra. Ces systèmes reposent sur des configurations NVL72 couplées au réseau InfiniBand Quantum-X800, ce qui représente une montée en puissance significative pour les entreprises qui souhaitent déployer des agents IA autonomes sur le cloud Azure. Ce lancement s'inscrit dans la continuité d'un partenariat tripartite annoncé en novembre 2025 entre Microsoft, NVIDIA et Anthropic, qui visait à élargir l'accès entreprise aux modèles Claude sur des infrastructures accélérées. Concrètement, cette disponibilité générale change la donne pour les organisations qui construisent des systèmes multi-agents complexes. Les GPU Blackwell Ultra offrent des performances d'inférence nettement supérieures, ce qui réduit le coût total de possession et rend économiquement viable le déploiement d'agents spécialisés opérant en parallèle sur différents domaines métiers. NVIDIA et Anthropic travaillent également à intégrer les outils NVIDIA directement dans la pile Anthropic, permettant d'enrichir les agents Claude de compétences sectorielles précises via les "NVIDIA Verified Agent Skills". Ces agents peuvent ainsi être déployés comme une couche opérationnelle centrale au sein d'une organisation. Sur le plan de la gouvernance, NVIDIA propose un cadre de référence baptisé Secure Agent Workspace Reference Design, qui permet de faire tourner des agents autonomes dans un environnement contrôlé où l'identité, les accès réseau, les credentials et les politiques d'exécution sont gérés au niveau de l'infrastructure. Cette approche répond à l'une des principales préoccupations des directions informatiques face aux agents IA : le contrôle et la traçabilité. La convergence entre les grands modèles de langage d'Anthropic, la puissance de calcul de NVIDIA et l'écosystème cloud de Microsoft dessine un modèle d'intégration qui pourrait devenir une référence pour les déploiements IA en entreprise au cours des prochains mois.

UELes entreprises européennes utilisant Microsoft Azure peuvent désormais déployer les modèles Claude sur des GPU Blackwell Ultra, ce qui améliore les performances d'inférence et réduit les coûts pour les déploiements d'agents IA en entreprise dans le cloud.

InfrastructureActu

1 source

2VentureBeat AI

57% des entreprises ont vu leurs agents IA se tromper avec assurance, la solution est une couche de contexte pour agents, mais qui en dispose?

Un agent IA d'entreprise répond avec une confiance totale, mais le chiffre est faux. Personne ne s'en aperçoit avant qu'on ne remonte la source jusqu'à une définition de métrique obsolète ou un document que le système de récupération n'a jamais consulté. Le modèle n'a pas échoué : c'est le contexte qui lui a été fourni qui a fait défaut. Selon une enquête VB Pulse menée en juin 2026 auprès de 101 entreprises qualifiées de plus de 100 salariés, 57% d'entre elles ont retracé, au cours des six derniers mois, une réponse d'agent IA fausse mais formulée avec assurance jusqu'à un contexte métier manquant ou incohérent, et 31% affirment que le problème s'est reproduit plusieurs fois. La cause est simple à identifier : la récupération de documents (retrieval) reste la méthode par défaut pour fournir du contexte métier aux agents dans 38% des entreprises, presque deux fois plus que l'approche suivante. Or le choix du système de récupération privilégie la facilité d'ingestion et la simplicité opérationnelle, la précision de récupération arrivant loin derrière, un problème qui ne se révèle qu'une fois le système déjà en production. Il existe une solution connue: une couche de contexte gouvernée, que chaque agent consulte au lieu d'improviser. Cette couche est censée constituer un modèle partagé de ce que signifient réellement les données de l'entreprise, construit une fois pour toutes plutôt que redérivé par chaque agent. Mais 75% des entreprises n'en possèdent pas encore. Seules 25% des répondants en exploitent une en production, 34% sont en train d'en construire une, et 41% n'ont rien entamé. Fait notable, parmi les entreprises qui construisent ou exploitent déjà une couche de contexte gouvernée, 78% rapportent avoir déjà subi une réponse faussement assurée, contre seulement 20% chez celles qui n'ont aucun projet en ce sens. Autrement dit, ce sont surtout les entreprises déjà échaudées qui se mettent à construire le correctif, tandis que les autres ne perçoivent pas encore l'urgence. Tous les grands éditeurs de plateformes de données et d'IA développent désormais leur propre version de cette couche de contexte, sans converger vers une architecture commune. DataHub traite les métadonnées de catalogue et des années de comportement de requêtes analystes comme une base de connaissances vivante. Microsoft, avec Fabric IQ, construit une ontologie métier interrogeable par tout agent via le protocole MCP. Couchbase parie sur une mémoire d'agent proche de la base de données opérationnelle plutôt que sur une couche de recherche greffée après coup. Pinecone, avec Nexus, précompile la logique structurelle dans la couche de métadonnées avant l'exécution. Snowflake combine deux systèmes, Horizon Context pour les définitions gérées par le client et Cortex Sense pour le contexte inféré automatiquement. Oracle, avec Unified Memory Core, fusionne données vectorielles, graphes et relationnelles dans un seul moteur transactionnel afin d'éliminer toute couche de synchronisation susceptible de se périmer. Google et AWS misent tous deux sur des graphes de connaissances qui s'affinent à partir des journaux de requêtes et de l'usage réel des agents. Pour Michael Ni, vice-président et analyste principal chez Constellation Research, l'enjeu est clair: qui contrôle le contexte au moment de l'exécution contrôle la couche de décision de l'IA sur les données de l'entreprise, la mémoire vectorielle seule ne suffisant pas à garantir un sens métier fiable.

UELes entreprises françaises et européennes déployant des agents IA sont exposées au même risque de réponses faussement assurées faute de couche de contexte gouvernée, sans qu'aucun acteur européen ne figure parmi les solutions citées.

💬 57% des entreprises se sont fait avoir par un agent qui répond faux avec un aplomb total, et 75% n'ont toujours pas la couche de contexte qui corrigerait ça. Le vrai enseignement du papier, c'est que ce sont surtout les boîtes déjà brûlées qui se mettent à la construire, les autres n'ont pas encore compris l'urgence. Microsoft, Snowflake, Oracle, chacun bâtit sa version maison sans converger vers un standard commun, et aucun acteur européen n'est dans la partie sur un sujet qui va peser lourd sur qui contrôle la donnée métier des agents IA.

InfrastructureOpinion

1 source

3VentureBeat AI

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud

Microsoft a dévoilé lundi le Surface RTX Spark Dev Box lors de la conférence Build 2026, un ordinateur de bureau compact destiné aux développeurs de logiciels qui souhaitent faire tourner de grands modèles d'intelligence artificielle en local, sans passer par le cloud. La machine embarque le nouveau processeur RTX Spark d'Nvidia, basé sur l'architecture Blackwell, et dispose de 128 gigaoctets de mémoire unifiée partagée dynamiquement entre le CPU et le GPU. Cette configuration permet d'atteindre un pétaflop de puissance de calcul IA, ce qui autorise l'exécution de modèles dépassant 120 milliards de paramètres sans envoyer la moindre requête vers un serveur distant. Pavan Davuluri, vice-président exécutif de Windows et Devices chez Microsoft, a précisé que la mémoire joue un rôle critique : à 100 000 tokens de contexte, le cache clé-valeur d'un grand modèle peut à lui seul consommer entre 40 et 50 gigaoctets, ce qui explique le choix de ce pool mémoire de 128 Go. L'appareil sera commercialisé exclusivement sur Microsoft.com aux États-Unis d'ici la fin de l'année, sans prix annoncé à ce stade. L'enjeu est directement économique. Les entreprises de toutes tailles font face à des factures cloud GPU qui s'accumulent de façon imprévisible : chaque appel d'inférence, chaque cycle de fine-tuning, chaque workflow agentique qui itère sur un modèle frontier génère des coûts qui s'emballent pour un développeur testant son prototype des dizaines de fois par jour. Andrew Hill, vice-président de Surface, a résumé la promesse dans le billet d'annonce : le Dev Box "change l'équation" en permettant aux équipes de "réserver les appels aux modèles frontier aux vrais problèmes frontier, et de traiter le reste sur leur propre matériel." La proposition n'est pas que le cloud soit dépassé, mais qu'une large partie des tâches actuellement envoyées à des datacenters distants ne justifie pas des modèles de pointe et serait mieux servie par du matériel local à coût fixe et prévisible. Ce lancement marque un tournant stratégique notable pour Microsoft, dont Azure génère plusieurs dizaines de milliards de dollars de revenus annuels. En commercialisant explicitement un appareil qui réduit la dépendance au cloud de ses propres clients, l'entreprise reconnaît une tension structurelle qui monte dans l'industrie depuis l'explosion des coûts d'inférence. Le pari de Redmond est que les développeurs qui prototypent en local déploieront ensuite sur Azure lorsqu'ils auront besoin de passer à l'échelle, et que contrôler les deux extrémités de ce cycle de développement est plus rentable que de n'en posséder qu'une. L'architecture RTX Spark, qui fusionne CPU ARM et GPU Blackwell en un seul chip avec mémoire unifiée, remplace quatre composants distincts d'un PC classique et ouvre la voie à une nouvelle génération de postes de travail IA autonomes.

InfrastructureOpinion

1 source

4NVIDIA AI Blog

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC

NVIDIA a annoncé que son infrastructure réseau Spectrum-X Ethernet intègre désormais le protocole MRC (Multipath Reliable Connection), une innovation développée conjointement avec OpenAI et Microsoft, et désormais publiée en spécification ouverte via l'Open Compute Project. MRC est un protocole de transport RDMA qui permet à une seule connexion réseau de distribuer le trafic sur plusieurs chemins simultanément, améliorant le débit, l'équilibrage de charge et la disponibilité des infrastructures d'entraînement IA à grande échelle. Parmi les premiers déploiements en production figurent le datacenter Fairwater de Microsoft et le datacenter Abilene d'Oracle Cloud Infrastructure, deux des plus grandes usines IA au monde dédiées à l'entraînement de modèles de pointe. OpenAI a notamment intégré MRC dans sa génération Blackwell : Sachin Katti, responsable du calcul industriel chez OpenAI, a confirmé que le protocole a permis d'éviter la majorité des ralentissements réseau habituels lors des runs d'entraînement frontier à grande échelle. L'enjeu est directement économique et computationnel : dans un cluster d'entraînement réunissant des milliers de GPU, la moindre interruption réseau peut bloquer l'intégralité d'un job d'entraînement, laissant des GPU à l'arrêt et brûlant des millions de dollars en temps de calcul inutilisé. MRC répond à ce problème en détectant les pannes réseau en quelques microsecondes et en reroutant automatiquement le trafic dans le matériel lui-même, sans intervention logicielle. Le protocole maintient également une bande passante élevée sous congestion en évitant dynamiquement les chemins surchargés en temps réel, et minimise l'impact des pertes de paquets grâce à une retransmission intelligente et ciblée. Les administrateurs gagnent par ailleurs une visibilité granulaire sur les chemins de trafic, ce qui simplifie considérablement les opérations à très grande échelle. Cette annonce s'inscrit dans une course mondiale à la construction d'infrastructures réseau capables de suivre l'explosion des besoins en calcul IA. Jusqu'ici, InfiniBand de Mellanox, aussi propriété de NVIDIA, dominait les clusters HPC et IA haute performance, tandis qu'Ethernet était perçu comme moins adapté aux charges de travail intensives. Spectrum-X représente la tentative de NVIDIA de rendre Ethernet compétitif sur ce terrain en y ajoutant une couche matérielle et protocolaire dédiée à l'IA. La publication de MRC comme spécification ouverte via l'Open Compute Project est un signal stratégique fort : en permettant à d'autres acteurs d'implémenter le protocole, NVIDIA cherche à imposer Spectrum-X comme standard de facto du réseau Ethernet pour l'IA, face aux alternatives comme Ultra Ethernet Consortium poussé par AMD, Intel et d'autres. La prochaine étape sera de voir si d'autres fournisseurs cloud et constructeurs de clusters adoptent MRC à leur tour.

UELa publication de MRC comme spécification ouverte via l'Open Compute Project pourrait à terme bénéficier aux centres de données européens qui développent des infrastructures d'entraînement IA, mais aucune entreprise ou institution européenne n'est directement impliquée dans cette annonce.

InfrastructureOpinion

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic