Aller au contenu principal
Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant
InfrastructureVentureBeat AI3sem

Gemini tourne désormais sur un serveur isolé du réseau, et s'efface si on coupe le courant

Résumé IASource uniqueImpact UETake éditorial
Source originale ↗·

Cirrascale Cloud Services a annoncé lors du Google Cloud Next 2026 à Las Vegas un accord élargi avec Google Cloud pour déployer le modèle Gemini en mode entièrement déconnecté, sur des serveurs physiques isolés d'internet. Cirrascale devient ainsi le premier fournisseur de cloud spécialisé à proposer le modèle phare de Google sous forme d'appliance privée, installée soit dans les centres de données de Cirrascale, soit directement dans les locaux du client. Le système repose sur un serveur certifié Google, fabriqué par Dell, équipé de huit GPU Nvidia et protégé par des mécanismes de calcul confidentiel. Une préversion est disponible immédiatement, avec une disponibilité générale attendue en juin ou juillet 2026. Dave Driggers, PDG de Cirrascale, a insisté sur un point clé : il s'agit du modèle Gemini complet, sans aucune restriction ni version allégée, déployé dans un environnement où les données d'entrée comme de sortie restent entièrement sous le contrôle du client. Fait notable sur le plan technique, les poids du modèle résident uniquement en mémoire volatile : dès que l'alimentation est coupée, le modèle disparaît sans laisser de trace persistante.

Cette annonce répond à un problème structurel qui bloque depuis des années les secteurs régulés comme la finance, la santé, la défense et les administrations publiques. Ces organisations devaient jusqu'ici choisir entre accéder aux modèles les plus puissants via des API cloud publiques, au risque d'exposer leurs données sensibles à l'infrastructure d'un tiers, ou se contenter de modèles open source moins performants hébergés en interne. Le déploiement Cirrascale entend supprimer ce compromis. Driggers décrit l'escalade du problème de confiance : après les inquiétudes sur les données propriétaires confiées aux hyperscalers, les entreprises ont pris conscience que les prompts et les réponses générées étaient également récupérés par ces mêmes plateformes pour alimenter leurs propres systèmes, ce qui a rendu la demande de souveraineté totale incontournable.

Cette évolution s'inscrit dans un mouvement plus large de migration des modèles d'IA frontier hors des centres de données des grands hyperscalers, vers les infrastructures propres des clients, ce qui représente une rupture avec la logique cloud dominante de la dernière décennie. Driggers distingue explicitement cette offre des déploiements on-premises proposés par Microsoft Azure avec les modèles OpenAI ou par AWS Outposts : dans ces cas, les modèles restent liés à l'infrastructure de leurs éditeurs. Ici, Google ne possède pas le matériel, et son modèle fonctionne en dehors de tout réseau Google. Pour le géant de Mountain View, accepter ce niveau de délégation sur son modèle le plus avancé traduit une stratégie commerciale claire : conquérir les marchés réglementés qui lui étaient jusqu'ici fermés, quitte à renoncer au contrôle direct de l'inférence.

Impact France/UE

Ce mode de déploiement air-gap répond directement aux exigences du RGPD et de l'AI Act en matière de souveraineté des données, ouvrant potentiellement Gemini aux administrations publiques, établissements de santé et institutions financières européennes soumis à des contraintes strictes de localisation et d'isolation des données.

💬 Le point de vue du dev

Le truc des poids uniquement en mémoire volatile, c'est la partie que je trouve la plus maligne. Parce que le blocage dans les secteurs régulés c'était pas juste "mes données sortent du réseau", c'était aussi "quelqu'un peut extraire ou copier le modèle", et là, coupe l'alimentation, ça disparaît. Google accepte de perdre le contrôle de l'inférence de son meilleur modèle pour aller chercher des marchés qui lui étaient fermés depuis des années. Ça, c'est un vrai mouvement.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC
1NVIDIA AI Blog 

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC

NVIDIA a annoncé que son infrastructure réseau Spectrum-X Ethernet intègre désormais le protocole MRC (Multipath Reliable Connection), une innovation développée conjointement avec OpenAI et Microsoft, et désormais publiée en spécification ouverte via l'Open Compute Project. MRC est un protocole de transport RDMA qui permet à une seule connexion réseau de distribuer le trafic sur plusieurs chemins simultanément, améliorant le débit, l'équilibrage de charge et la disponibilité des infrastructures d'entraînement IA à grande échelle. Parmi les premiers déploiements en production figurent le datacenter Fairwater de Microsoft et le datacenter Abilene d'Oracle Cloud Infrastructure, deux des plus grandes usines IA au monde dédiées à l'entraînement de modèles de pointe. OpenAI a notamment intégré MRC dans sa génération Blackwell : Sachin Katti, responsable du calcul industriel chez OpenAI, a confirmé que le protocole a permis d'éviter la majorité des ralentissements réseau habituels lors des runs d'entraînement frontier à grande échelle. L'enjeu est directement économique et computationnel : dans un cluster d'entraînement réunissant des milliers de GPU, la moindre interruption réseau peut bloquer l'intégralité d'un job d'entraînement, laissant des GPU à l'arrêt et brûlant des millions de dollars en temps de calcul inutilisé. MRC répond à ce problème en détectant les pannes réseau en quelques microsecondes et en reroutant automatiquement le trafic dans le matériel lui-même, sans intervention logicielle. Le protocole maintient également une bande passante élevée sous congestion en évitant dynamiquement les chemins surchargés en temps réel, et minimise l'impact des pertes de paquets grâce à une retransmission intelligente et ciblée. Les administrateurs gagnent par ailleurs une visibilité granulaire sur les chemins de trafic, ce qui simplifie considérablement les opérations à très grande échelle. Cette annonce s'inscrit dans une course mondiale à la construction d'infrastructures réseau capables de suivre l'explosion des besoins en calcul IA. Jusqu'ici, InfiniBand de Mellanox, aussi propriété de NVIDIA, dominait les clusters HPC et IA haute performance, tandis qu'Ethernet était perçu comme moins adapté aux charges de travail intensives. Spectrum-X représente la tentative de NVIDIA de rendre Ethernet compétitif sur ce terrain en y ajoutant une couche matérielle et protocolaire dédiée à l'IA. La publication de MRC comme spécification ouverte via l'Open Compute Project est un signal stratégique fort : en permettant à d'autres acteurs d'implémenter le protocole, NVIDIA cherche à imposer Spectrum-X comme standard de facto du réseau Ethernet pour l'IA, face aux alternatives comme Ultra Ethernet Consortium poussé par AMD, Intel et d'autres. La prochaine étape sera de voir si d'autres fournisseurs cloud et constructeurs de clusters adoptent MRC à leur tour.

UELa publication de MRC comme spécification ouverte via l'Open Compute Project pourrait à terme bénéficier aux centres de données européens qui développent des infrastructures d'entraînement IA, mais aucune entreprise ou institution européenne n'est directement impliquée dans cette annonce.

InfrastructureOpinion
1 source
OpenAI présente MRC (Multipath Reliable Connection) : un nouveau protocole réseau ouvert pour les clusters de superordinateurs IA à grande échelle
2MarkTechPost 

OpenAI présente MRC (Multipath Reliable Connection) : un nouveau protocole réseau ouvert pour les clusters de superordinateurs IA à grande échelle

OpenAI a annoncé la publication de MRC (Multipath Reliable Connection), un nouveau protocole réseau développé au cours des deux dernières années en partenariat avec AMD, Broadcom, Intel, Microsoft et NVIDIA. La spécification a été rendue publique via l'Open Compute Project (OCP), une fondation industrielle qui favorise le partage de standards ouverts entre les grandes entreprises technologiques. MRC étend RoCE (RDMA over Converged Ethernet), un standard qui permet à des machines de lire et d'écrire directement dans la mémoire d'autres machines via un réseau Ethernet, sans passer par le processeur central. Il intègre également SRv6, un mécanisme de routage source où chaque paquet transporte dans son en-tête la route exacte qu'il doit emprunter, éliminant le besoin pour les commutateurs réseau de calculer dynamiquement les chemins. Concrètement, MRC repose sur trois mécanismes : une distribution adaptative des paquets sur des centaines de chemins réseau simultanés, une récupération en cas de panne en quelques microsecondes, et un contrôle de congestion basé sur des signaux d'information explicite plutôt que sur la détection de pertes de paquets. L'enjeu est massif : plus de 900 millions de personnes utilisent ChatGPT chaque semaine, et l'entraînement des modèles qui les font fonctionner mobilise des clusters de plusieurs dizaines de milliers de GPU travaillant en parallèle. Or, un seul transfert de données en retard peut paralyser l'ensemble d'une étape d'entraînement, laissant des milliers de GPU en attente. Sur un cluster de cette taille, une panne de lien réseau pouvait auparavant faire échouer un job d'entraînement complet ; avec MRC, le système contourne la défaillance sans interruption perceptible. La réduction du temps mort des GPU représente un gain économique direct considérable, et la prévisibilité des performances réseau permet de planifier les charges de calcul avec beaucoup plus de fiabilité. La publication de MRC s'inscrit dans une bataille plus large pour définir les standards d'infrastructure qui équiperont la prochaine génération de supercalculateurs IA. Depuis plusieurs années, deux camps s'affrontent : InfiniBand, porté historiquement par NVIDIA via Mellanox, et Ethernet, que l'Ultra Ethernet Consortium (UEC) tente de hisser au même niveau de performance. MRC est clairement dans ce second camp, et sa publication via l'OCP signale la volonté d'OpenAI de peser dans la standardisation, au-delà de l'usage interne. Avec AMD, Intel et Broadcom parmi les co-développeurs, l'initiative vise à créer une alternative crédible et ouverte à l'écosystème fermé d'InfiniBand, à un moment où la demande en infrastructures d'entraînement IA s'accélère dans toute l'industrie.

UEL'adoption de ce standard ouvert par les fournisseurs cloud et entreprises européens construisant des clusters IA pourrait réduire leur dépendance à l'écosystème propriétaire d'InfiniBand et abaisser leurs coûts d'infrastructure.

InfrastructureOpinion
1 source
Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker
3AWS ML Blog 

Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker

Amazon Web Services propose deux solutions complémentaires pour sécuriser de la capacité GPU à court terme : les EC2 Capacity Blocks for ML et les SageMaker training plans. Les Capacity Blocks permettent de réserver un nombre précis d'instances GPU pour une fenêtre temporelle définie, jusqu'à huit semaines à l'avance, avec des durées allant de 1 à 14 jours (par paliers d'un jour) ou de 15 à 182 jours (par paliers de sept jours). Chaque bloc peut couvrir jusqu'à 64 instances d'un même type, et une organisation peut cumuler jusqu'à 256 instances sur une même date en combinant plusieurs blocs au sein d'AWS Organizations. Contrairement aux réservations de capacité à la demande classiques (ODCR), ces Capacity Blocks sont entièrement en libre-service et affichent une décote de 40 à 50 % par rapport aux tarifs à la demande, tout en offrant une bien meilleure disponibilité pour les instances de type P, particulièrement recherchées. Ces solutions répondent à un besoin concret et pressant : la demande mondiale de GPU pour l'entraînement, le fine-tuning et l'inférence de modèles d'intelligence artificielle dépasse largement l'offre disponible. Pour les équipes qui ont besoin de GPU de manière ponctuelle, que ce soit pour des tests de charge, la validation de modèles, des ateliers techniques ou la préparation d'une mise en production, les options existantes présentent des limites sérieuses. Les instances à la demande ne garantissent pas la disponibilité au moment du lancement, et relâcher une instance peut signifier ne plus pouvoir la récupérer. Les instances Spot, bien que jusqu'à 90 % moins chères, peuvent être interrompues à tout moment par AWS. Les Capacity Blocks éliminent cette incertitude : la capacité est garantie pendant toute la durée réservée, ce qui permet de planifier des workloads critiques en temps contraint sans risque de pénurie de ressources. Cette pénurie de GPU n'est pas nouvelle : depuis l'explosion des usages d'IA générative à partir de 2023, les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure font face à une concurrence intense pour l'acquisition et la mise à disposition de puces Nvidia H100 et autres accélérateurs. AWS avait introduit les Capacity Blocks dès 2023 pour les instances P5, mais l'offre s'est depuis progressivement élargie. L'intégration avec les SageMaker training plans vise à couvrir également les usages managés, où AWS gère l'infrastructure sous-jacente. À terme, ces mécanismes de réservation structurée devraient devenir la norme pour toute organisation menant des expérimentations ML d'envergure, car ils permettent de concilier agilité opérationnelle et maîtrise des coûts sans recourir à des contrats pluriannuels.

UELes équipes françaises et européennes utilisant AWS pour leurs workloads ML peuvent sécuriser de la capacité GPU à court terme avec une décote de 40-50%, réduisant l'incertitude opérationnelle liée à la pénurie mondiale de GPU.

InfrastructureActu
1 source
Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA
4Le Big Data 

Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA

Blackstone et Google ont annoncé le 19 mai 2026 la création d'une coentreprise américaine dédiée aux services de calcul accéléré basés sur les TPU (Tensor Processing Units) de Google. L'accord prévoit un investissement initial de 5 milliards de dollars apportés par Blackstone en fonds propres, avec pour objectif de déployer une première capacité de 500 mégawatts d'ici 2027. Google fournit ses puces TPU, ses logiciels et ses services, tandis que Blackstone apporte son expertise dans la construction et le financement d'infrastructures à grande échelle, le fonds gère plus de 1 300 milliards de dollars d'actifs et possède une présence majeure dans les centres de données. La nouvelle entité sera dirigée par Benjamin Treynor Sloss, ancien cadre de Google avec plus de vingt ans d'expérience dans la conception d'infrastructures critiques. La capacité prévue pourrait être significativement étendue au-delà de 500 MW pour accompagner la montée en puissance des usages IA. Ce partenariat marque un tournant dans la manière dont Google monétise ses TPU, jusqu'ici cantonnées à un usage interne ou distribuées exclusivement via Google Cloud. En créant une structure commerciale indépendante, Google ouvre un nouveau canal de distribution de sa puissance de calcul, plus flexible et accessible à des entreprises qui ne souhaitent pas s'engager exclusivement avec Google Cloud. Pour les acteurs de l'IA, laboratoires de recherche, institutions financières, grandes entreprises, cela représente une alternative crédible aux GPU Nvidia, qui dominent le marché mais restent confrontés à des problèmes de disponibilité et à des coûts élevés. Cette initiative répond aussi à un besoin structurel : les grandes organisations cherchent à sécuriser des capacités de calcul stables sur le long terme, capables de soutenir des modèles d'IA toujours plus gourmands en ressources. Les TPU de Google sont développées depuis plus d'une décennie et alimentent déjà les infrastructures de Gemini ainsi que celles de nombreux partenaires technologiques. Leur ouverture à un marché plus large s'inscrit dans une logique d'industrialisation rapide de l'infrastructure IA : après la course aux modèles génératifs, la bataille se déplace vers l'accès à la puissance de calcul elle-même. Nvidia règne pour l'instant sans partage sur ce segment, mais la pression concurrentielle s'intensifie, avec des acteurs comme AMD, Intel et désormais Google qui cherchent à capter une part croissante de ce marché estimé à plusieurs centaines de milliards de dollars. L'alliance entre l'un des plus grands gestionnaires d'actifs mondiaux et le détenteur d'une technologie de calcul propriétaire de premier plan illustre comment capital financier et puissance technologique convergent pour structurer l'infrastructure de l'IA de demain.

UELes organisations et laboratoires européens de recherche en IA pourraient à terme accéder à une offre de calcul accéléré supplémentaire, mais la coentreprise est domiciliée aux États-Unis et ne cible pas spécifiquement le marché européen.

💬 5 milliards dans une JV dédiée aux TPU, ça dit clairement que la bataille pour l'infrastructure IA est lancée. Google avait ces puces depuis dix ans, les gardait pour son cloud, et il ouvre maintenant le robinet en partageant le risque avec Blackstone. Reste à voir si les TPU sont vraiment compétitifs en dehors des cas d'usage où Google a tout optimisé pour lui-même.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour