Aller au contenu principal
L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique
InfrastructureNVIDIA AI Blog12sem· 2 min de lecture

L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique

Source originale ↗·
L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique
▶ Voir sur YouTube

NVIDIA et la startup Emerald AI ont présenté lors du CERAWeek — le sommet mondial de l'énergie surnommé le « Davos de l'énergie » — une architecture inédite qui transforme les usines à IA en actifs flexibles pour le réseau électrique. Construite sur la plateforme NVIDIA Vera Rubin DSX et le logiciel Conductor d'Emerald AI, cette approche intègre calcul, gestion de l'énergie et pilotage en temps réel dans une architecture unifiée. Concrètement, une usine à IA peut désormais moduler sa consommation électrique en fonction des conditions du réseau, tout en continuant à produire des tokens. Six grands acteurs de l'énergie — AES, Constellation, Invenergy, NextEra Energy, Nscale Energy & Power et Vistra — se sont engagés à construire des capacités de production compatibles avec cette architecture, notamment via des projets hybrides combinant alimentation locale et connexion au réseau. Du côté de l'efficacité pure, NVIDIA revendique une progression d'un million de fois le nombre de tokens générés pour un même budget énergétique, entre le GPU Kepler de 2012 et la plateforme Vera Rubin lancée cette année. La métrique clé est désormais le « tokens par seconde par watt ».

Cet enjeu dépasse la simple optimisation technique : la croissance explosive des infrastructures IA menace de déstabiliser des réseaux électriques déjà sous tension. En rendant les centres de calcul capables de s'adapter en temps réel à l'offre disponible — en réduisant leur consommation lors des pics de demande, par exemple — cette approche évite de dimensionner le réseau pour des pointes qui ne surviennent que rarement. Pour les opérateurs d'énergie, cela représente une nouvelle classe de clients industriels qui, au lieu de fragiliser le réseau, peuvent contribuer à sa stabilité. Pour les entreprises qui déploient l'IA à grande échelle, l'avantage est double : des coûts opérationnels réduits et un accès accéléré à la puissance électrique, souvent le principal goulot d'étranglement dans la construction de nouveaux data centers.

Jensen Huang, fondateur et PDG de NVIDIA, décrit l'infrastructure IA comme un « gâteau à cinq couches » — énergie, puces, infrastructure, modèles, applications — dans lequel l'énergie constitue la base fondatrice. C'est dans cette logique que s'inscrit également l'annonce de Maximo, une entreprise de robotique solaire incubée par AES, qui a achevé l'installation autonome d'une ferme solaire de 100 mégawatts sur le site Bellefield d'AES, en utilisant NVIDIA Omniverse et Isaac Sim. TerraPower, en partenariat avec SoftServe, a de son côté présenté une plateforme de jumeau numérique propulsée par Omniverse pour accélérer la conception de réacteurs nucléaires. Ces annonces illustrent une tendance de fond : l'IA ne se contente plus de consommer de l'énergie, elle commence à en accélérer la production.

Impact France/UE

Nscale, opérateur européen de data centers, figure parmi les six partenaires engagés dans cette architecture, ce qui pourrait influencer la stratégie énergétique des centres de calcul IA en Europe.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC
1NVIDIA AI Blog 

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC

NVIDIA a annoncé que son infrastructure réseau Spectrum-X Ethernet intègre désormais le protocole MRC (Multipath Reliable Connection), une innovation développée conjointement avec OpenAI et Microsoft, et désormais publiée en spécification ouverte via l'Open Compute Project. MRC est un protocole de transport RDMA qui permet à une seule connexion réseau de distribuer le trafic sur plusieurs chemins simultanément, améliorant le débit, l'équilibrage de charge et la disponibilité des infrastructures d'entraînement IA à grande échelle. Parmi les premiers déploiements en production figurent le datacenter Fairwater de Microsoft et le datacenter Abilene d'Oracle Cloud Infrastructure, deux des plus grandes usines IA au monde dédiées à l'entraînement de modèles de pointe. OpenAI a notamment intégré MRC dans sa génération Blackwell : Sachin Katti, responsable du calcul industriel chez OpenAI, a confirmé que le protocole a permis d'éviter la majorité des ralentissements réseau habituels lors des runs d'entraînement frontier à grande échelle. L'enjeu est directement économique et computationnel : dans un cluster d'entraînement réunissant des milliers de GPU, la moindre interruption réseau peut bloquer l'intégralité d'un job d'entraînement, laissant des GPU à l'arrêt et brûlant des millions de dollars en temps de calcul inutilisé. MRC répond à ce problème en détectant les pannes réseau en quelques microsecondes et en reroutant automatiquement le trafic dans le matériel lui-même, sans intervention logicielle. Le protocole maintient également une bande passante élevée sous congestion en évitant dynamiquement les chemins surchargés en temps réel, et minimise l'impact des pertes de paquets grâce à une retransmission intelligente et ciblée. Les administrateurs gagnent par ailleurs une visibilité granulaire sur les chemins de trafic, ce qui simplifie considérablement les opérations à très grande échelle. Cette annonce s'inscrit dans une course mondiale à la construction d'infrastructures réseau capables de suivre l'explosion des besoins en calcul IA. Jusqu'ici, InfiniBand de Mellanox, aussi propriété de NVIDIA, dominait les clusters HPC et IA haute performance, tandis qu'Ethernet était perçu comme moins adapté aux charges de travail intensives. Spectrum-X représente la tentative de NVIDIA de rendre Ethernet compétitif sur ce terrain en y ajoutant une couche matérielle et protocolaire dédiée à l'IA. La publication de MRC comme spécification ouverte via l'Open Compute Project est un signal stratégique fort : en permettant à d'autres acteurs d'implémenter le protocole, NVIDIA cherche à imposer Spectrum-X comme standard de facto du réseau Ethernet pour l'IA, face aux alternatives comme Ultra Ethernet Consortium poussé par AMD, Intel et d'autres. La prochaine étape sera de voir si d'autres fournisseurs cloud et constructeurs de clusters adoptent MRC à leur tour.

UELa publication de MRC comme spécification ouverte via l'Open Compute Project pourrait à terme bénéficier aux centres de données européens qui développent des infrastructures d'entraînement IA, mais aucune entreprise ou institution européenne n'est directement impliquée dans cette annonce.

InfrastructureOpinion
1 source
NVIDIA et AWS s'associent pour déployer l'IA en production à grande échelle
2NVIDIA AI Blog 

NVIDIA et AWS s'associent pour déployer l'IA en production à grande échelle

NVIDIA et Amazon Web Services (AWS) ont annoncé un approfondissement de leur collaboration pour faciliter le déploiement de l'intelligence artificielle à grande échelle en production. Les nouvelles instances Amazon EC2 G7, équipées des GPU NVIDIA RTX PRO 4500 Blackwell Server Edition, offrent jusqu'à 4,6 fois les performances d'inférence IA et 2,1 fois les performances graphiques par rapport aux instances G6 précédentes. Ces instances supportent jusqu'à huit GPU, 256 Go de mémoire GPU totale, 700 Gbps de réseau EFA et jusqu'à 7,6 To de stockage NVMe local, dans des configurations allant d'un à huit GPU. Parallèlement, la bibliothèque NVIDIA cuVS devient le moteur par défaut de l'indexation vectorielle dans Amazon OpenSearch Serverless, avec des performances jusqu'à dix fois supérieures à un coût quatre fois inférieur aux solutions CPU seules. AWS a par ailleurs obtenu le statut NVIDIA Exemplar Cloud sur les GPU GB300, certification attestant que la plateforme répond aux seuils de performance de référence de NVIDIA pour les charges d'entraînement. Ces avancées changent concrètement la donne pour les équipes qui construisent des systèmes d'IA en production. L'intégration de cuVS comme choix par défaut dans OpenSearch Serverless transforme la recherche vectorielle accélérée par GPU d'un projet d'optimisation spécialisé en une capacité AWS standard. Cela signifie que des bases de données vectorielles à l'échelle du milliard d'entrées deviennent réalisables en moins d'une heure, ce qui rend les applications de type RAG (retrieval-augmented generation), recherche sémantique ou IA agentique accessibles à un bien plus grand nombre d'entreprises. Pour les équipes médias et data, les instances G7 permettent également de traiter des workflows vidéo haute résolution, du rendu 3D et des pipelines analytiques sur le même type d'instance, réduisant la complexité opérationnelle. Cette collaboration s'inscrit dans une course entre les grands fournisseurs cloud à offrir la meilleure infrastructure IA clé en main. NVIDIA cherche à s'imposer comme couche matérielle incontournable, aussi bien pour l'entraînement que pour l'inférence et la recherche vectorielle, tandis qu'AWS veut simplifier le passage de l'expérimentation à la production. Le statut Exemplar Cloud sur les GB300, fruit d'un co-engineering approfondi entre les deux entreprises, positionne AWS comme plateforme de référence pour les charges d'entraînement les plus exigeantes. Les instances G7 seront prochainement disponibles sur Amazon SageMaker AI, ce qui étendra encore leur portée. L'enjeu sous-jacent est de réduire la friction entre infrastructure et application pour les entreprises qui n'ont pas les ressources pour gérer leurs propres clusters GPU.

UELes entreprises européennes utilisant AWS pourront bénéficier de performances IA nettement améliorées pour l'inférence et la recherche vectorielle, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

InfrastructureOpinion
1 source
Nokia et AWS renforcent leur collaboration pour créer des réseaux autonomes dédiés à l’IA
3Le Big Data 

Nokia et AWS renforcent leur collaboration pour créer des réseaux autonomes dédiés à l’IA

Nokia a annoncé le 24 juin 2026 l'extension de son partenariat stratégique avec Amazon Web Services pour déployer sa plateforme Autonomous Network Fabric directement dans le cloud AWS. L'objectif est de permettre aux opérateurs télécoms d'atteindre un niveau d'autonomie réseau de niveau 4, c'est-à-dire des infrastructures capables d'analyser, de décider et d'agir en temps réel sans intervention humaine. La solution sera disponible plus tard en 2026 et s'intégrera aux outils d'orchestration, de supervision et d'inventaire déjà proposés par Nokia sur AWS. L'architecture repose sur quatre piliers : une gestion unifiée des données réseau, une IA agentique dédiée aux opérations, des jumeaux numériques permettant de simuler l'impact des changements avant déploiement, et un pilotage par les intentions capable de traduire automatiquement des objectifs métiers en actions concrètes. Pour les opérateurs télécoms, cet accord représente un accès immédiat à l'élasticité mondiale d'AWS et à ses services d'intelligence artificielle, notamment Amazon Bedrock et Amazon SageMaker, sans avoir à investir massivement dans leurs propres capacités de calcul. Nokia affirme par ailleurs avoir optimisé son architecture cloud pour réduire les besoins en calcul et en stockage par rapport aux déploiements sur site traditionnels. L'enjeu économique est considérable : automatiser les boucles de détection et de résolution d'anomalies, orchestrer des réseaux multi-domaines et multi-fournisseurs, et disposer d'une vision unifiée de la topologie réseau permettrait de réduire significativement les coûts opérationnels tout en accélérant le lancement de nouveaux services à valeur ajoutée. Ce rapprochement s'inscrit dans une tendance de fond qui voit les équipementiers historiques des télécoms pivoter vers le cloud et l'IA face à la complexité croissante des infrastructures réseau. L'explosion des usages liés à l'IA générative et à la 5G contraint les opérateurs à gérer des réseaux toujours plus distribués et dynamiques, que les outils de gestion manuelle peinent à absorber. Nokia, concurrent direct d'Ericsson et de Huawei, mise sur AWS pour accélérer la transition de ses clients vers ce qu'il appelle les "réseaux autonomes", un segment où plusieurs acteurs se positionnent simultanément. Pour AWS, l'enjeu est de s'imposer comme le cloud de référence du secteur télécoms, un marché à forte valeur où Google Cloud et Microsoft Azure jouent également des coudes. La disponibilité annoncée d'ici fin 2026 fixe un calendrier concret sur lequel les opérateurs pourront commencer à évaluer le saut opérationnel que promet cette alliance.

UENokia, entreprise finlandaise, positionne cette solution directement pour les opérateurs télécoms européens, qui pourront évaluer un déploiement de réseaux autonomes de niveau 4 d'ici fin 2026.

InfrastructureActu
1 source
OpenAI présente MRC (Multipath Reliable Connection) : un nouveau protocole réseau ouvert pour les clusters de superordinateurs IA à grande échelle
4MarkTechPost 

OpenAI présente MRC (Multipath Reliable Connection) : un nouveau protocole réseau ouvert pour les clusters de superordinateurs IA à grande échelle

OpenAI a annoncé la publication de MRC (Multipath Reliable Connection), un nouveau protocole réseau développé au cours des deux dernières années en partenariat avec AMD, Broadcom, Intel, Microsoft et NVIDIA. La spécification a été rendue publique via l'Open Compute Project (OCP), une fondation industrielle qui favorise le partage de standards ouverts entre les grandes entreprises technologiques. MRC étend RoCE (RDMA over Converged Ethernet), un standard qui permet à des machines de lire et d'écrire directement dans la mémoire d'autres machines via un réseau Ethernet, sans passer par le processeur central. Il intègre également SRv6, un mécanisme de routage source où chaque paquet transporte dans son en-tête la route exacte qu'il doit emprunter, éliminant le besoin pour les commutateurs réseau de calculer dynamiquement les chemins. Concrètement, MRC repose sur trois mécanismes : une distribution adaptative des paquets sur des centaines de chemins réseau simultanés, une récupération en cas de panne en quelques microsecondes, et un contrôle de congestion basé sur des signaux d'information explicite plutôt que sur la détection de pertes de paquets. L'enjeu est massif : plus de 900 millions de personnes utilisent ChatGPT chaque semaine, et l'entraînement des modèles qui les font fonctionner mobilise des clusters de plusieurs dizaines de milliers de GPU travaillant en parallèle. Or, un seul transfert de données en retard peut paralyser l'ensemble d'une étape d'entraînement, laissant des milliers de GPU en attente. Sur un cluster de cette taille, une panne de lien réseau pouvait auparavant faire échouer un job d'entraînement complet ; avec MRC, le système contourne la défaillance sans interruption perceptible. La réduction du temps mort des GPU représente un gain économique direct considérable, et la prévisibilité des performances réseau permet de planifier les charges de calcul avec beaucoup plus de fiabilité. La publication de MRC s'inscrit dans une bataille plus large pour définir les standards d'infrastructure qui équiperont la prochaine génération de supercalculateurs IA. Depuis plusieurs années, deux camps s'affrontent : InfiniBand, porté historiquement par NVIDIA via Mellanox, et Ethernet, que l'Ultra Ethernet Consortium (UEC) tente de hisser au même niveau de performance. MRC est clairement dans ce second camp, et sa publication via l'OCP signale la volonté d'OpenAI de peser dans la standardisation, au-delà de l'usage interne. Avec AMD, Intel et Broadcom parmi les co-développeurs, l'initiative vise à créer une alternative crédible et ouverte à l'écosystème fermé d'InfiniBand, à un moment où la demande en infrastructures d'entraînement IA s'accélère dans toute l'industrie.

UEL'adoption de ce standard ouvert par les fournisseurs cloud et entreprises européens construisant des clusters IA pourrait réduire leur dépendance à l'écosystème propriétaire d'InfiniBand et abaisser leurs coûts d'infrastructure.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic