Aller au contenu principal
À 45°C, une percée pour refroidir les plus grandes machines de l'IA
InfrastructureNVIDIA AI Blog3h· 2 min de lecture

À 45°C, une percée pour refroidir les plus grandes machines de l'IA

Source originale ↗·

La nouvelle génération de serveurs IA de NVIDIA, la plateforme Rubin, franchit un cap technologique en devenant la première infrastructure de calcul à atteindre 100 % de refroidissement liquide, chaque puce, chaque composant réseau, sans le moindre ventilateur. Le liquide de refroidissement circule dans un circuit fermé à une température pouvant atteindre 45 degrés Celsius, soit 13 degrés de plus que la température habituelle d'un jacuzzi. Cette architecture est formalisée dans le NVIDIA DSX AI Factory Reference Design, un guide de référence pour concevoir, construire et exploiter l'ensemble de la pile d'infrastructure d'une usine d'IA. Ali Heydari, directeur du refroidissement et de l'infrastructure de centres de données chez NVIDIA, résume l'ambition : « Nous avons éliminé d'énormes quantités de consommation électrique et pratiquement toute consommation d'eau. »

L'enjeu économique et environnemental est considérable. Historiquement, le seul refroidissement représente jusqu'à 40 % de la consommation électrique d'un centre de données, l'un des postes où les gains d'efficacité ont le plus d'impact. Les estimations sectorielles indiquent qu'augmenter la température des systèmes de refroidissement d'un seul degré réduit les coûts énergétiques associés d'environ 4 %. À l'échelle d'une installation hyperscale de 50 mégawatts, le passage à une infrastructure entièrement refroidie par liquide génère plus de 4 millions de dollars d'économies annuelles sur les coûts d'énergie et d'eau. Plus frappant encore : les centres de données conventionnels à refroidissement par air consomment environ 2,6 millions de gallons d'eau par mégawatt et par an via leurs tours de refroidissement évaporatives. L'architecture à 45°C de NVIDIA ramène ce chiffre à zéro dans la plupart des conditions climatiques, grâce à des refroidisseurs à sec en circuit fermé qui n'ont pas besoin de chiller la majorité de l'année.

Ce virage technologique s'inscrit dans une trajectoire inévitable. Pendant des décennies, l'industrie a cru qu'un centre de données froid était un centre de données efficace, une idée désormais caduque face à la densité de puissance des puces IA modernes. Richard Whitmore, président et PDG de Motivair, la division de refroidissement avancé de Schneider Electric, partenaire de longue date de NVIDIA, le dit sans détour : « Une fois que la consommation par puce a dépassé un certain seuil, le refroidissement liquide est devenu obligatoire. » Comme la plateforme Rubin impose le 100 % liquide à l'ensemble de l'écosystème, chaque opérateur de cloud et exploitant de centre de données qui s'y connecte adopte de facto cette nouvelle norme. L'ère du refroidissement par air pour l'IA de pointe touche à sa fin.

Impact France/UE

Les opérateurs de centres de données français et européens devront planifier une migration vers le refroidissement liquide pour rester compétitifs et se conformer aux objectifs d'efficacité énergétique et hydrique imposés par les réglementations européennes sur les data centers.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Meta Engineering ML 

Les agents IA unifiés de Meta optimisent les performances à grande échelle

Meta a développé une plateforme d'agents IA unifiée pour automatiser la détection et la résolution des problèmes de performance à l'échelle de son infrastructure mondiale, qui sert plus de 3 milliards d'utilisateurs. Ce programme, baptisé Capacity Efficiency Program, repose sur des agents capables d'encoder l'expertise de ses ingénieurs seniors en compétences réutilisables et composables. Résultat concret : des centaines de mégawatts (MW) de puissance électrique récupérés, soit de quoi alimenter des centaines de milliers de foyers américains pendant un an. L'outil interne FBDetect détecte chaque semaine des milliers de régressions de performance, et les agents IA prennent désormais en charge leur résolution automatisée, compressant environ dix heures d'investigation manuelle en trente minutes. Les agents vont même jusqu'à générer des pull requests prêtes à révision, couvrant l'intégralité du chemin depuis la détection d'une opportunité d'optimisation jusqu'à la correction du code. L'impact est double : économique et opérationnel. Côté défense, chaque régression non résolue rapidement se traduit par une consommation électrique supplémentaire qui s'accumule sur l'ensemble du parc de serveurs de Meta. Côté offensif, les agents permettent désormais d'explorer proactivement des optimisations dans un nombre croissant de domaines produits, des opportunités que les ingénieurs n'auraient jamais le temps de traiter manuellement. Le programme peut ainsi augmenter sa capacité de livraison de mégawatts sans augmenter proportionnellement les effectifs humains, ce qui représente un levier de scalabilité majeur pour une infrastructure de cette taille. Libérés des tâches d'investigation répétitives, les ingénieurs peuvent se concentrer sur l'innovation produit. Ce projet s'inscrit dans une tendance plus large chez les grandes plateformes technologiques : automatiser la gestion de la complexité interne à mesure que l'infrastructure croît plus vite que les équipes humaines. Chez Meta, la découverte clé a été que l'offense (recherche proactive d'optimisations) et la défense (détection de régressions) partagent la même structure de problème, ce qui a permis de construire une plateforme unique plutôt que deux systèmes séparés. L'interface d'outils standardisée est au cœur de l'architecture : elle permet aux agents de combiner investigation de données de profilage, consultation de documentation interne, analyse des déploiements récents et recherche de discussions liées. L'objectif à terme est un moteur d'efficacité autonome où l'IA gère la longue traîne des problèmes de performance, un modèle qui pourrait inspirer d'autres hyperscalers confrontés aux mêmes contraintes d'échelle.

InfrastructureActu
1 source
2AI News 

IBM : une gouvernance rigoureuse de l'IA protège les marges des entreprises

Rob Thomas, vice-président senior et directeur commercial d'IBM, a récemment exposé une thèse structurante pour les décideurs technologiques : les logiciels suivent une trajectoire prévisible, passant du statut de produit à celui de plateforme, puis d'infrastructure fondamentale. Chaque transition modifie radicalement les règles du jeu. IBM estime que l'intelligence artificielle franchit actuellement ce dernier seuil dans l'architecture des grandes entreprises, passant d'un outil expérimental à une couche opérationnelle centrale, intégrée dans la sécurité réseau, la génération de code, les décisions automatisées et la création de valeur commerciale. Cette évolution a été mise en lumière par la préversion de Claude Mythos, le nouveau modèle d'Anthropic capable, selon l'entreprise, de détecter et exploiter des vulnérabilités logicielles à un niveau comparable aux meilleurs experts humains. Face à ce pouvoir, Anthropic a lancé le projet Glasswing, une initiative sélective visant à placer ces capacités en priorité entre les mains des équipes de défense réseau. Pour IBM, cette réalité crée une exposition opérationnelle majeure pour toute organisation dont la stratégie repose sur des modèles d'IA fermés et propriétaires. Lorsqu'un système autonome peut rédiger des exploits et influencer l'environnement de sécurité global, concentrer la compréhension de ces systèmes chez un petit nombre de fournisseurs devient un risque structurel grave. Les architectures opaques génèrent également des frictions concrètes : connecter un modèle propriétaire à des bases de données vectorielles d'entreprise ou à des lacs de données sensibles crée des goulots d'étranglement de débogage considérables. Quand un modèle produit des sorties anormales ou que le taux d'hallucination augmente, les équipes techniques n'ont pas la visibilité interne nécessaire pour déterminer si l'erreur provient du pipeline de génération augmentée par récupération ou des poids du modèle de base. S'y ajoutent des problèmes de latence liés à l'intégration d'architectures sur site avec des modèles cloud verrouillés, ainsi que des coûts de calcul liés aux appels API continus qui érodent précisément les marges que ces systèmes sont censés préserver. La thèse d'IBM s'inscrit dans un débat plus large sur l'avenir de l'IA en entreprise : à l'ère des modèles-produits, la fermeture était une stratégie défendable et lucrative. À l'ère de l'IA-infrastructure, elle devient un handicap compétitif et sécuritaire. Aucun fournisseur unique ne peut anticiper tous les vecteurs d'attaque, les défaillances système ou les besoins opérationnels d'un écosystème aussi hétérogène que celui des grandes entreprises. IBM plaide donc pour une gouvernance ouverte et inspectable de l'IA, où la priorité n'est plus seulement ce que les modèles peuvent faire, mais comment ils sont construits, audités et améliorés dans la durée. Dans ce contexte, des initiatives comme Glasswing d'Anthropic signalent une prise de conscience sectorielle, mais la question de qui contrôle et comprend réellement ces infrastructures critiques reste entière.

UELa thèse d'IBM sur la gouvernance ouverte de l'IA s'aligne avec les exigences de l'AI Act européen en matière de transparence et d'auditabilité des systèmes IA déployés dans des infrastructures critiques.

InfrastructureOpinion
1 source
Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA
3Le Big Data 

Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA

Meta et Broadcom ont officialisé le 14 avril 2026 un partenariat stratégique pluriannuel pour bâtir l'une des infrastructures de calcul IA les plus massives jamais conçues. Dès la première phase, la capacité déployée dépasse 1 gigawatt, avec une trajectoire assumée vers plusieurs gigawatts dans les années à venir. Au cœur du dispositif : les puces propriétaires MTIA (Meta Training and Inference Accelerator), conçues pour optimiser à la fois l'entraînement et l'inférence des modèles d'IA. Broadcom fournit l'ensemble de la chaîne matérielle, de la conception des accélérateurs via sa plateforme XPU à leur interconnexion réseau haut débit. La collaboration est prévue pour durer jusqu'en 2029 au moins, avec des générations successives de puces MTIA adaptées aux besoins évolutifs de Meta. Ce partenariat représente un changement d'échelle radical dans la façon dont les grandes plateformes numériques abordent leurs besoins en calcul. Meta ne se contente plus d'acheter des GPU sur étagère : l'entreprise co-conçoit avec Broadcom des accélérateurs taillés sur mesure pour ses propres charges de travail, ce qui permet d'optimiser conjointement la logique de calcul, la gestion mémoire et les transferts de données à haute vitesse. L'enjeu est concret : alimenter des services utilisés quotidiennement par des milliards de personnes, de WhatsApp à Instagram en passant par Threads, tout en réduisant le coût total de possession. Mark Zuckerberg a affiché publiquement l'ambition d'apporter des capacités d'IA avancées à chaque utilisateur, jusqu'à ce qu'il décrit comme une forme de "superintelligence personnelle". À cette échelle, chaque point d'efficacité matérielle se traduit directement en milliards de dollars d'économies ou de capacités supplémentaires. Ce mouvement s'inscrit dans une tendance de fond qui redessine l'industrie du semi-conducteur et des infrastructures cloud. Face à la domination de Nvidia sur le marché des GPU d'IA, les hyperscalers comme Meta, Google ou Amazon investissent massivement dans des puces personnalisées pour réduire leur dépendance à un seul fournisseur et reprendre le contrôle de leur stack matériel. Broadcom, qui accompagne déjà Google avec ses TPU, se positionne comme le partenaire de référence pour ces projets de co-conception à grande échelle. Le choix d'une architecture réseau basée sur Ethernet ouvert plutôt que sur des protocoles propriétaires facilite l'évolutivité et l'intégration dans des data centers existants. Avec des investissements qui se chiffrent désormais en gigawatts plutôt qu'en mégawatts, la course à l'infrastructure IA prend une dimension comparable à celle de l'industrie énergétique, et les prochains trimestres diront si cette stratégie d'hyper-scalabilité donne à Meta l'avantage compétitif recherché face à OpenAI, Google et Microsoft.

InfrastructureOpinion
1 source
L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique
4NVIDIA AI Blog 

L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique

NVIDIA et la startup Emerald AI ont présenté lors du CERAWeek — le sommet mondial de l'énergie surnommé le « Davos de l'énergie » — une architecture inédite qui transforme les usines à IA en actifs flexibles pour le réseau électrique. Construite sur la plateforme NVIDIA Vera Rubin DSX et le logiciel Conductor d'Emerald AI, cette approche intègre calcul, gestion de l'énergie et pilotage en temps réel dans une architecture unifiée. Concrètement, une usine à IA peut désormais moduler sa consommation électrique en fonction des conditions du réseau, tout en continuant à produire des tokens. Six grands acteurs de l'énergie — AES, Constellation, Invenergy, NextEra Energy, Nscale Energy & Power et Vistra — se sont engagés à construire des capacités de production compatibles avec cette architecture, notamment via des projets hybrides combinant alimentation locale et connexion au réseau. Du côté de l'efficacité pure, NVIDIA revendique une progression d'un million de fois le nombre de tokens générés pour un même budget énergétique, entre le GPU Kepler de 2012 et la plateforme Vera Rubin lancée cette année. La métrique clé est désormais le « tokens par seconde par watt ». Cet enjeu dépasse la simple optimisation technique : la croissance explosive des infrastructures IA menace de déstabiliser des réseaux électriques déjà sous tension. En rendant les centres de calcul capables de s'adapter en temps réel à l'offre disponible — en réduisant leur consommation lors des pics de demande, par exemple — cette approche évite de dimensionner le réseau pour des pointes qui ne surviennent que rarement. Pour les opérateurs d'énergie, cela représente une nouvelle classe de clients industriels qui, au lieu de fragiliser le réseau, peuvent contribuer à sa stabilité. Pour les entreprises qui déploient l'IA à grande échelle, l'avantage est double : des coûts opérationnels réduits et un accès accéléré à la puissance électrique, souvent le principal goulot d'étranglement dans la construction de nouveaux data centers. Jensen Huang, fondateur et PDG de NVIDIA, décrit l'infrastructure IA comme un « gâteau à cinq couches » — énergie, puces, infrastructure, modèles, applications — dans lequel l'énergie constitue la base fondatrice. C'est dans cette logique que s'inscrit également l'annonce de Maximo, une entreprise de robotique solaire incubée par AES, qui a achevé l'installation autonome d'une ferme solaire de 100 mégawatts sur le site Bellefield d'AES, en utilisant NVIDIA Omniverse et Isaac Sim. TerraPower, en partenariat avec SoftServe, a de son côté présenté une plateforme de jumeau numérique propulsée par Omniverse pour accélérer la conception de réacteurs nucléaires. Ces annonces illustrent une tendance de fond : l'IA ne se contente plus de consommer de l'énergie, elle commence à en accélérer la production.

UENscale, opérateur européen de data centers, figure parmi les six partenaires engagés dans cette architecture, ce qui pourrait influencer la stratégie énergétique des centres de calcul IA en Europe.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic