Aller au contenu principal
OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA
InfrastructureThe Decoder6sem· 1 min de lecture

OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA

Source originale ↗·

OpenAI a annoncé la mise au point du protocole réseau MRC en collaboration avec AMD, Broadcom, Intel, Microsoft et NVIDIA. Ce protocole open source permet de transmettre des données simultanément sur des centaines de chemins entre les GPU, là où les architectures traditionnelles n'en empruntent qu'un à la fois. Là où les infrastructures classiques nécessitent trois ou quatre couches de commutateurs réseau pour relier des dizaines de milliers de puces, MRC n'en requiert que deux pour interconnecter plus de 100 000 GPU. Le protocole est déjà opérationnel sur le supercalculateur Stargate d'OpenAI.

Cette simplification de l'architecture réseau a des conséquences directes sur les coûts et la consommation d'énergie des centres de données d'IA. Supprimer une à deux couches de commutateurs représente une économie substantielle en matériel, en câblage et en électricité, à une époque où les dépenses en infrastructure IA atteignent des dizaines de milliards de dollars par an. Pour les opérateurs de supercalculateurs, cette approche permet d'atteindre des échelles inédites tout en maîtrisant la facture énergétique, un enjeu majeur alors que la consommation des data centers est de plus en plus scrutée.

Le projet Stargate, dont les investissements annoncés dépassent 500 milliards de dollars sur plusieurs années, illustre l'ambition d'OpenAI de bâtir sa propre infrastructure de calcul à très grande échelle. La création d'un protocole open source, développé en consortium avec les principaux fabricants de semi-conducteurs et Microsoft, signale une volonté de standardiser les communications entre GPU à l'échelle des supercalculateurs modernes. En ouvrant MRC, OpenAI mise sur une adoption large qui pourrait en faire un standard de fait pour l'industrie.

Impact France/UE

Le protocole MRC pourrait réduire la consommation énergétique des supercalculateurs IA, un enjeu directement encadré par la réglementation européenne sur l'efficacité énergétique des centres de données.

💬 L'analyse de Mathieu

Enlever une à deux couches de commutateurs sur 100 000 GPU, ça veut dire des centaines de millions en matériel et en électricité économisés, pas un détail à cette échelle. Ce qui me frappe, c'est qu'OpenAI ouvre le protocole en consortium avec AMD, Broadcom, Intel et NVIDIA, plutôt que de le garder propriétaire. La stratégie est lisible : faire de MRC un standard de fait avant que quelqu'un d'autre s'y colle.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

OpenAI présente MRC (Multipath Reliable Connection) : un nouveau protocole réseau ouvert pour les clusters de superordinateurs IA à grande échelle
1MarkTechPost 

OpenAI présente MRC (Multipath Reliable Connection) : un nouveau protocole réseau ouvert pour les clusters de superordinateurs IA à grande échelle

OpenAI a annoncé la publication de MRC (Multipath Reliable Connection), un nouveau protocole réseau développé au cours des deux dernières années en partenariat avec AMD, Broadcom, Intel, Microsoft et NVIDIA. La spécification a été rendue publique via l'Open Compute Project (OCP), une fondation industrielle qui favorise le partage de standards ouverts entre les grandes entreprises technologiques. MRC étend RoCE (RDMA over Converged Ethernet), un standard qui permet à des machines de lire et d'écrire directement dans la mémoire d'autres machines via un réseau Ethernet, sans passer par le processeur central. Il intègre également SRv6, un mécanisme de routage source où chaque paquet transporte dans son en-tête la route exacte qu'il doit emprunter, éliminant le besoin pour les commutateurs réseau de calculer dynamiquement les chemins. Concrètement, MRC repose sur trois mécanismes : une distribution adaptative des paquets sur des centaines de chemins réseau simultanés, une récupération en cas de panne en quelques microsecondes, et un contrôle de congestion basé sur des signaux d'information explicite plutôt que sur la détection de pertes de paquets. L'enjeu est massif : plus de 900 millions de personnes utilisent ChatGPT chaque semaine, et l'entraînement des modèles qui les font fonctionner mobilise des clusters de plusieurs dizaines de milliers de GPU travaillant en parallèle. Or, un seul transfert de données en retard peut paralyser l'ensemble d'une étape d'entraînement, laissant des milliers de GPU en attente. Sur un cluster de cette taille, une panne de lien réseau pouvait auparavant faire échouer un job d'entraînement complet ; avec MRC, le système contourne la défaillance sans interruption perceptible. La réduction du temps mort des GPU représente un gain économique direct considérable, et la prévisibilité des performances réseau permet de planifier les charges de calcul avec beaucoup plus de fiabilité. La publication de MRC s'inscrit dans une bataille plus large pour définir les standards d'infrastructure qui équiperont la prochaine génération de supercalculateurs IA. Depuis plusieurs années, deux camps s'affrontent : InfiniBand, porté historiquement par NVIDIA via Mellanox, et Ethernet, que l'Ultra Ethernet Consortium (UEC) tente de hisser au même niveau de performance. MRC est clairement dans ce second camp, et sa publication via l'OCP signale la volonté d'OpenAI de peser dans la standardisation, au-delà de l'usage interne. Avec AMD, Intel et Broadcom parmi les co-développeurs, l'initiative vise à créer une alternative crédible et ouverte à l'écosystème fermé d'InfiniBand, à un moment où la demande en infrastructures d'entraînement IA s'accélère dans toute l'industrie.

UEL'adoption de ce standard ouvert par les fournisseurs cloud et entreprises européens construisant des clusters IA pourrait réduire leur dépendance à l'écosystème propriétaire d'InfiniBand et abaisser leurs coûts d'infrastructure.

InfrastructureOpinion
1 source
Le capital, et non la puissance de calcul, est le vrai goulet d'étranglement de l'IA
2The Information AI 

Le capital, et non la puissance de calcul, est le vrai goulet d'étranglement de l'IA

L'explosion de la demande en infrastructure IA a déclenché l'un des cycles d'investissement les plus colossaux de l'histoire moderne. Jensen Huang, PDG de Nvidia, estime qu'un gigawatt de capacité de calcul peut coûter jusqu'à 50 milliards de dollars. McKinsey projette que la demande mondiale en centres de données pourrait atteindre 156 gigawatts d'ici 2030, ce qui porterait l'investissement total nécessaire à près de 7 000 milliards de dollars. Lors d'un récent panel organisé par The Information, trois dirigeants du secteur ont dressé un constat convergent : ce n'est pas le manque de GPU qui freine le déploiement de l'IA, mais bien le capital. Charles Fisher, directeur financier de Lambda, Marc Boroditsky, directeur commercial de Nebius, et Nick Robbins, vice-président développement chez CoreWeave, ont tous pointé la même tension : les GPU sont disponibles aujourd'hui, mais les infrastructures nécessaires pour les déployer à grande échelle prennent des années à financer et à construire. Ce goulot d'étranglement financier tient en partie à des idées reçues persistantes dans le monde bancaire. Les prêteurs rechignent à financer des actifs dont la durée de vie estimée est de six ans seulement, contre plusieurs décennies pour les réseaux câblés. Ils supposent également que la demande se concentre sur une poignée de géants du cloud, ignorant la réalité du marché. Lambda compte plus de 10 000 clients sur son cloud public, représentant environ un tiers de ses revenus, avec des comportements d'abonnement très fidèles. Chez CoreWeave, Robbins souligne que les anciens GPU Nvidia V100 et A100 continuent de générer des rendements solides bien au-delà de leur durée de vie théorique. Les contrats fermes avec des clients solvables restent le principal levier pour débloquer des financements : Nebius a ainsi conclu un accord plurimilliardaire avec Meta Platforms qui garantit l'absorption des GPU non vendus, permettant à Nebius d'utiliser la solidité financière de Meta comme caution implicite. Le vrai défi n'est donc pas tant financier que logistique. Fisher parle d'un problème de "chorégraphie" : la demande des clients se matérialise bien plus vite que la construction des centres de données ne peut suivre. Nebius répond à cette contrainte en menant tous les chantiers simultanément, sécurisant les terrains, générant la demande et levant le capital en parallèle. Au-delà des hyperscalers comme Microsoft, Google ou Amazon, qui captent l'essentiel de l'attention médiatique, la prochaine vague de croissance proviendrait de startups IA en forte croissance et de l'adoption enterprise. Des entreprises comme Cursor ou Harvey sont citées comme signaux avant-coureurs d'un marché qui dépasse largement les seuls géants technologiques, et dont le financement structuré reste encore à inventer.

InfrastructureOpinion
1 source
L'accord OpenAI-Broadcom sur les puces IA bute sur 18 milliards de financement
3The Information AI 

L'accord OpenAI-Broadcom sur les puces IA bute sur 18 milliards de financement

OpenAI et le fabricant de semi-conducteurs Broadcom avaient annoncé l'automne dernier un accord pour développer ensemble des puces d'intelligence artificielle sur mesure. L'ambition affichée était de taille : mettre en ligne suffisamment de composants avant 2030 pour consommer 10 gigawatts d'électricité, soit l'équivalent de cinq fois la production du barrage Hoover. L'objectif déclaré était de réduire la dépendance coûteuse d'OpenAI à l'égard des processeurs Nvidia. Ce que les deux entreprises n'avaient pas précisé, c'est qu'elles n'avaient pas encore trouvé comment financer le projet, dont le montant atteint 18 milliards de dollars. Ce blocage financier expose une contradiction au coeur de la stratégie d'OpenAI : l'entreprise affiche des ambitions d'infrastructure colossales tout en restant tributaire d'un partenaire unique, Nvidia, dont les GPU sont à la fois indispensables et extrêmement onéreux. Sans financement sécurisé, le calendrier du projet risque de glisser, laissant OpenAI dans une position de dépendance prolongée qui pèse directement sur ses marges et sa capacité à scaler ses modèles. Cette situation s'inscrit dans une course plus large à l'indépendance chipière. Google, Meta et Amazon ont chacun développé leurs propres accélérateurs maison pour s'affranchir de Nvidia. OpenAI, longtemps focalisé sur la recherche et les produits, arrive plus tardivement dans cette logique d'intégration verticale. L'accord avec Broadcom est une tentative de rattrapage, mais sa concrétisation dépend désormais de la capacité d'OpenAI à lever des fonds dans un contexte où ses dépenses opérationnelles restent très élevées.

InfrastructureOpinion
1 source
Broadcom refuserait de fabriquer la puce personnalisée d'OpenAI si Microsoft n'en achète pas 40 %
4The Decoder 

Broadcom refuserait de fabriquer la puce personnalisée d'OpenAI si Microsoft n'en achète pas 40 %

Le projet de puce IA sur mesure développé par OpenAI en collaboration avec Broadcom se heurte à un obstacle financier majeur. Selon des informations rapportées par The Decoder, Broadcom refuse de financer la production de ces processeurs à moins que Microsoft ne s'engage à en acheter 40 % du volume total. Or, Microsoft n'a toujours pas donné son accord. La première phase du projet représente à elle seule un coût estimé à 18 milliards de dollars. Sachin Katti, un dirigeant d'OpenAI, a qualifié cette dépendance de "financièrement peu attractive" dans un message interne. Cette impasse met en lumière la fragilité de la stratégie d'indépendance technologique d'OpenAI. La start-up cherche depuis plusieurs mois à réduire sa dépendance à Nvidia pour ses besoins en calcul, mais cette ambition se retrouve bloquée faute de garanties commerciales suffisantes. Pour Broadcom, assumer seul le risque industriel d'un projet de cette envergure sans acheteur garanti est tout simplement hors de question. La décision de Microsoft conditionne donc directement la viabilité du programme. Ce projet s'inscrit dans une tendance plus large où les grandes plateformes d'IA cherchent à concevoir leurs propres puces spécialisées, à l'image de Google avec ses TPU ou d'Amazon avec ses Trainium. OpenAI avait annoncé des ambitions dans ce sens dans le cadre de l'initiative Stargate, le mégaprojet d'infrastructure à 500 milliards de dollars soutenu par l'administration Trump. La relation complexe entre OpenAI et Microsoft, à la fois partenaire stratégique et investisseur dominant, continue de peser sur chaque grande décision opérationnelle de la société.

💬 OpenAI veut son indépendance vis-à-vis de Nvidia, mais pour financer la puce qui lui donnera cette indépendance, il faut que Microsoft signe. La dépendance a juste changé d'adresse. Broadcom ne prend pas 18 milliards de risque sans acheteur garanti, c'est du bon sens, et ça dit beaucoup sur l'état de la stratégie Stargate en ce moment.

InfrastructureActu
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic