Aller au contenu principal
Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA
InfrastructureLe Big Data6sem

Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA

Résumé IASource uniqueImpact UE
Source originale ↗·

Meta et Broadcom ont officialisé le 14 avril 2026 un partenariat stratégique pluriannuel pour bâtir l'une des infrastructures de calcul IA les plus massives jamais conçues. Dès la première phase, la capacité déployée dépasse 1 gigawatt, avec une trajectoire assumée vers plusieurs gigawatts dans les années à venir. Au cœur du dispositif : les puces propriétaires MTIA (Meta Training and Inference Accelerator), conçues pour optimiser à la fois l'entraînement et l'inférence des modèles d'IA. Broadcom fournit l'ensemble de la chaîne matérielle, de la conception des accélérateurs via sa plateforme XPU à leur interconnexion réseau haut débit. La collaboration est prévue pour durer jusqu'en 2029 au moins, avec des générations successives de puces MTIA adaptées aux besoins évolutifs de Meta.

Ce partenariat représente un changement d'échelle radical dans la façon dont les grandes plateformes numériques abordent leurs besoins en calcul. Meta ne se contente plus d'acheter des GPU sur étagère : l'entreprise co-conçoit avec Broadcom des accélérateurs taillés sur mesure pour ses propres charges de travail, ce qui permet d'optimiser conjointement la logique de calcul, la gestion mémoire et les transferts de données à haute vitesse. L'enjeu est concret : alimenter des services utilisés quotidiennement par des milliards de personnes, de WhatsApp à Instagram en passant par Threads, tout en réduisant le coût total de possession. Mark Zuckerberg a affiché publiquement l'ambition d'apporter des capacités d'IA avancées à chaque utilisateur, jusqu'à ce qu'il décrit comme une forme de "superintelligence personnelle". À cette échelle, chaque point d'efficacité matérielle se traduit directement en milliards de dollars d'économies ou de capacités supplémentaires.

Ce mouvement s'inscrit dans une tendance de fond qui redessine l'industrie du semi-conducteur et des infrastructures cloud. Face à la domination de Nvidia sur le marché des GPU d'IA, les hyperscalers comme Meta, Google ou Amazon investissent massivement dans des puces personnalisées pour réduire leur dépendance à un seul fournisseur et reprendre le contrôle de leur stack matériel. Broadcom, qui accompagne déjà Google avec ses TPU, se positionne comme le partenaire de référence pour ces projets de co-conception à grande échelle. Le choix d'une architecture réseau basée sur Ethernet ouvert plutôt que sur des protocoles propriétaires facilite l'évolutivité et l'intégration dans des data centers existants. Avec des investissements qui se chiffrent désormais en gigawatts plutôt qu'en mégawatts, la course à l'infrastructure IA prend une dimension comparable à celle de l'industrie énergétique, et les prochains trimestres diront si cette stratégie d'hyper-scalabilité donne à Meta l'avantage compétitif recherché face à OpenAI, Google et Microsoft.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Que cache le grand partenariat entre Meta et Amazon autour des puces CPU ?
1Le Big Data 

Que cache le grand partenariat entre Meta et Amazon autour des puces CPU ?

Le 24 avril 2026, Meta Platforms a officialisé un accord de plusieurs milliards de dollars avec Amazon Web Services portant sur l'accès à des dizaines de millions de cœurs de puces Graviton sur une durée estimée entre trois et cinq ans. Les puces concernées sont les Graviton5, gravées en 3 nanomètres, conçues en interne par Amazon via Annapurna Labs sur architecture Arm. Meta devient ainsi l'un des cinq plus grands clients de cette gamme de processeurs. Selon Nafea Bshara, vice-présidente d'AWS, le critère décisif pour Meta a été le rapport performance/prix, dans un contexte où les coûts d'infrastructure liés à l'IA atteignent des niveaux inédits. L'accord marque une rupture avec la logique purement GPU qui dominait les décisions d'infrastructure depuis deux ans et confirme un rééquilibrage profond des architectures de calcul à grande échelle. Ce retour des CPU au premier plan n'est pas un hasard. L'essor des agents IA, ces systèmes capables d'exécuter des tâches complexes de manière autonome, génère des besoins de calcul différents de ceux de l'entraînement des grands modèles. Les CPU jouent un rôle central dans les phases dites de post-entraînement, où les modèles sont ajustés pour des usages spécifiques, ainsi que dans la gestion de l'orchestration en amont et en aval des GPU. Loin de les remplacer, ils les complètent en optimisant l'ensemble de la chaîne de traitement. Pour Meta, qui déploie Meta AI à des centaines de millions d'utilisateurs et développe activement des expériences agentiques, la capacité à absorber des volumes massifs d'inférences à coût maîtrisé est devenue un avantage compétitif direct. Cet accord s'inscrit dans une stratégie d'infrastructure délibérément diversifiée. Meta multiplie les partenariats avec Nvidia, AMD et Arm Holdings, refusant toute dépendance à une architecture unique. La collaboration avec Amazon remonte à 2016, mais bascule ici vers un engagement sur une technologie CPU spécifique, ce qui est inédit dans leur relation. Sur le plan géographique, la majorité des déploiements sera réalisée aux États-Unis, dans un contexte de souveraineté technologique et de sécurisation des chaînes d'approvisionnement devenues des enjeux stratégiques. Du côté d'Amazon, valider Meta comme client de référence renforce la crédibilité des Graviton face aux solutions concurrentes et soutient une intégration verticale plus large : AWS vient d'annoncer 5 milliards de dollars supplémentaires investis dans Anthropic, qui utilisera elle aussi ces mêmes puces maison.

InfrastructureOpinion
1 source
Anthropic signe un accord de 3,5 gigawatts avec Broadcom et Google pour des TPU
2The Information AI 

Anthropic signe un accord de 3,5 gigawatts avec Broadcom et Google pour des TPU

Broadcom a annoncé lundi, dans un dépôt réglementaire auprès de la SEC, qu'il fournirait à Anthropic l'accès à environ 3,5 gigawatts de puissance de calcul via les TPU (Tensor Processing Units) de Google, à partir de 2027. Cet accord étend un partenariat existant qui portait initialement sur environ 1 gigawatt de capacité. Ce contrat représente une infrastructure de calcul colossale pour Anthropic, qui développe les modèles Claude. L'accès à une telle puissance de traitement conditionne directement la capacité d'une entreprise d'IA à entraîner des modèles toujours plus grands et à servir des millions d'utilisateurs simultanément. Pour Broadcom, ce partenariat consolide son rôle de fournisseur stratégique dans la chaîne d'approvisionnement des géants de l'IA. Cet accord s'inscrit dans une course effrénée aux ressources de calcul qui oppose les grands laboratoires d'IA. Anthropic, soutenu financièrement par Google et Amazon, cherche à sécuriser des capacités suffisantes pour rivaliser avec OpenAI et les modèles de Google DeepMind. Le recours aux TPU de Google plutôt qu'aux GPU Nvidia illustre la diversification croissante des stratégies d'approvisionnement en silicium dans le secteur.

InfrastructureActu
1 source
3Meta Engineering ML 

Les agents IA unifiés de Meta optimisent les performances à grande échelle

Meta a développé une plateforme d'agents IA unifiée pour automatiser la détection et la résolution des problèmes de performance à l'échelle de son infrastructure mondiale, qui sert plus de 3 milliards d'utilisateurs. Ce programme, baptisé Capacity Efficiency Program, repose sur des agents capables d'encoder l'expertise de ses ingénieurs seniors en compétences réutilisables et composables. Résultat concret : des centaines de mégawatts (MW) de puissance électrique récupérés, soit de quoi alimenter des centaines de milliers de foyers américains pendant un an. L'outil interne FBDetect détecte chaque semaine des milliers de régressions de performance, et les agents IA prennent désormais en charge leur résolution automatisée, compressant environ dix heures d'investigation manuelle en trente minutes. Les agents vont même jusqu'à générer des pull requests prêtes à révision, couvrant l'intégralité du chemin depuis la détection d'une opportunité d'optimisation jusqu'à la correction du code. L'impact est double : économique et opérationnel. Côté défense, chaque régression non résolue rapidement se traduit par une consommation électrique supplémentaire qui s'accumule sur l'ensemble du parc de serveurs de Meta. Côté offensif, les agents permettent désormais d'explorer proactivement des optimisations dans un nombre croissant de domaines produits, des opportunités que les ingénieurs n'auraient jamais le temps de traiter manuellement. Le programme peut ainsi augmenter sa capacité de livraison de mégawatts sans augmenter proportionnellement les effectifs humains, ce qui représente un levier de scalabilité majeur pour une infrastructure de cette taille. Libérés des tâches d'investigation répétitives, les ingénieurs peuvent se concentrer sur l'innovation produit. Ce projet s'inscrit dans une tendance plus large chez les grandes plateformes technologiques : automatiser la gestion de la complexité interne à mesure que l'infrastructure croît plus vite que les équipes humaines. Chez Meta, la découverte clé a été que l'offense (recherche proactive d'optimisations) et la défense (détection de régressions) partagent la même structure de problème, ce qui a permis de construire une plateforme unique plutôt que deux systèmes séparés. L'interface d'outils standardisée est au cœur de l'architecture : elle permet aux agents de combiner investigation de données de profilage, consultation de documentation interne, analyse des déploiements récents et recherche de discussions liées. L'objectif à terme est un moteur d'efficacité autonome où l'IA gère la longue traîne des problèmes de performance, un modèle qui pourrait inspirer d'autres hyperscalers confrontés aux mêmes contraintes d'échelle.

InfrastructureActu
1 source
NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC
4NVIDIA AI Blog 

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC

NVIDIA a annoncé que son infrastructure réseau Spectrum-X Ethernet intègre désormais le protocole MRC (Multipath Reliable Connection), une innovation développée conjointement avec OpenAI et Microsoft, et désormais publiée en spécification ouverte via l'Open Compute Project. MRC est un protocole de transport RDMA qui permet à une seule connexion réseau de distribuer le trafic sur plusieurs chemins simultanément, améliorant le débit, l'équilibrage de charge et la disponibilité des infrastructures d'entraînement IA à grande échelle. Parmi les premiers déploiements en production figurent le datacenter Fairwater de Microsoft et le datacenter Abilene d'Oracle Cloud Infrastructure, deux des plus grandes usines IA au monde dédiées à l'entraînement de modèles de pointe. OpenAI a notamment intégré MRC dans sa génération Blackwell : Sachin Katti, responsable du calcul industriel chez OpenAI, a confirmé que le protocole a permis d'éviter la majorité des ralentissements réseau habituels lors des runs d'entraînement frontier à grande échelle. L'enjeu est directement économique et computationnel : dans un cluster d'entraînement réunissant des milliers de GPU, la moindre interruption réseau peut bloquer l'intégralité d'un job d'entraînement, laissant des GPU à l'arrêt et brûlant des millions de dollars en temps de calcul inutilisé. MRC répond à ce problème en détectant les pannes réseau en quelques microsecondes et en reroutant automatiquement le trafic dans le matériel lui-même, sans intervention logicielle. Le protocole maintient également une bande passante élevée sous congestion en évitant dynamiquement les chemins surchargés en temps réel, et minimise l'impact des pertes de paquets grâce à une retransmission intelligente et ciblée. Les administrateurs gagnent par ailleurs une visibilité granulaire sur les chemins de trafic, ce qui simplifie considérablement les opérations à très grande échelle. Cette annonce s'inscrit dans une course mondiale à la construction d'infrastructures réseau capables de suivre l'explosion des besoins en calcul IA. Jusqu'ici, InfiniBand de Mellanox, aussi propriété de NVIDIA, dominait les clusters HPC et IA haute performance, tandis qu'Ethernet était perçu comme moins adapté aux charges de travail intensives. Spectrum-X représente la tentative de NVIDIA de rendre Ethernet compétitif sur ce terrain en y ajoutant une couche matérielle et protocolaire dédiée à l'IA. La publication de MRC comme spécification ouverte via l'Open Compute Project est un signal stratégique fort : en permettant à d'autres acteurs d'implémenter le protocole, NVIDIA cherche à imposer Spectrum-X comme standard de facto du réseau Ethernet pour l'IA, face aux alternatives comme Ultra Ethernet Consortium poussé par AMD, Intel et d'autres. La prochaine étape sera de voir si d'autres fournisseurs cloud et constructeurs de clusters adoptent MRC à leur tour.

UELa publication de MRC comme spécification ouverte via l'Open Compute Project pourrait à terme bénéficier aux centres de données européens qui développent des infrastructures d'entraînement IA, mais aucune entreprise ou institution européenne n'est directement impliquée dans cette annonce.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour