Aller au contenu principal
InfrastructureArs Technica AI7h· 1 min de lecture

OpenAI et Broadcom annoncent une puce dédiée à l'inférence de grands modèles de langage

Résumé IASources croisées · 2Impact UE
Source originale ↗·
Egalement couvert par :AI Business

OpenAI et Broadcom ont annoncé conjointement une nouvelle puce baptisée Jalapeño, conçue spécifiquement pour l'inférence de grands modèles de langage (LLM) dans les centres de données à grande échelle. Les deux entreprises présentent ce composant comme la première génération d'un partenariat à long terme, avec l'ambition d'affiner et d'améliorer le design des puces au fil des générations successives.

Cette annonce marque une étape significative dans la stratégie d'OpenAI pour maîtriser sa propre chaîne d'approvisionnement en silicium. L'inférence, soit le processus par lequel un modèle génère des réponses en temps réel, représente la charge computationnelle la plus coûteuse et la plus constante pour une entreprise comme OpenAI, qui sert des centaines de millions d'utilisateurs via ChatGPT et ses API. Disposer d'une puce dédiée, optimisée pour ce cas d'usage précis, pourrait réduire drastiquement les coûts opérationnels et diminuer la dépendance d'OpenAI envers Nvidia, dont les GPU dominent aujourd'hui le marché de l'IA.

Cette démarche s'inscrit dans une tendance de fond : les géants du numérique cherchent tous à s'affranchir de Nvidia en développant leurs propres accélérateurs. Google a ses TPU, Amazon son Trainium, Microsoft son Maia, Apple son Neural Engine. Broadcom, qui fabrique déjà des puces personnalisées pour Google et Meta, s'affirme comme le partenaire industriel privilégié de cette nouvelle vague. Le fait qu'OpenAI rejoigne ce mouvement avec un chip nominalement dédié à l'inférence signale que la société considère désormais le contrôle du matériel comme un avantage concurrentiel structurel, et non plus une simple option.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

OpenAI dévoile sa première puce d'inférence IA maison, Jalapeño, développée avec Broadcom grâce à ses propres modèles
1VentureBeat AI 

OpenAI dévoile sa première puce d'inférence IA maison, Jalapeño, développée avec Broadcom grâce à ses propres modèles

OpenAI et Broadcom ont dévoilé ce matin leur premier processeur d'inférence IA sur mesure, baptisé "Jalapeño". Contrairement aux GPU grand public d'Nvidia ou AMD, ce circuit intégré à application spécifique (ASIC) est conçu exclusivement pour faire tourner des grands modèles de langage en production, notamment derrière ChatGPT, Codex et l'API OpenAI. Ce qui frappe d'emblée, c'est la vitesse de développement : de la conception initiale à la fabrication, seulement neuf mois se sont écoulés, là où un cycle habituel de développement de processeur se compte en années. Le partenariat entre OpenAI et Broadcom n'avait d'ailleurs été annoncé publiquement qu'en octobre 2025. Greg Brockman, président et cofondateur d'OpenAI, ainsi que Hock Tan, PDG de Broadcom, ont présenté la puce ce matin sur CNBC. Brockman a précisé que le processus de conception a lui-même été accéléré grâce aux propres modèles d'OpenAI, des versions antérieures au GPT-5.5. OpenAI indique avoir déjà testé GPT-5.3-Codex-Spark sur ces puces dans un environnement de production simulé, et prévoit de déployer Jalapeño dans ses centres de données actifs d'ici fin 2026. Les performances initiales sont décrites comme "remarquables", Brockman écrivant sur X que le ratio performance par watt est "incroyable". L'enjeu dépasse largement la performance technique : il s'agit de survie économique. Des documents financiers audités récemment révélés montrent qu'OpenAI a généré 13,07 milliards de dollars de revenus en 2025, mais a engagé 34 milliards de dépenses opérationnelles, accusant une perte d'exploitation de près de 20,92 milliards de dollars. La principale cause : le coût titanesque de la puissance de calcul, essentiellement louée auprès de Microsoft Azure sur des GPU Nvidia. Concevoir ses propres puces optimisées pour l'inférence LLM permettrait à OpenAI de drastiquement réduire ce coût marginal par requête et d'atteindre enfin une rentabilité opérationnelle. Broadcom apporte la conception silicium et son réseau Tomahawk, tandis que Celestica gère l'intégration au niveau carte, rack et système. Cette annonce s'inscrit dans une stratégie plus large de verticalisation de la filière IA, un mouvement déjà emprunté par Google avec ses TPU et Amazon avec ses puces Trainium et Inferentia. OpenAI, longtemps dépendant des infrastructures de ses partenaires et investisseurs, cherche à contrôler toute sa pile technologique. Fait notable : les deux entreprises positionnent explicitement Jalapeño comme une puce "construite de zéro pour les LLMs actuels et futurs de toute l'industrie", ouvrant la voie à une commercialisation auprès d'autres acteurs de l'IA. De nombreuses questions restent ouvertes, notamment les performances comparatives face aux solutions Nvidia, les coûts de fabrication et la viabilité à grande échelle. Mais si le pari réussit, OpenAI ne sera plus seulement un éditeur de modèles : il deviendra un fournisseur d'infrastructure à part entière.

UEUne réduction future des coûts d'inférence pourrait bénéficier indirectement aux entreprises et développeurs européens utilisant l'API OpenAI, sans impact réglementaire ou industriel direct sur la France/UE.

💬 Quand tu perds 21 milliards par an, tu te construis tes propres puces. Ce que Jalapeño change vraiment, c'est pas la performance par watt, c'est qu'OpenAI sort enfin d'une dépendance à Nvidia qui les saignait à blanc requête après requête. Neuf mois de conception accélérée par leurs propres modèles, c'est la vraie rupture.

InfrastructureOpinion
1 source
L'accord OpenAI-Broadcom sur les puces IA bute sur 18 milliards de financement
2The Information AI 

L'accord OpenAI-Broadcom sur les puces IA bute sur 18 milliards de financement

OpenAI et le fabricant de semi-conducteurs Broadcom avaient annoncé l'automne dernier un accord pour développer ensemble des puces d'intelligence artificielle sur mesure. L'ambition affichée était de taille : mettre en ligne suffisamment de composants avant 2030 pour consommer 10 gigawatts d'électricité, soit l'équivalent de cinq fois la production du barrage Hoover. L'objectif déclaré était de réduire la dépendance coûteuse d'OpenAI à l'égard des processeurs Nvidia. Ce que les deux entreprises n'avaient pas précisé, c'est qu'elles n'avaient pas encore trouvé comment financer le projet, dont le montant atteint 18 milliards de dollars. Ce blocage financier expose une contradiction au coeur de la stratégie d'OpenAI : l'entreprise affiche des ambitions d'infrastructure colossales tout en restant tributaire d'un partenaire unique, Nvidia, dont les GPU sont à la fois indispensables et extrêmement onéreux. Sans financement sécurisé, le calendrier du projet risque de glisser, laissant OpenAI dans une position de dépendance prolongée qui pèse directement sur ses marges et sa capacité à scaler ses modèles. Cette situation s'inscrit dans une course plus large à l'indépendance chipière. Google, Meta et Amazon ont chacun développé leurs propres accélérateurs maison pour s'affranchir de Nvidia. OpenAI, longtemps focalisé sur la recherche et les produits, arrive plus tardivement dans cette logique d'intégration verticale. L'accord avec Broadcom est une tentative de rattrapage, mais sa concrétisation dépend désormais de la capacité d'OpenAI à lever des fonds dans un contexte où ses dépenses opérationnelles restent très élevées.

InfrastructureOpinion
1 source
Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence
3The Information AI 

Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence

Google mène des discussions avec Marvell Technology pour développer deux nouveaux puces dédiées à l'inférence d'intelligence artificielle, selon deux sources proches du dossier. La première est une unité de traitement mémoire conçue pour fonctionner en complément des TPU (Tensor Processing Units) déjà fabriqués par Google. La seconde est un nouveau TPU entièrement conçu pour exécuter des modèles d'IA en production. Aucune date officielle n'a été communiquée pour l'instant. Cette démarche illustre la demande explosive pour des puces d'inférence performantes, celles qui font tourner les applications d'IA en temps réel, des agents autonomes aux assistants commerciaux. Contrairement à l'entraînement des modèles, l'inférence mobilise des ressources en continu, à grande échelle, ce qui en fait un enjeu économique majeur pour les grandes plateformes cloud. Optimiser ces puces se traduit directement en réduction de coûts et en amélioration des performances pour des millions d'utilisateurs finaux. La course à la puce d'inférence s'intensifie sur tous les fronts. En mars dernier, Nvidia a présenté à sa conférence GTC un nouveau composant baptisé LPU (Language Processing Unit), construit sur une technologie rachetée à la startup Groq pour 20 milliards de dollars. Google, de son côté, développe ses propres TPU depuis des années pour réduire sa dépendance à Nvidia, et ce partenariat potentiel avec Marvell s'inscrit dans cette stratégie d'autonomie technologique. La bataille pour dominer l'infrastructure d'inférence promet d'être l'un des grands enjeux industriels des prochaines années.

💬 Google qui externalise une partie de sa conception de puces à Marvell, c'est un signal fort : même eux n'ont pas les ressources pour tout faire en interne à ce rythme. L'inférence, c'est le vrai coût caché de l'IA en prod, celui qui explose à mesure qu'on déploie des agents partout. Reste à voir si ce partenariat débouche sur quelque chose de concret, ou si c'est juste une piste parmi dix autres.

InfrastructureActu
1 source
Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA
4Le Big Data 

Broadcom et Meta : un partenariat à l’échelle du Gigawatt pour le futur de l’IA

Meta et Broadcom ont officialisé le 14 avril 2026 un partenariat stratégique pluriannuel pour bâtir l'une des infrastructures de calcul IA les plus massives jamais conçues. Dès la première phase, la capacité déployée dépasse 1 gigawatt, avec une trajectoire assumée vers plusieurs gigawatts dans les années à venir. Au cœur du dispositif : les puces propriétaires MTIA (Meta Training and Inference Accelerator), conçues pour optimiser à la fois l'entraînement et l'inférence des modèles d'IA. Broadcom fournit l'ensemble de la chaîne matérielle, de la conception des accélérateurs via sa plateforme XPU à leur interconnexion réseau haut débit. La collaboration est prévue pour durer jusqu'en 2029 au moins, avec des générations successives de puces MTIA adaptées aux besoins évolutifs de Meta. Ce partenariat représente un changement d'échelle radical dans la façon dont les grandes plateformes numériques abordent leurs besoins en calcul. Meta ne se contente plus d'acheter des GPU sur étagère : l'entreprise co-conçoit avec Broadcom des accélérateurs taillés sur mesure pour ses propres charges de travail, ce qui permet d'optimiser conjointement la logique de calcul, la gestion mémoire et les transferts de données à haute vitesse. L'enjeu est concret : alimenter des services utilisés quotidiennement par des milliards de personnes, de WhatsApp à Instagram en passant par Threads, tout en réduisant le coût total de possession. Mark Zuckerberg a affiché publiquement l'ambition d'apporter des capacités d'IA avancées à chaque utilisateur, jusqu'à ce qu'il décrit comme une forme de "superintelligence personnelle". À cette échelle, chaque point d'efficacité matérielle se traduit directement en milliards de dollars d'économies ou de capacités supplémentaires. Ce mouvement s'inscrit dans une tendance de fond qui redessine l'industrie du semi-conducteur et des infrastructures cloud. Face à la domination de Nvidia sur le marché des GPU d'IA, les hyperscalers comme Meta, Google ou Amazon investissent massivement dans des puces personnalisées pour réduire leur dépendance à un seul fournisseur et reprendre le contrôle de leur stack matériel. Broadcom, qui accompagne déjà Google avec ses TPU, se positionne comme le partenaire de référence pour ces projets de co-conception à grande échelle. Le choix d'une architecture réseau basée sur Ethernet ouvert plutôt que sur des protocoles propriétaires facilite l'évolutivité et l'intégration dans des data centers existants. Avec des investissements qui se chiffrent désormais en gigawatts plutôt qu'en mégawatts, la course à l'infrastructure IA prend une dimension comparable à celle de l'industrie énergétique, et les prochains trimestres diront si cette stratégie d'hyper-scalabilité donne à Meta l'avantage compétitif recherché face à OpenAI, Google et Microsoft.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic