OpenAI et Broadcom annoncent une puce dédiée à l'inférence de grands modèles de langage
OpenAI et Broadcom ont annoncé conjointement une nouvelle puce baptisée Jalapeño, conçue spécifiquement pour l'inférence de grands modèles de langage (LLM) dans les centres de données à grande échelle. Les deux entreprises présentent ce composant comme la première génération d'un partenariat à long terme, avec l'ambition d'affiner et d'améliorer le design des puces au fil des générations successives.
Cette annonce marque une étape significative dans la stratégie d'OpenAI pour maîtriser sa propre chaîne d'approvisionnement en silicium. L'inférence, soit le processus par lequel un modèle génère des réponses en temps réel, représente la charge computationnelle la plus coûteuse et la plus constante pour une entreprise comme OpenAI, qui sert des centaines de millions d'utilisateurs via ChatGPT et ses API. Disposer d'une puce dédiée, optimisée pour ce cas d'usage précis, pourrait réduire drastiquement les coûts opérationnels et diminuer la dépendance d'OpenAI envers Nvidia, dont les GPU dominent aujourd'hui le marché de l'IA.
Cette démarche s'inscrit dans une tendance de fond : les géants du numérique cherchent tous à s'affranchir de Nvidia en développant leurs propres accélérateurs. Google a ses TPU, Amazon son Trainium, Microsoft son Maia, Apple son Neural Engine. Broadcom, qui fabrique déjà des puces personnalisées pour Google et Meta, s'affirme comme le partenaire industriel privilégié de cette nouvelle vague. Le fait qu'OpenAI rejoigne ce mouvement avec un chip nominalement dédié à l'inférence signale que la société considère désormais le contrôle du matériel comme un avantage concurrentiel structurel, et non plus une simple option.
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




