Aller au contenu principal
Google lance ses TPU v8 et spécialise ses puces pour l’IA : enjeux et comparatif maison
InfrastructureNext INpact3sem

Google lance ses TPU v8 et spécialise ses puces pour l’IA : enjeux et comparatif maison

Résumé IASource uniqueImpact UE
Source originale ↗·

Google a annoncé sa huitième génération de Tensor Processing Units (TPU), ses puces spécialisées dans les calculs d'intelligence artificielle. Pour la première fois dans l'histoire de la gamme, la firme de Mountain View propose deux variantes distinctes basées non plus sur le niveau de performance, mais sur le type d'usage : le TPU v8t, orienté vers l'entraînement des modèles, et le TPU v8i, dédié à l'inférence. C'est une rupture notable avec les générations précédentes, comme les v5e et v5p, qui se différenciaient uniquement par l'efficacité énergétique contre la puissance brute.

Cette spécialisation par usage représente un changement de stratégie significatif pour Google. Selon la firme elle-même, "les deux puces peuvent gérer différentes charges de travail, mais la spécialisation permet d'obtenir des gains significatifs". En séparant l'entraînement de l'inférence au niveau matériel, Google cherche à optimiser le rapport performances/coût pour chaque étape du cycle de vie d'un modèle d'IA. Pour les entreprises clientes de Google Cloud, cela se traduit potentiellement par des coûts d'exploitation réduits et une meilleure efficacité dans le déploiement de modèles génératifs à grande échelle.

Cette annonce s'inscrit dans une course aux puces IA qui s'est considérablement intensifiée depuis 2018, date des TPU v3. En huit générations, Google a construit une alternative crédible aux GPU de Nvidia, qui dominent encore largement le marché de l'accélération IA. La firme utilise ses TPU en interne pour entraîner ses propres modèles Gemini, ce qui lui confère un avantage compétitif double : maîtrise du hardware et du software. Face à la montée en puissance de concurrents comme les puces Trainium d'Amazon ou les Gaudi d'Intel, la spécialisation des TPU v8 pourrait devenir un argument commercial décisif pour attirer les grandes entreprises vers Google Cloud plutôt que vers AWS ou Azure.

Impact France/UE

Les entreprises européennes qui s'appuient sur Google Cloud pour entraîner ou déployer des modèles d'IA pourraient bénéficier d'une réduction des coûts d'exploitation grâce à la spécialisation matérielle des TPU v8.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
1Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

InfrastructureOpinion
1 source
Google TPU v8 : la puce IA qui défie NVIDIA Blackwell
2Le Big Data 

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion
1 source
Google dévoile deux nouveaux TPU conçus pour l'ère des agents autonomes
3Ars Technica AI 

Google dévoile deux nouveaux TPU conçus pour l'ère des agents autonomes

Google a dévoilé sa huitième génération de puces TPU (Tensor Processing Units), marquant une évolution significative dans l'architecture de ses accélérateurs d'intelligence artificielle. Contrairement à une simple amélioration itérative, cette génération se décline en deux variantes distinctes : le TPU 8t, dédié à l'entraînement des modèles, et le TPU 8i, optimisé pour l'inférence. L'annonce fait suite au lancement de l'Ironwood, la septième génération, présenté en 2025. Selon Google, le TPU 8t permettrait de réduire la durée d'entraînement des modèles d'IA frontier de plusieurs mois à quelques semaines seulement. Cette bifurcation matérielle reflète une lecture stratégique de l'évolution de l'IA : les systèmes dits "agentiques", capables d'agir de façon autonome sur des tâches complexes, génèrent des charges de travail très différentes de celles des modèles conversationnels classiques. Séparer l'entraînement de l'inférence au niveau du silicium permet d'optimiser chaque phase indépendamment, avec des gains attendus en vitesse et en efficacité énergétique. Pour les entreprises clientes de Google Cloud, cela se traduit potentiellement par des coûts réduits et des cycles de développement accélérés. Google se distingue depuis longtemps du reste de l'industrie en misant sur ses propres puces plutôt que sur les accélérateurs Nvidia, qui dominent largement le marché de l'IA. Cette stratégie verticale lui confère un avantage en termes de contrôle de la chaîne d'approvisionnement et d'optimisation logicielle, mais implique des investissements considérables en R&D. La montée en puissance des agents IA, capables d'enchaîner des raisonnements et d'interagir avec des outils externes, intensifie la demande en inférence continue et à faible latence, un terrain sur lequel le TPU 8i est précisément conçu pour s'imposer. La prochaine étape sera de savoir si ces puces tiennent leurs promesses face aux solutions Nvidia dans des benchmarks réels.

UELes entreprises européennes utilisant Google Cloud pourraient bénéficier de coûts d'entraînement réduits et de cycles de développement accélérés grâce à ces nouvelles puces.

InfrastructureOpinion
1 source
Google et SpaceX explorent des data centers spatiaux en orbite pour l’IA
4Le Big Data 

Google et SpaceX explorent des data centers spatiaux en orbite pour l’IA

Google et SpaceX seraient en pourparlers avancés sur le déploiement de centres de données en orbite basse, destinés à héberger des charges de calcul dédiées à l'intelligence artificielle. Selon le Wall Street Journal, les deux groupes étudient un accord qui permettrait à Google d'utiliser les capacités de lancement de SpaceX pour placer progressivement des infrastructures informatiques dans l'espace. Cette initiative reste encore au stade exploratoire, sans confirmation officielle d'Elon Musk, mais elle s'inscrit dans un contexte où SpaceX prépare une introduction en bourse valorisée à près de 1 750 milliards de dollars, pariant sur la viabilité économique future de ces infrastructures orbitales. Google ne limiterait pas non plus ses discussions à SpaceX, en parallèle de discussions avec d'autres acteurs du secteur spatial, tout en avançant sur son projet Suncatcher, annoncé en 2018, dont les premiers prototypes de satellites sont attendus à partir de 2027. L'enjeu est considérable pour l'industrie tech. Les modèles d'IA générative réclament des volumes de calcul en croissance exponentielle, tandis que les data centers terrestres se heurtent à des limites de plus en plus contraignantes : consommation électrique massive, occupation foncière importante, et opposition croissante de riverains et d'élus dans plusieurs États américains. Des projets entiers ralentissent en raison d'inquiétudes autour de l'utilisation de l'eau, de l'empreinte carbone et de la pression sur les réseaux électriques locaux. Des infrastructures en orbite permettraient, en théorie, de contourner ces contraintes géographiques et réglementaires tout en ouvrant une nouvelle réserve de capacité de calcul décorrélée des tensions foncières terrestres. Elon Musk avance même que le coût d'exploitation de tels centres pourrait s'avérer inférieur à celui des data centers classiques, à mesure que les coûts de lancement continuent de baisser. Ce mouvement vers l'espace s'inscrit dans une recomposition plus large des alliances autour de l'IA et des infrastructures. Anthropic et SpaceX ont récemment signé un accord portant sur l'accès aux ressources de calcul du centre de données de xAI à Memphis, avec des perspectives de collaboration sur des projets spatiaux à plus long terme. SpaceX a par ailleurs renforcé son positionnement dans l'écosystème IA après le rachat de xAI en février 2026, transformant l'entreprise de lancement en acteur intégré de la chaîne de valeur de l'intelligence artificielle. Si les data centers orbitaux restent une vision à horizon de plusieurs années, la convergence entre les géants du cloud, les fournisseurs de fusées et les laboratoires d'IA dessine d'ores et déjà les contours d'une bataille pour le contrôle des infrastructures du calcul de demain.

UELa domination américaine sur les futures infrastructures orbitales accentue les enjeux de souveraineté numérique pour l'Europe, sans impact opérationnel direct à court terme.

💬 La contrainte des data centers terrestres, c'est réelle, et si tu suis l'actu US tu vois des projets ralentir partout, faute d'élec ou à cause des riverains. Du calcul en orbite basse, ça a du sens sur le fond, j'y crois. Mais le timing colle un peu trop bien avec l'IPO de SpaceX à 1 750 milliards pour pas se poser de questions.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour