Aller au contenu principal
NVIDIA et Google réduisent les coûts d'inférence en IA
InfrastructureAI News2sem

NVIDIA et Google réduisent les coûts d'inférence en IA

Résumé IASource uniqueImpact UE
Source originale ↗·

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA."

Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell.

Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

Impact France/UE

Les entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
1Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

InfrastructureOpinion
1 source
NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents
2NVIDIA AI Blog 

NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents

NVIDIA et Google Cloud ont annoncé cette semaine, lors de la conférence Google Cloud Next à Las Vegas, une nouvelle étape majeure dans leur partenariat vieux de plus de dix ans. Au cœur de l'annonce : le lancement des instances bare-metal A5X, alimentées par les systèmes rack NVIDIA Vera Rubin NVL72, qui promettent un coût d'inférence jusqu'à dix fois inférieur et un débit de tokens dix fois plus élevé par mégawatt par rapport à la génération précédente. Ces infrastructures s'appuient sur les interconnexions NVIDIA ConnectX-9 SuperNICs couplées au réseau Google Virgo de nouvelle génération, permettant de déployer des clusters allant jusqu'à 80 000 GPU Rubin sur un site unique, et jusqu'à 960 000 GPU dans une configuration multisite. Par ailleurs, Google Cloud met en préversion les modèles Gemini sur Google Distributed Cloud avec les GPU NVIDIA Blackwell et Blackwell Ultra, ainsi que des machines virtuelles confidentielles garantissant le chiffrement des données en cours d'utilisation. Des acteurs comme OpenAI et Thinking Machines Lab utilisent déjà ces infrastructures pour des charges d'inférence massives, notamment pour faire tourner ChatGPT. Ces annonces représentent un saut qualitatif significatif pour les entreprises qui cherchent à industrialiser l'IA agentique et l'IA physique, c'est-à-dire les systèmes capables d'agir de manière autonome dans des environnements réels, comme les robots ou les jumeaux numériques en usine. La réduction drastique des coûts d'inférence change concrètement l'équation économique pour les développeurs d'applications IA à grande échelle. La possibilité de déployer les modèles Gemini en environnement souverain, sur des données sensibles restant chiffrées y compris pendant leur traitement, répond à une exigence croissante des entreprises et des gouvernements en matière de conformité et de confidentialité. L'intégration de modèles ouverts NVIDIA Nemotron dans la plateforme Gemini Enterprise Agent Platform élargit également les options des équipes techniques qui souhaitent combiner modèles propriétaires et open source. Ce partenariat s'inscrit dans une compétition intense entre les grands fournisseurs de cloud pour capter les budgets d'infrastructure IA, qui se chiffrent désormais en dizaines de milliards de dollars annuellement. Google Cloud cherche à rattraper son retard sur AWS et Microsoft Azure, qui ont pris de l'avance sur l'hébergement des charges d'entraînement et d'inférence des grands modèles de langage. En s'associant étroitement à NVIDIA, dont les GPU dominent encore largement le marché de l'accélération IA, Google se positionne comme une plateforme de référence pour la prochaine vague, celle des agents autonomes et de la robotique industrielle. La feuille de route annoncée, avec la transition de Blackwell vers Vera Rubin, suggère que la cadence d'innovation s'accélère et que les entreprises devront adapter leur infrastructure régulièrement pour rester compétitives.

UELe déploiement souverain de Gemini sur Google Distributed Cloud avec chiffrement des données en cours d'utilisation répond aux exigences RGPD des entreprises européennes traitant des données sensibles.

InfrastructureOpinion
1 source
Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud
3AI News 

Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud

Cadence Design Systems a annoncé cette semaine, lors de son événement CadenceLIVE, deux nouvelles collaborations dans le domaine de l'intelligence artificielle : un approfondissement de son partenariat avec Nvidia, et une intégration inédite avec Google Cloud. Avec Nvidia, l'objectif est de combiner la simulation physique, le calcul accéléré et l'IA pour concevoir et déployer des systèmes robotiques et des infrastructures à grande échelle. Concrètement, Cadence intègre ses outils de simulation multiphysique avec les bibliothèques CUDA-X de Nvidia, ses modèles d'IA et son environnement de simulation basé sur Omniverse. Ces outils modélisent les interactions thermiques, électriques et mécaniques pour permettre aux ingénieurs d'évaluer le comportement des systèmes dans des conditions réelles, avant tout déploiement physique. Le PDG de Nvidia, Jensen Huang, présent à l'événement, a résumé l'ambition commune : "Nous travaillons avec vous sur l'ensemble des systèmes robotiques." Côté Google Cloud, Cadence a présenté un nouvel agent IA dédié à l'automatisation des étapes avancées de conception de puces, notamment la traduction des circuits en implantations physiques sur silicium. Cet agent s'appuie sur les modèles Gemini de Google et sera déployé directement dans le cloud. La plateforme ChipStack AI Super Agent de Cadence affiche des gains de productivité allant jusqu'à dix fois dans les premiers déploiements, sur des tâches de conception et de vérification. Ces annonces ont des implications directes pour plusieurs secteurs industriels. Dans la robotique, la simulation physique précise permet de générer des jeux de données d'entraînement sans avoir à collecter de données dans le monde réel, ce qui réduit considérablement les coûts et les délais. Comme l'a souligné le PDG de Cadence, Anirudh Devgan : "Plus les données générées sont précises, meilleur sera le modèle." Des géants de l'automatisation industrielle tels qu'ABB Robotics, FANUC, YASKAWA et KUKA intègrent déjà ces outils dans leurs flux de mise en service virtuelle pour tester des lignes de production entières avant leur déploiement physique. Pour la conception de semi-conducteurs, le passage à des agents IA capables d'automatiser les étapes de layout promet d'accélérer des cycles de développement qui comptent parmi les plus longs et coûteux de l'industrie technologique. Ces partenariats s'inscrivent dans une tendance de fond : la convergence entre conception électronique assistée par ordinateur, IA générative et jumeaux numériques. Cadence, acteur historique de l'EDA (Electronic Design Automation) aux côtés de Synopsys et Mentor, cherche à se repositionner comme une plateforme d'ingénierie systémique intégrant l'IA à chaque étape du cycle de conception. Nvidia, de son côté, poursuit l'expansion de son écosystème Omniverse au-delà du jeu et de la visualisation, vers l'industrie lourde et la robotique physique. L'utilisation de Google Cloud comme vecteur de déploiement des outils de Cadence signale également une montée en puissance du cloud dans des workflows traditionnellement dominés par des infrastructures locales. Les prochaines étapes attendues incluent des annonces de clients utilisant la plateforme ChipStack ainsi qu'une généralisation des agents IA à d'autres étapes du design de puces.

UELes industriels européens KUKA (Allemagne) et ABB (Suisse), déjà utilisateurs de ces outils de simulation, bénéficieront directement des avancées en jumeaux numériques et en automatisation de la conception de puces.

InfrastructureActu
1 source
Google et AWS répartissent la pile des agents IA entre contrôle et exécution
4VentureBeat AI 

Google et AWS répartissent la pile des agents IA entre contrôle et exécution

Google et Amazon Web Services viennent de redéfinir leurs approches respectives pour orchestrer les agents IA d'entreprise, révélant une fracture profonde dans la façon de concevoir l'infrastructure agentique. Google a lancé une nouvelle version de Gemini Enterprise, regroupant sous une même bannière sa plateforme Gemini Enterprise et son application éponyme, tout en rebaptisant Vertex AI en Gemini Enterprise Platform. De son côté, AWS a enrichi Bedrock AgentCore d'un système de harness, un dispositif de configuration automatique alimenté par Strands Agents, son framework open source. Ce harness permet aux équipes de définir ce que l'agent doit faire, quel modèle utiliser et quels outils appeler, le reste étant pris en charge automatiquement. Dans le même temps, Anthropic a dévoilé ses Claude Managed Agents et OpenAI a renforcé son Agents SDK, confirmant que l'ensemble de l'industrie cherche simultanément à résoudre le même problème : comment gérer des agents IA qui tournent durablement en production. L'enjeu dépasse la simple question de l'outillage développeur. À mesure que les agents passent de courtes tâches ponctuelles à des workflows autonomes de longue durée, un nouveau type de défaillance émerge : la dérive d'état (state drift). Un agent qui fonctionne en continu accumule de la mémoire, des réponses et un contexte évolutif. Avec le temps, ce contexte devient obsolète : les sources de données changent, les outils renvoient des réponses contradictoires, et l'agent perd en fiabilité sans que personne ne s'en rende forcément compte. C'est ce problème systémique que Google et AWS cherchent à prévenir, par deux chemins opposés. Google mise sur un plan de contrôle à la manière de Kubernetes, centré sur la gouvernance et la visibilité. AWS privilégie la vitesse de déploiement et la simplification de la configuration, en déléguant la coordination à la couche d'exécution. Cette divergence illustre une transformation plus profonde de la pile IA, qui se stratifie désormais en couches spécialisées. Google positionne Gemini Enterprise comme une porte d'entrée unifiée vers l'ensemble de ses systèmes IA, avec des outils de sécurité et de gouvernance inclus dans l'abonnement, selon Maryam Gholami, directrice senior produit chez Google. AWS, Anthropic et OpenAI s'orientent davantage vers la vélocité et la flexibilité d'exécution. La question de savoir quelle approche s'imposera reste ouverte : Gholami elle-même reconnaît que ce sont les clients qui dicteront les usages des agents longue durée, un domaine où les bonnes pratiques restent encore à définir. Le vrai test viendra lorsque les entreprises feront tourner ces systèmes en conditions réelles, avec des agents qui devront remonter de l'information, demander des validations humaines, et résister à la dégradation progressive de leur contexte.

UELes entreprises européennes qui déploient des agents IA en production sur Google Cloud ou AWS devront arbitrer entre les deux approches d'orchestration pour leurs workflows agentiques durables.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour