Aller au contenu principal
Les logiciels d'inférence NVIDIA permettent le coût par token le plus bas
InfrastructureNVIDIA AI Blog2h· 2 min de lecture

Les logiciels d'inférence NVIDIA permettent le coût par token le plus bas

Source originale ↗·
Les logiciels d'inférence NVIDIA permettent le coût par token le plus bas
▶ Voir sur YouTube

NVIDIA vient de publier une analyse détaillée de la façon dont sa pile logicielle d'inférence réduit le coût par token pour les entreprises qui déploient des modèles d'IA en production. Sur la plateforme Blackwell, cette pile logicielle a déjà permis de réduire le coût des tokens jusqu'à 5 fois sur le modèle DeepSeek V4 en l'espace d'un seul mois. Des acteurs majeurs de l'inférence l'utilisent déjà à grande échelle : Baseten a utilisé la bibliothèque open source TensorRT-LLM de NVIDIA pour servir DeepSeek V4 Pro sur des GPU Blackwell, obtenant jusqu'à 50 % de tokens par seconde supplémentaires. Cognition s'appuie sur le framework Dynamo pour orchestrer ses GPU d'inférence et scaler ses charges de travail de reinforcement learning sans devoir construire cette infrastructure depuis zéro. Together AI a utilisé TensorRT-LLM pour aider Cursor à accélérer le chemin entre optimisations de modèles et endpoints de production pour son expérience de code en temps réel.

Ce qui est en jeu dépasse la simple performance brute. Là où les charges de travail web traditionnelles suivaient des chemins logiciels prévisibles, l'IA agentique génère des workflows distribués et à état persistant qui mobilisent simultanément des LLM, des outils, de la mémoire et des centaines de sous-agents sur des GPU, CPU et systèmes de stockage hétérogènes. Une seule requête utilisateur peut se transformer en un problème de calcul distribué couvrant des milliers de tâches. Dans ce contexte, le logiciel devient le facteur déterminant : c'est lui qui transforme la complexité en coût maîtrisé ou, à défaut, en capacité gaspillée. NVIDIA affirme que l'empilement de ses optimisations, serving disaggregé, parallélisme d'experts sur NVLink, précision NVFP4 et prédiction multi-token, peut multiplier le débit par 20 lorsqu'elles sont combinées en système cohérent.

La stratégie de NVIDIA repose sur trois couches intégrées : l'orchestration de la production (serving distribué, autoscaling, gestion mémoire), l'accélération applicative (fusion de kernels, chevauchement calcul-communication) et l'accès matériel abstrait (exposer les capacités GPU et réseau sans que les développeurs aient à gérer chaque instruction bas niveau). Ce modèle de co-conception logiciel-matériel est au coeur de la thèse défendue par NVIDIA face à la concurrence croissante des TPU de Google ou des puces custom d'Amazon et Microsoft. Alors que les entreprises basculent de pilotes IA vers de véritables usines de tokens à grande échelle, la capacité à améliorer continûment le coût par token via des mises à jour logicielles, sans changer le matériel, devient un avantage compétitif structurel. Les résultats publiés par SemiAnalysis InferenceX sur les systèmes GB300 NVL72 avec SGLang et Dynamo illustrent que cet écart se creuse déjà.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA et Google réduisent les coûts d'inférence en IA
1AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
Les parts de marché de Nvidia dans les puces d'inférence IA semblent progresser
2The Information AI 

Les parts de marché de Nvidia dans les puces d'inférence IA semblent progresser

Nvidia a vu sa part de marché dans les puces d'inférence IA grimper à 74%, contre 66% il y a un an, selon des estimations de The Information fondées sur les déclarations financières de Nvidia et de ses concurrents, ainsi que sur des entretiens avec des analystes spécialisés. Ce bond de huit points s'est produit alors même que plusieurs développeurs d'IA et grands fournisseurs cloud avaient lancé leurs propres puces serveur dans le but explicite de réduire leur dépendance vis-à-vis du géant des semi-conducteurs. Ce résultat contredit les prévisions de nombreux analystes et dirigeants qui anticipaient une érosion progressive de la domination de Nvidia. Les puces alternatives, qu'elles soient conçues par Google, Amazon, Microsoft ou des startups spécialisées, n'ont pas réussi à mordre significativement sur le segment de l'inférence, c'est-à-dire l'exécution des modèles déjà entraînés pour répondre aux requêtes des utilisateurs. C'est pourtant ce segment qui représente l'essentiel de la consommation de calcul en production. La montée en puissance de l'inférence comme principal cas d'usage de l'IA en entreprise place Nvidia dans une position encore plus stratégique qu'elle ne l'était lors du boom de l'entraînement des modèles. Malgré des investissements massifs dans des solutions alternatives, les écosystèmes logiciels de Nvidia, notamment CUDA, continuent de constituer une barrière à l'entrée difficile à franchir. La question n'est plus de savoir si Nvidia peut être délogé, mais à quelle vitesse ses concurrents pourront combler l'écart technologique et logiciel.

UELa domination croissante de Nvidia sur les puces d'inférence renforce la dépendance des acteurs européens du cloud et de l'IA vis-à-vis d'un fournisseur américain, soulevant des enjeux de souveraineté numérique pour l'Europe.

💬 74% de part de marché sur l'inférence, en hausse malgré les puces de Google, Amazon, Microsoft, c'est le genre de stat qui coupe court à pas mal de discours. CUDA ce n'est pas juste un outil, c'est dix ans de bibliothèques, de forums, de code en prod que personne n'a envie de migrer. La vraie dépendance en Europe c'est là, pas dans le matériel.

InfrastructureOpinion
1 source
Le tournant de l'inférence
3Latent Space 

Le tournant de l'inférence

L'inférence est devenue le nouveau champ de bataille stratégique de l'intelligence artificielle. En quelques jours, deux signaux forts ont traversé l'industrie : Noam Brown a déclaré que "la puissance de calcul d'inférence est une ressource stratégique, actuellement sous-évaluée", tandis que Sam Altman affirmait qu'OpenAI devait "dans une large mesure devenir une entreprise d'inférence IA". Ces déclarations interviennent dans le sillage du lancement très réussi de GPT-4.5, mais aussi des chiffres publiés par Lip-Bu Tan, PDG d'Intel, lors de son appel aux résultats du premier trimestre 2026 : la demande en CPU, et non en GPU, est en hausse significative, tirée précisément par les nouveaux usages d'inférence à grande échelle. Jensen Huang, PDG de Nvidia, avait posé les bases de ce constat lors de sa keynote GTC : la demande en calcul a été multipliée par 10 000 en deux ans, l'usage par 100, ce qui représente selon lui une multiplication globale de un million fois en deux ans à peine. Ce basculement n'est pas qu'une métaphore : il redessine concrètement les priorités d'investissement de toute l'industrie. Pendant deux ans, les grandes entreprises tech ont massivement réorienté leurs budgets vers les GPU pour l'entraînement des modèles, au détriment de la maintenance et du renouvellement de leur parc CPU. Or, les agents IA en production, les environnements de simulation pour le renforcement par apprentissage (RL gyms), les outils comme Claude Code, tout cela tourne sur des CPU. Résultat : une potentielle pénurie de CPU se profile, non pas parce que la demande explose de façon spectaculaire comme pour les GPU, mais parce que le cycle naturel de renouvellement de cinq à six ans coïncide avec une sous-capitalisation chronique. Pour les startups comme pour les géants, le goulot d'étranglement se déplace : plus de capacité d'inférence se traduirait directement en plus de revenus, plus d'utilisateurs, des modèles plus performants. Ce moment marque une transition de phase dans l'économie de l'IA. L'ère de l'entraînement massif cède la place à celle du déploiement et du raisonnement continu : chaque fois qu'un modèle pense, agit, lit ou génère du texte, il infère. Cette boucle vertueuse, plus de capacité, plus de tokens, plus d'intelligence, est désormais le moteur central de la compétition entre OpenAI, Anthropic, Google et les autres. Les acteurs qui sécuriseront le plus de capacité d'inférence, que ce soit via des partenariats avec des fournisseurs cloud, des investissements dans des datacenters ou des puces propriétaires, prendront un avantage structurel difficile à rattraper. Le secteur CPU, longtemps dans l'ombre des GPU, redevient soudainement stratégique.

UELe goulot d'étranglement sur la capacité d'inférence CPU affecte directement les startups et entreprises européennes déployant des agents IA en production, qui devront repenser leurs priorités d'investissement infrastructure.

💬 C'est le pivot qu'on sentait venir depuis le lancement massif des agents en prod. Pendant deux ans, tout le monde a empilé des GPU pour l'entraînement, en laissant vieillir le parc CPU, et là c'est ce même parc qui devient le goulot d'étranglement pour l'inférence à grande échelle. Celui qui sécurise de la capacité d'inférence aujourd'hui prend une avance structurelle, pas juste technologique.

InfrastructureOpinion
1 source
Les fournisseurs d'inférence connaissent-ils un essor ?
4The Information AI 

Les fournisseurs d'inférence connaissent-ils un essor ?

Il y a moins d'un an, les fournisseurs d'inférence spécialisés suscitaient un scepticisme marqué dans l'industrie de l'IA. Des startups comme Fireworks AI, Baseten et Together AI, qui louent des serveurs Nvidia à des développeurs d'applications et les aident à déployer des modèles open source, avaient connu une croissance rapide, mais semblaient fragilisées face à la concurrence des grands fournisseurs cloud. Ces derniers disposent en effet d'un avantage structurel majeur : ils possèdent leurs propres puces, là où les fournisseurs d'inférence doivent d'abord les louer à AWS, Google ou Azure avant de les revendre à leurs clients, ce qui comprime mécaniquement leurs marges brutes. Pourtant, le discours dominant a changé. Ces acteurs spécialisés semblent aujourd'hui trouver leur place dans un écosystème où la demande d'inférence explose, portée par la multiplication des applications IA en production. Leur proposition de valeur, flexibilité, optimisation technique, et support des modèles open source, répond à des besoins que les clouds généralistes satisfont moins bien, notamment pour les équipes cherchant à éviter l'enfermement propriétaire et à contrôler précisément leurs coûts d'inférence. Ce retournement s'inscrit dans une dynamique plus large : avec la prolifération des modèles open source performants comme Llama ou Mistral, les développeurs disposent désormais d'alternatives crédibles aux API propriétaires d'OpenAI ou Anthropic. Les fournisseurs d'inférence se positionnent comme l'infrastructure neutre de ce marché alternatif, pariant sur le fait que la fragmentation des modèles leur garantit une demande structurelle durable face aux géants du cloud.

UELa montée en puissance des fournisseurs d'inférence open source renforce l'écosystème autour de Mistral (entreprise française), offrant aux développeurs européens une infrastructure neutre pour déployer des modèles sans dépendance aux API propriétaires.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic