
Les logiciels d'inférence NVIDIA permettent le coût par token le plus bas

NVIDIA vient de publier une analyse détaillée de la façon dont sa pile logicielle d'inférence réduit le coût par token pour les entreprises qui déploient des modèles d'IA en production. Sur la plateforme Blackwell, cette pile logicielle a déjà permis de réduire le coût des tokens jusqu'à 5 fois sur le modèle DeepSeek V4 en l'espace d'un seul mois. Des acteurs majeurs de l'inférence l'utilisent déjà à grande échelle : Baseten a utilisé la bibliothèque open source TensorRT-LLM de NVIDIA pour servir DeepSeek V4 Pro sur des GPU Blackwell, obtenant jusqu'à 50 % de tokens par seconde supplémentaires. Cognition s'appuie sur le framework Dynamo pour orchestrer ses GPU d'inférence et scaler ses charges de travail de reinforcement learning sans devoir construire cette infrastructure depuis zéro. Together AI a utilisé TensorRT-LLM pour aider Cursor à accélérer le chemin entre optimisations de modèles et endpoints de production pour son expérience de code en temps réel.
Ce qui est en jeu dépasse la simple performance brute. Là où les charges de travail web traditionnelles suivaient des chemins logiciels prévisibles, l'IA agentique génère des workflows distribués et à état persistant qui mobilisent simultanément des LLM, des outils, de la mémoire et des centaines de sous-agents sur des GPU, CPU et systèmes de stockage hétérogènes. Une seule requête utilisateur peut se transformer en un problème de calcul distribué couvrant des milliers de tâches. Dans ce contexte, le logiciel devient le facteur déterminant : c'est lui qui transforme la complexité en coût maîtrisé ou, à défaut, en capacité gaspillée. NVIDIA affirme que l'empilement de ses optimisations, serving disaggregé, parallélisme d'experts sur NVLink, précision NVFP4 et prédiction multi-token, peut multiplier le débit par 20 lorsqu'elles sont combinées en système cohérent.
La stratégie de NVIDIA repose sur trois couches intégrées : l'orchestration de la production (serving distribué, autoscaling, gestion mémoire), l'accélération applicative (fusion de kernels, chevauchement calcul-communication) et l'accès matériel abstrait (exposer les capacités GPU et réseau sans que les développeurs aient à gérer chaque instruction bas niveau). Ce modèle de co-conception logiciel-matériel est au coeur de la thèse défendue par NVIDIA face à la concurrence croissante des TPU de Google ou des puces custom d'Amazon et Microsoft. Alors que les entreprises basculent de pilotes IA vers de véritables usines de tokens à grande échelle, la capacité à améliorer continûment le coût par token via des mises à jour logicielles, sans changer le matériel, devient un avantage compétitif structurel. Les résultats publiés par SemiAnalysis InferenceX sur les systèmes GB300 NVL72 avec SGLang et Dynamo illustrent que cet écart se creuse déjà.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.




