InfrastructureThe Information AI · 15 juin 2026, 18:31· 1 min de lecture

Les parts de marché de Nvidia dans les puces d'inférence IA semblent progresser

Résumé IASource uniqueImpact UE Pourquoi ça compte

Nvidia a vu sa part de marché dans les puces d'inférence IA grimper à 74%, contre 66% il y a un an, selon des estimations de The Information fondées sur les déclarations financières de Nvidia et de ses concurrents, ainsi que sur des entretiens avec des analystes spécialisés. Ce bond de huit points s'est produit alors même que plusieurs développeurs d'IA et grands fournisseurs cloud avaient lancé leurs propres puces serveur dans le but explicite de réduire leur dépendance vis-à-vis du géant des semi-conducteurs.

Ce résultat contredit les prévisions de nombreux analystes et dirigeants qui anticipaient une érosion progressive de la domination de Nvidia. Les puces alternatives, qu'elles soient conçues par Google, Amazon, Microsoft ou des startups spécialisées, n'ont pas réussi à mordre significativement sur le segment de l'inférence, c'est-à-dire l'exécution des modèles déjà entraînés pour répondre aux requêtes des utilisateurs. C'est pourtant ce segment qui représente l'essentiel de la consommation de calcul en production.

La montée en puissance de l'inférence comme principal cas d'usage de l'IA en entreprise place Nvidia dans une position encore plus stratégique qu'elle ne l'était lors du boom de l'entraînement des modèles. Malgré des investissements massifs dans des solutions alternatives, les écosystèmes logiciels de Nvidia, notamment CUDA, continuent de constituer une barrière à l'entrée difficile à franchir. La question n'est plus de savoir si Nvidia peut être délogé, mais à quelle vitesse ses concurrents pourront combler l'écart technologique et logiciel.

Impact France/UE

La domination croissante de Nvidia sur les puces d'inférence renforce la dépendance des acteurs européens du cloud et de l'IA vis-à-vis d'un fournisseur américain, soulevant des enjeux de souveraineté numérique pour l'Europe.

💬 L'analyse de Mathieu

74% de part de marché sur l'inférence, en hausse malgré les puces de Google, Amazon, Microsoft, c'est le genre de stat qui coupe court à pas mal de discours. CUDA ce n'est pas juste un outil, c'est dix ans de bibliothèques, de forums, de code en prod que personne n'a envie de migrer. La vraie dépendance en Europe c'est là, pas dans le matériel.

Dans nos dossiers

NVIDIA Microsoft CUDA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AI News

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu

1 source

2Frandroid

La prochaine puce de Nvidia serait vraiment différente des autres

Nvidia pourrait marquer un tournant majeur dans sa stratégie de conception de puces. Après des décennies à dominer le marché avec ses GPU (unités de traitement graphique) polyvalentes et massivement parallèles, le géant américain des semi-conducteurs envisagerait de s'éloigner de son architecture historique « tout-en-un » pour proposer une puce radicalement différente. Ce changement de cap serait significatif pour l'ensemble du secteur. L'approche monolithique de Nvidia, concentrer un maximum de capacités de calcul dans une seule puce, a jusqu'ici fait la force de ses produits, notamment dans le domaine de l'IA générative et de l'entraînement de grands modèles de langage. S'en éloigner suggère que même le leader incontesté du marché cherche à optimiser ses architectures face à des contraintes physiques et économiques croissantes. Les détails techniques de cette nouvelle puce restent pour l'instant limités, mais l'orientation vers une conception modulaire ou spécialisée, à l'image des approches chiplet adoptées par des concurrents comme AMD ou Intel, pourrait permettre à Nvidia de gagner en flexibilité, en rendement de fabrication et en efficacité énergétique. Ce type d'architecture découplée permet d'assembler des blocs fonctionnels distincts plutôt que de tout intégrer sur un seul die. Si cette évolution se confirme, elle pourrait redéfinir la feuille de route matérielle de Nvidia pour les prochaines générations de puces dédiées à l'IA, à un moment où la demande en infrastructure de calcul n'a jamais été aussi forte, et où la concurrence d'acteurs comme AMD, Intel ou les divisions silicium de Google, Microsoft et Amazon s'intensifie rapidement.

InfrastructureOpinion

1 source

3The Information AI

Les puces IA d'Amazon commencent à séduire les développeurs face à Nvidia

Les puces Trainium d'Amazon commencent à séduire les développeurs d'intelligence artificielle, marquant une étape importante dans la stratégie du géant du cloud pour concurrencer Nvidia. Anthropic et OpenAI, qui ont conclu des accords d'investissement et d'infrastructure de plusieurs milliards de dollars avec Amazon, se sont déjà engagés à louer de grandes quantités de capacité Trainium, aussi bien les générations actuelles que futures. Des améliorations logicielles récentes ont en outre convaincu une demi-douzaine de développeurs plus modestes, selon des personnes qui utilisent ou travaillent avec ces puces, d'envisager de transférer davantage de leurs charges de travail vers cette architecture propriétaire d'AWS. Ce changement de perception est significatif pour l'industrie. Nvidia contrôle aujourd'hui plus de 80 % du marché des puces d'entraînement d'IA, ce qui lui confère un pouvoir de fixation des prix considérable. Si Amazon parvient à convaincre même une fraction des développeurs de basculer vers Trainium, cela pourrait réduire la dépendance structurelle de l'écosystème IA envers un seul fournisseur et faire pression sur les marges exceptionnelles de Nvidia. Amazon développe ses propres siliciums depuis plusieurs années, après le rachat d'Annapurna Labs en 2015. La stratégie repose sur l'intégration verticale : proposer des puces optimisées pour les services AWS, avec des prix potentiellement inférieurs à ceux des GPU H100 et H200 de Nvidia. L'adhésion d'acteurs aussi stratégiques qu'Anthropic, dans lequel Amazon a investi plus de 4 milliards de dollars, constitue à la fois une validation technique et un levier commercial pour attirer d'autres clients vers l'écosystème Trainium.

UELes développeurs et entreprises européennes hébergés sur AWS pourraient bénéficier d'une alternative moins coûteuse aux GPU Nvidia si l'adoption de Trainium se généralise, réduisant la dépendance structurelle de l'écosystème IA à un unique fournisseur de silicium.

💬 Quand Anthropic et OpenAI "adoptent" Trainium, faut garder en tête qu'Amazon leur a mis des milliards sur la table, donc c'est une validation arrangée autant que technique. Ce qui compte vraiment, c'est la demi-douzaine de développeurs indépendants qui commencent à y basculer des workloads pour des raisons de coût, sans deal en arrière-plan. C'est ce signal-là qui a du poids.

InfrastructureOpinion

1 source

4NVIDIA AI Blog

Les logiciels d'inférence NVIDIA permettent le coût par token le plus bas

NVIDIA vient de publier une analyse détaillée de la façon dont sa pile logicielle d'inférence réduit le coût par token pour les entreprises qui déploient des modèles d'IA en production. Sur la plateforme Blackwell, cette pile logicielle a déjà permis de réduire le coût des tokens jusqu'à 5 fois sur le modèle DeepSeek V4 en l'espace d'un seul mois. Des acteurs majeurs de l'inférence l'utilisent déjà à grande échelle : Baseten a utilisé la bibliothèque open source TensorRT-LLM de NVIDIA pour servir DeepSeek V4 Pro sur des GPU Blackwell, obtenant jusqu'à 50 % de tokens par seconde supplémentaires. Cognition s'appuie sur le framework Dynamo pour orchestrer ses GPU d'inférence et scaler ses charges de travail de reinforcement learning sans devoir construire cette infrastructure depuis zéro. Together AI a utilisé TensorRT-LLM pour aider Cursor à accélérer le chemin entre optimisations de modèles et endpoints de production pour son expérience de code en temps réel. Ce qui est en jeu dépasse la simple performance brute. Là où les charges de travail web traditionnelles suivaient des chemins logiciels prévisibles, l'IA agentique génère des workflows distribués et à état persistant qui mobilisent simultanément des LLM, des outils, de la mémoire et des centaines de sous-agents sur des GPU, CPU et systèmes de stockage hétérogènes. Une seule requête utilisateur peut se transformer en un problème de calcul distribué couvrant des milliers de tâches. Dans ce contexte, le logiciel devient le facteur déterminant : c'est lui qui transforme la complexité en coût maîtrisé ou, à défaut, en capacité gaspillée. NVIDIA affirme que l'empilement de ses optimisations, serving disaggregé, parallélisme d'experts sur NVLink, précision NVFP4 et prédiction multi-token, peut multiplier le débit par 20 lorsqu'elles sont combinées en système cohérent. La stratégie de NVIDIA repose sur trois couches intégrées : l'orchestration de la production (serving distribué, autoscaling, gestion mémoire), l'accélération applicative (fusion de kernels, chevauchement calcul-communication) et l'accès matériel abstrait (exposer les capacités GPU et réseau sans que les développeurs aient à gérer chaque instruction bas niveau). Ce modèle de co-conception logiciel-matériel est au coeur de la thèse défendue par NVIDIA face à la concurrence croissante des TPU de Google ou des puces custom d'Amazon et Microsoft. Alors que les entreprises basculent de pilotes IA vers de véritables usines de tokens à grande échelle, la capacité à améliorer continûment le coût par token via des mises à jour logicielles, sans changer le matériel, devient un avantage compétitif structurel. Les résultats publiés par SemiAnalysis InferenceX sur les systèmes GB300 NVL72 avec SGLang et Dynamo illustrent que cet écart se creuse déjà.

💬 Ce qui me frappe ce n'est pas le x5 sur DeepSeek V4, c'est que NVIDIA gagne maintenant sa bataille après la vente du GPU. Le vrai avantage compétitif, c'est de pouvoir baisser le coût par token via une mise à jour logicielle, sans toucher au matériel : ça change la donne face aux TPU de Google ou aux puces maison d'Amazon. Reste que le x20 annoncé empile plein d'optimisations testées en labo, faudra voir ce que ça donne sur de vraies charges agentiques avec des milliers de sous-agents qui tournent en même temps.

InfrastructureActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic