Aller au contenu principal
Les fournisseurs d'inférence connaissent-ils un essor ?
InfrastructureThe Information AI6h

Les fournisseurs d'inférence connaissent-ils un essor ?

Résumé IASource uniqueImpact UE
Source originale ↗·

Il y a moins d'un an, les fournisseurs d'inférence spécialisés suscitaient un scepticisme marqué dans l'industrie de l'IA. Des startups comme Fireworks AI, Baseten et Together AI, qui louent des serveurs Nvidia à des développeurs d'applications et les aident à déployer des modèles open source, avaient connu une croissance rapide, mais semblaient fragilisées face à la concurrence des grands fournisseurs cloud. Ces derniers disposent en effet d'un avantage structurel majeur : ils possèdent leurs propres puces, là où les fournisseurs d'inférence doivent d'abord les louer à AWS, Google ou Azure avant de les revendre à leurs clients, ce qui comprime mécaniquement leurs marges brutes.

Pourtant, le discours dominant a changé. Ces acteurs spécialisés semblent aujourd'hui trouver leur place dans un écosystème où la demande d'inférence explose, portée par la multiplication des applications IA en production. Leur proposition de valeur, flexibilité, optimisation technique, et support des modèles open source, répond à des besoins que les clouds généralistes satisfont moins bien, notamment pour les équipes cherchant à éviter l'enfermement propriétaire et à contrôler précisément leurs coûts d'inférence.

Ce retournement s'inscrit dans une dynamique plus large : avec la prolifération des modèles open source performants comme Llama ou Mistral, les développeurs disposent désormais d'alternatives crédibles aux API propriétaires d'OpenAI ou Anthropic. Les fournisseurs d'inférence se positionnent comme l'infrastructure neutre de ce marché alternatif, pariant sur le fait que la fragmentation des modèles leur garantit une demande structurelle durable face aux géants du cloud.

Impact France/UE

La montée en puissance des fournisseurs d'inférence open source renforce l'écosystème autour de Mistral (entreprise française), offrant aux développeurs européens une infrastructure neutre pour déployer des modèles sans dépendance aux API propriétaires.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

NVIDIA et Google réduisent les coûts d'inférence en IA
1AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
Le tournant de l'inférence
2Latent Space 

Le tournant de l'inférence

L'inférence est devenue le nouveau champ de bataille stratégique de l'intelligence artificielle. En quelques jours, deux signaux forts ont traversé l'industrie : Noam Brown a déclaré que "la puissance de calcul d'inférence est une ressource stratégique, actuellement sous-évaluée", tandis que Sam Altman affirmait qu'OpenAI devait "dans une large mesure devenir une entreprise d'inférence IA". Ces déclarations interviennent dans le sillage du lancement très réussi de GPT-4.5, mais aussi des chiffres publiés par Lip-Bu Tan, PDG d'Intel, lors de son appel aux résultats du premier trimestre 2026 : la demande en CPU, et non en GPU, est en hausse significative, tirée précisément par les nouveaux usages d'inférence à grande échelle. Jensen Huang, PDG de Nvidia, avait posé les bases de ce constat lors de sa keynote GTC : la demande en calcul a été multipliée par 10 000 en deux ans, l'usage par 100, ce qui représente selon lui une multiplication globale de un million fois en deux ans à peine. Ce basculement n'est pas qu'une métaphore : il redessine concrètement les priorités d'investissement de toute l'industrie. Pendant deux ans, les grandes entreprises tech ont massivement réorienté leurs budgets vers les GPU pour l'entraînement des modèles, au détriment de la maintenance et du renouvellement de leur parc CPU. Or, les agents IA en production, les environnements de simulation pour le renforcement par apprentissage (RL gyms), les outils comme Claude Code, tout cela tourne sur des CPU. Résultat : une potentielle pénurie de CPU se profile, non pas parce que la demande explose de façon spectaculaire comme pour les GPU, mais parce que le cycle naturel de renouvellement de cinq à six ans coïncide avec une sous-capitalisation chronique. Pour les startups comme pour les géants, le goulot d'étranglement se déplace : plus de capacité d'inférence se traduirait directement en plus de revenus, plus d'utilisateurs, des modèles plus performants. Ce moment marque une transition de phase dans l'économie de l'IA. L'ère de l'entraînement massif cède la place à celle du déploiement et du raisonnement continu : chaque fois qu'un modèle pense, agit, lit ou génère du texte, il infère. Cette boucle vertueuse, plus de capacité, plus de tokens, plus d'intelligence, est désormais le moteur central de la compétition entre OpenAI, Anthropic, Google et les autres. Les acteurs qui sécuriseront le plus de capacité d'inférence, que ce soit via des partenariats avec des fournisseurs cloud, des investissements dans des datacenters ou des puces propriétaires, prendront un avantage structurel difficile à rattraper. Le secteur CPU, longtemps dans l'ombre des GPU, redevient soudainement stratégique.

UELe goulot d'étranglement sur la capacité d'inférence CPU affecte directement les startups et entreprises européennes déployant des agents IA en production, qui devront repenser leurs priorités d'investissement infrastructure.

💬 C'est le pivot qu'on sentait venir depuis le lancement massif des agents en prod. Pendant deux ans, tout le monde a empilé des GPU pour l'entraînement, en laissant vieillir le parc CPU, et là c'est ce même parc qui devient le goulot d'étranglement pour l'inférence à grande échelle. Celui qui sécurise de la capacité d'inférence aujourd'hui prend une avance structurelle, pas juste technologique.

InfrastructureOpinion
1 source
Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA
3The Information AI 

Microsoft et les fournisseurs cloud resserrent leur emprise sur les GPU, au détriment des clients IA

Microsoft et d'autres grands fournisseurs de cloud redirigent leurs stocks de GPU Nvidia vers leurs équipes internes ou leurs clients enterprise les plus importants, privant les startups d'IA d'un accès fiable aux serveurs dont elles ont besoin. Cette pénurie touche des entreprises pourtant solidement financées, soutenues par des fonds majeurs comme Sequoia Capital, Founders Fund, General Catalyst et Andreessen Horowitz. La situation est suffisamment préoccupante pour qu'Hemant Taneja, directeur général de General Catalyst, ait envoyé un sondage à ses fondateurs en portefeuille pour évaluer leur capacité à accéder aux ressources de calcul. Cette tension sur l'offre a des conséquences directes et immédiates : les startups qui ne parviennent pas à obtenir des GPU auprès des fournisseurs cloud traditionnels se retrouvent contraintes de se tourner vers des alternatives plus coûteuses ou moins stables. Pour des entreprises dont le modèle repose entièrement sur la puissance de calcul, entraînement de modèles, inférence, recherche, une rupture d'approvisionnement peut ralentir le développement de produits et éroder l'avantage concurrentiel acquis grâce aux levées de fonds. Cette situation reflète une tension structurelle dans l'écosystème de l'IA : les hyperscalers comme Microsoft, Google ou Amazon ont massivement investi dans leurs propres capacités d'IA et traitent désormais leurs besoins internes en priorité. Face à une demande mondiale de GPU Nvidia qui dépasse largement l'offre disponible, les petits acteurs se retrouvent en bas de la liste d'attente, dans un marché où l'accès au calcul est devenu aussi stratégique que le capital lui-même.

UELes startups IA européennes, également dépendantes des hyperscalers américains pour l'accès aux GPU Nvidia, sont exposées à la même tension structurelle qui freine leur développement face aux priorités internes des fournisseurs cloud.

InfrastructureOpinion
1 source
Groq 3 LPX : un rack d’inférence qui fait fondre la latence des LLM
4Le Big Data 

Groq 3 LPX : un rack d’inférence qui fait fondre la latence des LLM

Groq a dévoilé lors du GTC 2026 le Groq 3 LPX, un rack d'inférence conçu pour répondre aux nouvelles exigences des systèmes agentiques autonomes. Ce châssis ultra-dense regroupe 256 accélérateurs LPU Groq 3 dans une architecture entièrement dédiée à la génération de tokens pour les grands modèles de langage. Sa particularité la plus radicale est d'abandonner toute mémoire HBM externe au profit de 500 Mo de SRAM intégrée directement sur chaque puce, ce qui lui permet d'atteindre une bande passante mémoire de 150 To/s par accélérateur. Le système s'intègre à l'écosystème Vera Rubin de NVIDIA et doit être disponible commercialement au troisième trimestre 2026. Les fournisseurs cloud préparent déjà leurs centres de données en conséquence. Ce choix architectural répond à un problème concret qui freine aujourd'hui le déploiement massif d'agents IA : la latence. Les GPU classiques, pensés pour l'entraînement en parallèle massif, introduisent des délais irréguliers lors de l'inférence séquentielle, ce qui rend les interactions en temps réel imprévisibles. En éliminant les goulots d'étranglement liés aux accès mémoire externe, le Groq 3 LPX garantit une cadence de traitement régulière et prévisible, un impératif pour les applications critiques comme les assistants vocaux, les agents de code ou les systèmes de décision automatisée. Pour les équipes d'ingénierie qui déploient ces architectures en production, la stabilité du débit compte autant que sa vitesse brute. La trajectoire de Groq illustre une tendance de fond dans l'industrie du semi-conducteur : la spécialisation matérielle poussée à l'extrême. Depuis sa fondation, la société mise sur les LPU (Language Processing Units) comme alternative aux GPU pour l'inférence, un pari longtemps marginal qui prend aujourd'hui de l'ampleur avec la montée des modèles de plusieurs dizaines de milliards de paramètres. L'intégration dans l'écosystème NVIDIA via Vera Rubin signal également un rapprochement stratégique entre acteurs qui auraient pu rester concurrents directs. L'essor des agents autonomes, capables de chaîner des dizaines d'appels LLM en quelques secondes, crée une demande d'infrastructure que ni les GPU ni les API cloud généralistes ne satisfont pleinement. Le Groq 3 LPX se positionne sur ce segment encore ouvert, aux côtés de concurrents comme Cerebras ou SambaNova, dans une course où la latence est devenue la nouvelle métrique dominante.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour