Aller au contenu principal
Moonshot AI et des chercheurs de Tsinghua proposent PrfaaS : une architecture KVCache inter-datacenters qui repense le déploiement des LLM à grande échelle
InfrastructureMarkTechPost5h

Moonshot AI et des chercheurs de Tsinghua proposent PrfaaS : une architecture KVCache inter-datacenters qui repense le déploiement des LLM à grande échelle

1 source couvre ce sujet·Source originale ↗·

Des chercheurs de Moonshot AI et de l'Université Tsinghua ont publié une architecture nouvelle baptisée PrfaaS (Prefill-as-a-Service), qui repense fondamentalement la manière dont les grands modèles de langage traitent les inférences à grande échelle. Le principe : délocaliser la phase de prefill, c'est-à-dire le traitement initial des tokens d'entrée, vers des clusters dédiés et bourrés de puissance de calcul, puis transférer le cache clé-valeur (KVCache) résultant via un réseau Ethernet classique vers des clusters locaux chargés du décodage. Les gains mesurés sont substantiels : dans une étude de cas portant sur un modèle interne hybride de 1 000 milliards de paramètres, PrfaaS affiche un débit 54 % supérieur à une architecture homogène classique, et 32 % supérieur à une configuration hétérogène naïve. À coût matériel égal, le gain net est d'environ 15 %, le reste de l'avantage provenant du choix de GPU plus puissants (H200) pour le prefill couplés à des H20 pour le décodage.

Ce que change cette architecture, c'est qu'elle lève une contrainte qui paralysait l'industrie depuis des années : la nécessité de co-localiser prefill et décodage dans le même datacenter, voire le même rack, en raison des débits colossaux imposés par les réseaux RDMA. Les modèles denses classiques avec attention groupée (GQA) génèrent des KVCache à environ 60 Gbps pour une requête de 32 000 tokens, un volume qui rend toute séparation inter-datacenter impraticable sans infrastructure réseau spécialisée extrêmement coûteuse. PrfaaS ouvre la voie à une mutualisation géographique des ressources de calcul, ce qui représente un levier majeur d'optimisation des coûts pour les opérateurs de LLM à l'échelle industrielle.

Ce qui rend cette approche viable aujourd'hui, c'est une évolution profonde au niveau des modèles eux-mêmes. Une nouvelle génération d'architectures hybrides, dont Kimi Linear, MiMo-V2-Flash, Qwen3.5-397B et Ring-2.5-1T, mêle des couches d'attention complète à des couches à complexité linéaire ou à fenêtre glissante. Seules les couches d'attention complète produisent un KVCache croissant avec la longueur du contexte ; les autres maintiennent des états de taille fixe. Résultat : MiMo-V2-Flash ne génère que 4,66 Gbps de débit KV à 32 000 tokens contre 59,93 Gbps pour un modèle dense comparable, soit une réduction de 13 fois. Pour le modèle interne de 1T paramètres, ce chiffre tombe à 3,19 Gbps, un niveau compatible avec une simple liaison Ethernet inter-datacenter. C'est cette convergence entre optimisation architecturale des modèles et disaggrégation géographique de l'inférence qui fait de PrfaaS une proposition concrète et non plus spéculative.

Impact France/UE

Les opérateurs européens déployant des LLM à grande échelle pourraient à terme adopter cette approche pour réduire leurs coûts d'infrastructure GPU, mais aucune entreprise ou institution européenne n'est directement impliquée.

À lire aussi

Les 10 principales entreprises chinoises de conception de puces
1The Information AI 

Les 10 principales entreprises chinoises de conception de puces

Si Washington évoque systématiquement Huawei comme principale menace face à Nvidia dans le secteur des puces IA, la réalité du paysage technologique chinois est bien plus complexe. Le PDG de Nvidia, Jensen Huang, a lui-même cité à plusieurs reprises l'essor de Huawei lors de réunions privées avec des législateurs américains et dans des forums publics, faisant de l'entreprise le symbole raccourci des ambitions semiconducteurs de Pékin. Pourtant, la Chine compte aujourd'hui plus de dix entreprises qui conçoivent et commercialisent activement des puces d'intelligence artificielle. Ce chiffre illustre l'ampleur réelle d'un écosystème que les sanctions américaines n'ont pas réussi à étouffer. Ces acteurs vont d'institutions de recherche soutenues par l'État, fortes de décennies d'expertise, jusqu'à des startups fondées par des ingénieurs ayant travaillé chez Nvidia, AMD ou Intel avant de rentrer en Chine pour bâtir leurs propres alternatives. Pour l'industrie mondiale des semi-conducteurs, cette diversité signifie que bloquer un seul acteur, aussi puissant soit-il, ne suffit plus à contenir la montée en puissance technologique chinoise. Ce foisonnement s'inscrit dans une stratégie nationale de long terme visant l'autosuffisance en puces avancées, accélérée par les restrictions américaines à l'exportation imposées depuis 2022. Les États-Unis ont successivement placé sur liste noire Huawei, SMIC et d'autres entreprises, poussant Pékin à investir massivement dans une filière domestique. La question n'est plus de savoir si la Chine peut concevoir des puces IA compétitives, mais à quelle vitesse ce groupe d'une dizaine de champions nationaux parviendra à combler l'écart avec les leaders occidentaux.

UELe développement accéléré d'un écosystème chinois de puces IA autonome renforce les enjeux de souveraineté technologique européenne et pourrait redistribuer les équilibres mondiaux dans l'approvisionnement en semiconducteurs avancés.

💬 Huawei, c'est le nom qu'on cite parce que c'est simple, mais ça fait longtemps que c'est plus toute l'histoire. Plus de dix boîtes chinoises qui conçoivent des puces IA, dont plusieurs fondées par des ex-Nvidia ou ex-AMD rentrés au pays, c'est pas une anecdote. Les sanctions ont accéléré exactement ce qu'elles voulaient empêcher.

InfrastructureOpinion
1 source
Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence
2The Information AI 

Google en discussions avec Marvell pour développer de nouveaux puces IA dédiées à l'inférence

Google mène des discussions avec Marvell Technology pour développer deux nouveaux puces dédiées à l'inférence d'intelligence artificielle, selon deux sources proches du dossier. La première est une unité de traitement mémoire conçue pour fonctionner en complément des TPU (Tensor Processing Units) déjà fabriqués par Google. La seconde est un nouveau TPU entièrement conçu pour exécuter des modèles d'IA en production. Aucune date officielle n'a été communiquée pour l'instant. Cette démarche illustre la demande explosive pour des puces d'inférence performantes, celles qui font tourner les applications d'IA en temps réel, des agents autonomes aux assistants commerciaux. Contrairement à l'entraînement des modèles, l'inférence mobilise des ressources en continu, à grande échelle, ce qui en fait un enjeu économique majeur pour les grandes plateformes cloud. Optimiser ces puces se traduit directement en réduction de coûts et en amélioration des performances pour des millions d'utilisateurs finaux. La course à la puce d'inférence s'intensifie sur tous les fronts. En mars dernier, Nvidia a présenté à sa conférence GTC un nouveau composant baptisé LPU (Language Processing Unit), construit sur une technologie rachetée à la startup Groq pour 20 milliards de dollars. Google, de son côté, développe ses propres TPU depuis des années pour réduire sa dépendance à Nvidia, et ce partenariat potentiel avec Marvell s'inscrit dans cette stratégie d'autonomie technologique. La bataille pour dominer l'infrastructure d'inférence promet d'être l'un des grands enjeux industriels des prochaines années.

💬 Google qui externalise une partie de sa conception de puces à Marvell, c'est un signal fort : même eux n'ont pas les ressources pour tout faire en interne à ce rythme. L'inférence, c'est le vrai coût caché de l'IA en prod, celui qui explose à mesure qu'on déploie des agents partout. Reste à voir si ce partenariat débouche sur quelque chose de concret, ou si c'est juste une piste parmi dix autres.

InfrastructureActu
1 source
NVIDIA lance Ising : sa première famille de modèles d'IA quantique ouverts pour systèmes hybrides quantique-classique
3MarkTechPost 

NVIDIA lance Ising : sa première famille de modèles d'IA quantique ouverts pour systèmes hybrides quantique-classique

NVIDIA a lancé Ising, la première famille de modèles d'IA quantique ouverts au monde, conçue pour aider chercheurs et entreprises à construire des processeurs quantiques capables de faire tourner des applications réelles. La famille comprend deux composants distincts : Ising Calibration, un modèle de langage visuel qui interprète en temps réel les mesures des processeurs quantiques et ajuste automatiquement le système pour le maintenir en fonctionnement optimal, réduisant les temps de calibration de plusieurs jours à quelques heures ; et Ising Decoding, disponible en deux variantes de réseau de neurones convolutif 3D optimisées respectivement pour la vitesse et la précision, qui effectuent le décodage d'erreurs quantiques en temps réel. Ising Decoding se montre jusqu'à 2,5 fois plus rapide et 3 fois plus précis que pyMatching, l'actuel standard open source du secteur. Dès le premier jour, des organisations comme IonQ, IQM Quantum Computers, Infleqtion, le Fermi National Accelerator Laboratory, Harvard, Sandia National Laboratories, l'Université de Chicago et une douzaine d'autres acteurs académiques et commerciaux ont déjà adopté ces outils. L'enjeu est considérable : le principal frein au déploiement concret de l'informatique quantique n'est pas la puissance brute des processeurs, mais leur extrême sensibilité aux perturbations extérieures. Les qubits, unités de calcul fondamentales, accumulent des erreurs à une vitesse qui rend tout calcul utile quasiment impossible sans une calibration rigoureuse et une correction d'erreurs en temps réel. Ces deux opérations étaient jusqu'ici manuelles, lentes et difficiles à mettre à l'échelle. En automatisant ces processus critiques par l'IA, NVIDIA s'attaque directement au goulot d'étranglement qui sépare les démonstrateurs de laboratoire des machines véritablement opérationnelles. Une réduction des temps de calibration de plusieurs jours à quelques heures représente un gain de productivité transformateur pour les équipes de recherche. Ising s'inscrit dans la stratégie plus large de NVIDIA pour positionner ses GPU au coeur de l'informatique hybride quantique-classique. Les modèles Ising complètent CUDA-Q, la plateforme logicielle de NVIDIA pour les workflows hybrides, et s'intègrent avec NVQLink, l'interconnexion matérielle GPU-QPU développée par l'entreprise pour permettre une communication à faible latence entre processeurs graphiques et unités quantiques. Cette approche suit la même philosophie que CUDA pour l'accélération GPU : coupler étroitement calcul classique et calcul accéléré. Alors que des acteurs comme IBM, Google et des startups spécialisées investissent massivement dans la course au quantique, NVIDIA parie sur une stratégie de plateforme transversale, agnostique aux technologies de qubits, qui lui permet de s'imposer comme couche d'infrastructure indispensable quelle que soit la technologie gagnante.

UEIQM Quantum Computers (Finlande, UE) figure parmi les premiers adoptants, ce qui pourrait accélérer le développement de processeurs quantiques en Europe.

💬 La calibration des qubits qui passe de plusieurs jours à quelques heures, c'est le vrai goulot d'étranglement du quantique, et c'est la première fois qu'on voit une solution à la hauteur du problème. NVIDIA fait exactement ce qu'ils ont fait avec CUDA : s'imposer comme couche d'infra incontournable avant même de savoir quelle technologie va gagner. Harvard, Fermi Lab, IQM dès le premier jour, ça ne s'invente pas.

InfrastructureActu
1 source
Amazon Bedrock propose désormais une attribution détaillée des coûts
4AWS ML Blog 

Amazon Bedrock propose désormais une attribution détaillée des coûts

Amazon Web Services vient d'annoncer une nouvelle fonctionnalité d'attribution granulaire des coûts pour Amazon Bedrock, son service d'inférence d'IA en cloud. Désormais, Bedrock attribue automatiquement chaque dépense d'inférence à l'identité IAM (Identity and Access Management) qui a effectué l'appel, qu'il s'agisse d'un utilisateur IAM classique, d'un rôle assumé par une application Lambda, ou d'une identité fédérée via un fournisseur comme Okta ou Microsoft Entra ID. Ces données apparaissent directement dans AWS Cost and Usage Reports (CUR 2.0) sans aucune ressource supplémentaire à gérer ni modification des workflows existants. Concrètement, un rapport peut montrer qu'Alice a dépensé 0,069 dollar en tokens d'entrée et 0,214 dollar en tokens de sortie avec Claude Sonnet 4.6, pendant que Bob a consommé 1,188 dollar au total avec Claude Opus 4.6, avec une précision à l'identité près. Il est également possible d'ajouter des tags de coût sur les identités IAM pour regrouper les dépenses par équipe, projet ou centre de coût dans AWS Cost Explorer. Cette visibilité fine répond à un besoin croissant des entreprises qui voient l'inférence IA représenter une part de plus en plus significative de leur facture cloud. Sans attribution précise, il est impossible de refacturer correctement les équipes internes, d'identifier les usages inefficaces ou de planifier les budgets. Grâce à cette fonctionnalité, un DSI peut désormais savoir exactement quelle équipe produit, quel service applicatif ou quel développeur génère quels coûts LLM, sans déployer d'infrastructure de monitoring supplémentaire. Pour les organisations qui font transiter leurs appels via une passerelle LLM centralisée, AWS recommande d'utiliser AssumeRole avec des tags de session dynamiques afin de préserver la granularité par utilisateur final, même derrière un proxy unique. Cette annonce s'inscrit dans une tendance de fond : les grands fournisseurs de cloud cherchent à rendre l'IA générative compatible avec les pratiques de gouvernance financière des entreprises. Amazon Bedrock, qui donne accès à des modèles de plusieurs éditeurs dont Anthropic, Mistral et Meta, doit convaincre les directions financières que la dépense IA est traçable et contrôlable. La concurrence avec Azure AI et Google Vertex AI pousse AWS à muscler ses outils de FinOps autour de l'IA. À mesure que les modèles comme Claude Opus deviennent plus coûteux à l'usage, la capacité à attribuer précisément chaque dollar dépensé devient un argument de vente central pour les déploiements en entreprise, où la responsabilisation budgétaire par équipe est souvent non négociable.

UELes entreprises européennes utilisant Amazon Bedrock peuvent désormais attribuer précisément leurs dépenses d'inférence IA par équipe ou projet, facilitant la gouvernance financière et la refacturation interne sans infrastructure supplémentaire.

InfrastructureActu
1 source