Aller au contenu principal
Moonshot AI open-source FlashKDA : noyaux CUTLASS pour Kimi Delta Attention et benchmarks H20
InfrastructureMarkTechPost6sem· 2 min de lecture

Moonshot AI open-source FlashKDA : noyaux CUTLASS pour Kimi Delta Attention et benchmarks H20

Source originale ↗·

Moonshot AI, la startup chinoise derrière le chatbot Kimi.ai, vient de publier en open source FlashKDA (Flash Kimi Delta Attention), une bibliothèque de kernels GPU haute performance construite sur CUTLASS, la librairie de templates CUDA de NVIDIA. Disponible sur GitHub sous licence MIT, FlashKDA est une implémentation de production du mécanisme d'attention Kimi Delta Attention (KDA), le composant central du modèle hybride Kimi Linear. Sur des GPU NVIDIA H20, la bibliothèque atteint des gains de vitesse de prefill allant de 1,72x à 2,22x par rapport à la référence flash-linear-attention, et s'intègre directement comme backend de remplacement dans cette même librairie. Les prérequis techniques sont CUDA 12.9 et PyTorch 2.4, avec un ciblage exclusif de l'architecture Hopper (SM90 et supérieur), ce qui englobe les H100 et H20.

L'enjeu est concret : Kimi Linear est un modèle à 48 milliards de paramètres totaux dont seulement 3 milliards sont activés à l'inférence. Son architecture repose sur un ratio de trois couches KDA pour une couche d'attention globale de type MLA (Multi-Head Latent Attention), ce qui réduit l'utilisation du cache KV de 75 % lors de la génération sur de longues séquences. À un million de tokens de contexte, ce design offre un débit de décodage jusqu'à six fois supérieur à celui d'une architecture full-attention classique. FlashKDA est précisément le kernel CUDA qui rend ce gain possible lors de la phase de prefill, en exploitant les Tensor Cores de NVIDIA via CUTLASS pour optimiser le calcul matriciel à basse précision (bf16).

Ce travail s'inscrit dans une vague de recherche intense sur les mécanismes d'attention linéaire, motivée par le problème fondamental de la complexité quadratique de l'attention softmax standard : plus le contexte est long, plus les coûts de calcul explosent. KDA est la réponse de Moonshot AI à ce défi, en raffinant l'architecture Gated DeltaNet avec un mécanisme de gating par canal plus fin, ce qui améliore l'utilisation de la mémoire d'état finie des RNN. Le support du batching à longueur variable via des séquences cumulatives (cu_seqlens) et la gestion d'états récurrents initiaux et finaux facilitent son usage en production pour l'inférence multi-tour. En publiant FlashKDA sous licence MIT, Moonshot AI permet à d'autres équipes de reproduire et construire sur cette architecture, au moment même où la course à l'inférence longue séquence s'intensifie entre les grands laboratoires mondiaux.

Impact France/UE

Impact indirect : les équipes de recherche et startups IA européennes disposant de GPU Hopper (H100/H20) peuvent intégrer FlashKDA (licence MIT) pour accélérer leurs travaux sur l'inférence longue séquence, sans dépendance à une solution propriétaire.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte
1MarkTechPost 

Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte

Together AI vient de publier en open source OSCAR (Offline Spectral Covariance-Aware Rotation), un système de quantification du cache KV à 2 bits conçu pour réduire drastiquement la mémoire GPU nécessaire à l'inférence de grands modèles de langage sur de longs contextes. Le problème visé est concret : lors de l'inférence en mode autorégressif, le cache KV croît avec la longueur du contexte, la taille des lots et la profondeur du modèle. À 100 000 tokens traités par dizaines de requêtes simultanées, ce cache peut accaparer la majorité de la mémoire GPU disponible. La quantification à INT2, qui ne représente les valeurs qu'avec 4 niveaux distincts, était jusqu'ici largement inutilisable : soit elle dégradait trop la précision, soit elle était incompatible avec les architectures de cache paginé utilisées en production. OSCAR surmonte ces deux obstacles grâce à une rotation des activations fondée non pas sur leur distribution brute, mais sur les statistiques d'attention elles-mêmes. L'innovation centrale d'OSCAR réside dans le choix de la base de rotation. Pour les clés (keys), ce qui compte n'est pas l'erreur de reconstruction euclidienne, mais l'erreur sur les logits d'attention, pondérée par la covariance des requêtes. Pour les valeurs (values), c'est la covariance pondérée par les scores d'attention qui détermine quelles directions d'erreur se propagent réellement dans la sortie du modèle. OSCAR estime ces covariances sur un jeu de calibration, les décompose en vecteurs propres, et les utilise comme base de rotation optimale. La rotation finale se compose de trois éléments : l'alignement sur les directions importantes pour l'attention, une transformation de Hadamard qui uniformise les canaux, et un réordonnancement par inversion de bits qui garantit que chaque groupe de quantification reçoit un représentant de chaque niveau hiérarchique. Le système s'intègre dans la pile de serving production de SGLang comme mode INT2 natif du cache KV. Ce travail s'inscrit dans une course intense à l'efficacité mémoire pour les LLM en production. La quantification du cache KV est un levier direct sur la taille des lots traitables et donc sur le coût par requête. Les approches INT4 existantes, comme QuIP# ou QuaRot, fonctionnaient déjà correctement, mais INT2 représentait une frontière difficile à franchir sans perte de qualité rédhibitoire. En publiant OSCAR en open source avec une intégration SGLang, Together AI met cet outil à disposition de l'ensemble de la communauté de déploiement de modèles. L'enjeu est considérable : multiplier par deux la compression du cache KV peut doubler la capacité de traitement parallèle d'un serveur sans changer le matériel. Les prochaines étapes naturelles concernent la validation sur des modèles de très grande taille et l'extension à d'autres architectures d'attention.

UELes laboratoires et startups IA européens déployant des LLM peuvent adopter cette technique open source pour réduire leurs coûts d'inférence GPU et doubler leur capacité de traitement parallèle sans changer de matériel.

InfrastructureOpinion
1 source
LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes
2MarkTechPost 

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

La LightSeek Foundation a publié TokenSpeed, un moteur d'inférence pour grands modèles de langage distribué en open source sous licence MIT. Encore en phase de préversion, TokenSpeed est conçu spécifiquement pour les charges de travail dites "agentiques", c'est-à-dire les systèmes d'IA qui enchaînent de multiples appels au modèle pour accomplir des tâches complexes, comme l'écriture ou la révision de code. L'objectif déclaré est d'atteindre des performances comparables à TensorRT-LLM de NVIDIA, tout en restant accessible à l'ensemble de l'écosystème. Le moteur vise à maintenir un débit minimum de 70 tokens par seconde par utilisateur, un seuil qui monte parfois à 200 TPS ou plus, tout en maximisant le nombre de tokens traités par GPU et par minute. L'enjeu dépasse la performance brute. Des outils comme Claude Code d'Anthropic, Codex d'OpenAI ou Cursor fonctionnent sur des contextes qui dépassent régulièrement 50 000 tokens et s'étalent sur des dizaines de tours de conversation, un profil très différent d'un simple chatbot. Or la plupart des benchmarks publics ne rendent pas compte de cette réalité. Lorsqu'un agent de développement logiciel analyse un dépôt entier, génère du code, exécute des tests et itère, chaque milliseconde de latence ajoutée se multiplie à chaque étape. Un moteur d'inférence mal adapté devient rapidement un goulot d'étranglement qui ralentit l'ensemble de la chaîne de production logicielle, et donc, à terme, les équipes d'ingénierie qui en dépendent. L'architecture de TokenSpeed repose sur cinq sous-systèmes complémentaires. Le premier est un mécanisme de parallélisme assisté par compilateur, basé sur le modèle SPMD (Single Program, Multiple Data), qui génère automatiquement les communications entre processus sans que le développeur n'ait à les écrire manuellement. Le planificateur de requêtes sépare strictement le plan de contrôle, implémenté en C++ sous forme de machine à états finis, du plan d'exécution écrit en Python, ce qui permet de détecter les erreurs de gestion du cache KV à la compilation plutôt qu'à l'exécution. Le troisième pilier est une couche de noyaux GPU modulaire et extensible, compatible avec des accélérateurs autres que ceux de NVIDIA, s'appuyant notamment sur l'un des noyaux MLA (Multi-head Latent Attention) les plus rapides disponibles pour les GPU Blackwell. Ce noyau MLA a d'ailleurs déjà été intégré dans vLLM, l'un des moteurs d'inférence open source les plus utilisés dans l'industrie. La fondation LightSeek positionne ainsi TokenSpeed comme une infrastructure commune pour l'ère où les agents IA deviennent le principal vecteur de production de code.

UELa disponibilité d'un moteur d'inférence open source compatible avec des accélérateurs non-NVIDIA pourrait réduire la dépendance des équipes européennes aux solutions propriétaires de NVIDIA.

InfrastructureActu
1 source
Ce que les benchmarks IA ne mesurent pas dans les conditions réelles
3VentureBeat AI 

Ce que les benchmarks IA ne mesurent pas dans les conditions réelles

Les benchmarks utilisés par les équipes d'infrastructure IA ne reflètent pas les conditions réelles de production, et cet écart coûte cher aux entreprises. C'est le constat que dressent des ingénieurs de F5 et MinIO, qui ont mené des tests de débit dans des conditions réseau dégradées. Leurs résultats sont frappants : dès qu'on introduit une latence modeste dans le chemin vers le stockage objet S3, le débit chute drastiquement. Et à mesure que la latence augmente, comme c'est le cas sur des distances longue portée, la dégradation devient sévère. Autre surprise : la latence s'est révélée bien plus destructrice que le jitter réseau, à l'inverse de ce que l'équipe anticipait. Paul Pindell, architecte solutions chez F5, le formule clairement : "Les tests benchmark sont construits pour produire les meilleurs résultats possibles, pas les plus réalistes. Introduire une latence constante dans le chemin de test est indispensable pour que les chiffres aient un sens." Le problème concret est que les GPU, ressource la plus visible et la plus coûteuse de tout déploiement IA, ne génèrent de la valeur que si le chemin de données qui les alimente fonctionne correctement. Or ce chemin passe par le stockage, le réseau, les bases de données, les couches de sécurité et d'orchestration, souvent assemblées depuis plusieurs fournisseurs. Quand ce chemin se dégrade, les effets se cumulent : sous-utilisation des GPU, dégradation des sorties IA, hausse des coûts de transfert liés à la réplication inutile de données, et complexité opérationnelle croissante. Tanu Mutreja, directrice produit chez F5, souligne que les charges de travail IA sont structurellement plus exposées à ces défaillances que les applications traditionnelles. Contrairement aux bases de données ou aux systèmes ERP, qui absorbent les délais transitoires via des caches et des tampons, les clusters GPU massivement parallèles n'ont aucun mécanisme équivalent. Le moindre pic de latence ou goulot d'étranglement peut se propager immédiatement à l'ensemble du pipeline. Cette prise de conscience change la manière dont les architectes d'entreprise doivent concevoir leur infrastructure IA. Hunter Smit, responsable marketing produit chez F5, résume le paradoxe : "Les entreprises achètent suffisamment de GPU et de stockage, puis supposent que le chemin entre les deux tiendra. Mais le trafic IA est par rafales, très concurrent, et aléatoire dans ses lectures, d'une manière que les réseaux de stockage classiques n'ont jamais été conçus pour absorber." La réponse qui émerge dans l'industrie est le déploiement de contrôleurs de livraison applicative (ADC) ou de plateformes de livraison et sécurité (ADSP) en amont du stockage, pour créer un point de contrôle résilient. Le message central est que les décisions d'infrastructure fondées sur des benchmarks en environnement contrôlé exposent les organisations à des surprises coûteuses en production, et que la performance du chemin de données est devenue un levier stratégique au même titre que la capacité de calcul brute.

InfrastructureOpinion
1 source
Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles
4AWS ML Blog 

Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles

Amazon Web Services a introduit une fonctionnalité appelée Cross-Region Inference (CRIS) dans Amazon Bedrock, son service d'IA générative managé, permettant aux entreprises européennes de router automatiquement leurs requêtes d'inférence vers plusieurs régions AWS au sein de zones géographiques prédéfinies. Concrètement, lorsqu'une application envoie une requête à un modèle comme Claude d'Anthropic ou un modèle Amazon Nova, CRIS peut la rediriger dynamiquement vers la région disposant de la meilleure capacité disponible, tout en maintenant les données dans un périmètre géographique contrôlé. Pour l'Europe, AWS propose des profils EU CRIS dont toutes les régions de destination sont situées exclusivement au sein de l'Union européenne. Les données transmises restent chiffrées et circulent uniquement sur le réseau privé AWS, sans jamais transiter par l'internet public. Ce mécanisme répond à un problème concret que rencontrent les entreprises européennes : la saturation des capacités de calcul GPU en période de forte demande, qui se traduit par des latences élevées ou des erreurs de disponibilité. En distribuant les requêtes sur plusieurs régions, les applications deviennent plus résilientes aux pics de charge et aux pannes locales. Du point de vue réglementaire, les profils EU CRIS sont conçus pour faciliter la conformité au RGPD, puisque le traitement reste borné à l'UE, un critère déterminant pour les secteurs soumis à des exigences strictes de résidence des données comme la finance, la santé ou les services publics. AWS souligne également que certains modèles sont disponibles à tarif réduit via les profils globaux CRIS, ajoutant un argument économique à l'argument technique. La pression réglementaire européenne sur le traitement des données par des fournisseurs cloud américains s'est intensifiée ces dernières années, notamment après les décisions de la CJUE sur les transferts transatlantiques de données. Les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure ont tous investi massivement dans des infrastructures européennes et des offres de souveraineté pour répondre à ces contraintes. CRIS s'inscrit dans cette logique : plutôt que de forcer les clients à choisir une seule région et à subir ses limitations de capacité, AWS propose une abstraction qui optimise automatiquement tout en respectant les frontières réglementaires. La prochaine étape logique sera l'extension de ces profils géographiques à d'autres zones comme le Moyen-Orient ou l'Asie-Pacifique, et l'intégration de contrôles plus fins permettant aux entreprises de définir elles-mêmes les régions autorisées selon leurs obligations contractuelles ou sectorielles.

UELa fonctionnalité EU CRIS d'AWS Bedrock permet aux entreprises européennes de maintenir leurs traitements d'inférence IA exclusivement dans les frontières de l'UE, facilitant la conformité RGPD pour les secteurs finance, santé et services publics soumis à des exigences strictes de résidence des données.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic