Aller au contenu principal
Flash-KMeans : un K-Means exact et optimisé pour les E/S, plus de 200 fois plus rapide que FAISS sur GPU
RechercheMarkTechPost1h· 2 min de lecture

Flash-KMeans : un K-Means exact et optimisé pour les E/S, plus de 200 fois plus rapide que FAISS sur GPU

Source originale ↗·

Des chercheurs de l'Université de Californie à Berkeley et de l'Université du Texas à Austin ont publié Flash-KMeans, une bibliothèque open source qui réimplémente l'algorithme k-means standard de Lloyd sur GPU, avec des gains de performance spectaculaires. Sur un NVIDIA H200, la bibliothèque affiche jusqu'à 17,9 fois plus de rapidité que le meilleur concurrent testé, 33 fois plus que la bibliothèque industrielle cuML de NVIDIA, et plus de 200 fois plus que FAISS, la référence du secteur pour la recherche vectorielle. Flash-KMeans s'installe via pip et est distribué sous licence Apache 2.0. Le résultat mathématique est strictement identique à un k-means classique : aucune approximation, aucun raccourci algorithmique.

L'enjeu est de taille parce que le k-means n'est plus seulement un outil de prétraitement utilisé une fois avant l'entraînement. Les pipelines d'IA modernes l'appellent en boucle, à l'intérieur même des phases d'entraînement et d'inférence, ce qui rend chaque milliseconde critique. Flash-KMeans attaque deux goulots d'étranglement distincts. La phase d'assignation, qui consiste à associer chaque point au centroïde le plus proche, génère habituellement une matrice de distances de taille N x K entièrement écrite en mémoire HBM avant d'être relue : sur N=65 536 points, K=1 024 clusters et d=128 dimensions, le calcul arithmétique prend 2,6 ms mais les accès mémoire coûtent 23 ms. La solution, baptisée FlashAssign, s'inspire de FlashAttention : elle fusionne le calcul de distance et la recherche du minimum en tuiles traitées sur la SRAM on-chip, sans jamais matérialiser la matrice complète. La phase de mise à jour des centroïdes, elle, souffrait de collisions atomiques massives sur les clusters populaires, limitant la bande passante effective à 50 Go/s sur le H200. La méthode Sort-Inverse Update contourne ce problème en triant les assignations par identifiant de cluster, ce qui permet de réduire chaque segment localement avant une seule opération atomique par cluster.

Flash-KMeans s'inscrit dans une dynamique plus large où les optimisations de bas niveau, au niveau du noyau GPU, deviennent aussi décisives que les innovations algorithmiques. La bibliothèque FAISS, développée par Meta et omniprésente dans les systèmes de recherche vectorielle en production, ne passe pas à l'échelle sans compromis : les implémentations PyTorch classiques tombent en panne mémoire dès que K devient grand, faute de pouvoir matérialiser la matrice N x K. Flash-KMeans traite un milliard de points avec K=32 768 et d=128 en 41,4 secondes contre 261,8 secondes pour la référence, et ce hors-coeur. Avec la montée en puissance des bases de données vectorielles et du clustering dynamique dans les systèmes RAG et de recommandation, une implémentation exacte et aussi rapide pourrait rapidement devenir un composant standard des pipelines d'IA à grande échelle.

Impact France/UE

Les laboratoires et entreprises européens déployant des systèmes RAG ou des bases de données vectorielles à grande échelle peuvent bénéficier directement de cette bibliothèque open source pour accélérer leurs pipelines de clustering sans modification algorithmique.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale
1Microsoft Research 

MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale

Microsoft Research a annoncé plusieurs avancées majeures autour de MatterSim, son modèle d'intelligence artificielle dédié à la simulation des matériaux. L'équipe a d'abord validé expérimentalement une prédiction du modèle : le phosphure de tantale tétragonal (TaP) a été synthétisé en laboratoire et sa conductivité thermique mesurée à 152 W/m/K, une valeur proche de celle du silicium. Ce résultat confirme la fiabilité de MatterSim-v1, qui avait identifié ce matériau après avoir passé en revue plus de 240 000 candidats. Ces travaux ont été menés en collaboration avec l'Université du Texas à Dallas, l'Université de l'Illinois à Urbana-Champaign et l'Université de Californie à Davis. En parallèle, l'équipe a accéléré l'inférence du modèle de trois à cinq fois et l'a intégré au logiciel de simulation LAMMPS, autorisant des calculs à grande échelle sur plusieurs GPU simultanément. Microsoft lance également MatterSim-MT, un modèle de fondation multi-tâches capable de simuler des phénomènes impliquant plusieurs propriétés complexes que les approches classiques de surfaces d'énergie potentielle ne peuvent pas capturer seules. La conception de nouveaux matériaux sous-tend des pans entiers de l'innovation technologique, de la nanoélectronique au stockage d'énergie, mais les cycles de développement restent longs et onéreux. Les potentiels interatomiques par apprentissage automatique comme MatterSim visent à transformer ce paradigme : ils opèrent des ordres de grandeur plus vite que les simulations ab initio traditionnelles, ramenant des calculs autrefois prohibitifs à quelques heures de traitement. La validation du TaP illustre concrètement ce gain : au lieu de mois d'exploration empirique en laboratoire, MatterSim a permis de cibler un candidat à haute conductivité thermique parmi un quart de million de matériaux avant même toute synthèse. Les matériaux conducteurs de chaleur jouent un rôle critique dans la gestion thermique des processeurs, de l'électronique de puissance et des technologies aérospatiales. Disposer d'outils prédictifs fiables à cette échelle pourrait donc accélérer substantiellement le développement de composants de nouvelle génération. MatterSim-v1 avait été lancé par Microsoft Research et s'était rapidement imposé dans la communauté des sciences des matériaux grâce à sa capacité à simuler les matériaux dans des conditions réalistes, y compris à température et pression variables. Le nouveau modèle multi-tâches MatterSim-MT s'inscrit dans une tendance de fond : l'émergence de modèles de fondation couvrant un spectre de propriétés toujours plus large, au-delà de la simple stabilité structurelle. Microsoft n'est pas seul dans cette course : Google DeepMind avec GNoME et Meta avec ses outils FAIR-Chem développent des approches comparables. L'IA pour la découverte de matériaux attire des investissements croissants, portée par les besoins de l'industrie des semi-conducteurs, de la transition énergétique et de l'électronique avancée. Les prochaines étapes pour MatterSim passeront vraisemblablement par l'extension à de nouvelles propriétés simulables et une intégration plus étroite dans les workflows expérimentaux des laboratoires partenaires.

RecherchePaper
1 source
mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU
2MarkTechPost 

mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU

Des chercheurs de l'Université de Californie à Berkeley, dans le cadre du projet UCCL, ont publié mKernel, une bibliothèque de noyaux CUDA persistants conçue pour fusionner les communications inter-GPU et le calcul en un seul et même noyau. Le problème qu'ils adressent est chiffré avec précision : dans les charges de travail d'IA en production, les communications peuvent absorber jusqu'à 43,6 % du temps de passe avant (forward pass) et 32 % du temps d'entraînement de bout en bout. Sur les modèles Mixture-of-Experts (MoE), cette proportion grimpe à 47 % du temps d'exécution total. mKernel propose cinq noyaux fusionnés couvrant les opérations les plus courantes : AllGather + GEMM, GEMM + AllReduce, dispatch MoE + GEMM, Ring Attention et GEMM + ReduceScatter. Chaque noyau fusionne simultanément les communications NVLink intra-nœud, le RDMA inter-nœud et le calcul dense, le tout orchestré directement par le GPU sans passer par le processeur central. Le gain fondamental de cette approche réside dans l'élimination du goulet d'étranglement lié au pilotage par le CPU. Dans le modèle classique, le processeur central contrôle les flux d'exécution et appelle des bibliothèques comme NCCL ou NVSHMEM pour déclencher les opérations collectives. Or, à l'échelle des infrastructures modernes, un rack GB300 NVL72 intègre 72 GPU Blackwell Ultra, livrant 720 PFLOPS en FP8 et 130 To/s de bande passante NVLink, les latences microsecondes introduites par chaque appel CPU créent des bulles visibles dans le pipeline. mKernel supprime ce niveau d'indirection : le GPU lui-même initie les transferts RDMA via libibverbs, sans dépendance à NCCL ou NVSHMEM. À l'intérieur du noyau, les blocs de threads (CTAs) se spécialisent automatiquement en rôles distincts, calcul, communication intra-nœud, envoi et réduction inter-nœud, avec un nombre de SMs alloués à chaque rôle ajustable selon la forme des tenseurs. Ce travail s'inscrit dans une tendance de fond qui voit la communauté de recherche en systèmes distribués chercher à repousser les limites du parallélisme à très grande échelle. Les architectures MoE, popularisées notamment par les modèles de DeepSeek et Mixtral, amplifient les besoins de communication car chaque token doit être routé dynamiquement vers des experts potentiellement situés sur des nœuds différents. Les bibliothèques existantes comme Flux ou DeepEP avaient déjà exploré la fusion de noyaux, mais restaient généralement confinées à un seul nœud ou un seul GPU. mKernel, évalué sur deux clusters de 2 nœuds à 8 GPU H200 chacun, étend ce paradigme au cas multi-nœud, ouvrant la voie à des entraînements et inférences distribués où la communication cesse d'être un frein structurel à la scalabilité.

UELes laboratoires et entreprises européens entraînant des modèles distribués à grande échelle (notamment MoE) pourraient bénéficier indirectement de cette bibliothèque open-source pour réduire leur overhead de communication inter-GPU.

RecherchePaper
1 source
3VentureBeat AI 

Les modèles de pointe échouent une fois sur trois en production et deviennent plus difficiles à auditer

Les modèles d'IA les plus avancés échouent encore environ une fois sur trois dans des conditions réelles, selon le neuvième rapport annuel de l'AI Index publié par Stanford HAI. Sur τ-bench, un benchmark qui évalue des agents sur des tâches concrètes impliquant des échanges utilisateurs et des appels à des API externes, les meilleurs modèles actuels, dont Claude Opus 4.5, GPT-5.2 et Qwen3.5, n'atteignent qu'entre 62,9 % et 70,2 % de réussite. Pourtant, ces mêmes systèmes ont réalisé des progrès spectaculaires ailleurs : les performances sur Humanity's Last Exam ont progressé de 30 % en un an, les scores sur MMLU-Pro dépassent désormais 87 %, et la réussite sur SWE-bench Verified, qui mesure la capacité à résoudre de vrais bugs logiciels, est passée de 60 % à près de 100 % en douze mois. Sur WebArena, un environnement web simulé pour agents autonomes, le taux de succès est passé de 15 % en 2023 à 74,3 % début 2026. En cybersécurité, les modèles frontières résolvent désormais 93 % des problèmes de Cybench, contre 15 % l'an dernier. Ce décalage entre capacité et fiabilité constitue, selon Stanford HAI, le défi opérationnel central pour les directions informatiques en 2026. L'adoption de l'IA en entreprise a atteint 88 %, et les usages se multiplient dans des domaines à haute exigence d'exactitude : traitement fiscal, finance d'entreprise, droit, traitement de prêts hypothécaires, avec des taux de précision oscillant entre 60 et 90 %. Le problème n'est pas l'absence de progrès, mais leur caractère imprévisible. Les chercheurs reprennent le concept de "jagged frontier" de l'universitaire Ethan Mollick pour décrire cette frontière instable : un modèle peut décrocher une médaille d'or à l'Olympiade Internationale de Mathématiques, comme l'a fait Gemini Deep Think en 2025, résolvant cinq des six problèmes en langage naturel en moins de 4h30, et simultanément être incapable de lire l'heure de façon fiable. Ce rapport intervient dans un contexte de course aux capacités qui ne montre aucun signe de ralentissement. Stanford HAI est explicite : "Les capacités de l'IA ne plafonnent pas. Elles s'accélèrent." Les progrès en génération vidéo illustrent cette tendance : Veo 3 de Google DeepMind, testé sur plus de 18 000 vidéos générées, a démontré une capacité à simuler la flottabilité et à résoudre des labyrinthes sans entraînement spécifique sur ces tâches, suggérant que certains modèles commencent à modéliser le fonctionnement du monde physique. La question qui se pose désormais n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais comment garantir une fiabilité suffisante pour des déploiements critiques, et comment auditer des systèmes dont la complexité croissante rend l'interprétabilité de plus en plus difficile.

UELes entreprises européennes déployant l'IA dans des secteurs réglementés (finance, droit, fiscal) doivent intégrer ce taux d'échec de 30 % dans leurs stratégies de déploiement, avec des implications directes pour la conformité à l'AI Act qui exige des garanties de fiabilité pour les systèmes à haut risque.

RecherchePaper
1 source
4MarkTechPost 

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic