Aller au contenu principal
mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU
RechercheMarkTechPost8h

mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU

Résumé IASource uniqueImpact UE
Source originale ↗·

Des chercheurs de l'Université de Californie à Berkeley, dans le cadre du projet UCCL, ont publié mKernel, une bibliothèque de noyaux CUDA persistants conçue pour fusionner les communications inter-GPU et le calcul en un seul et même noyau. Le problème qu'ils adressent est chiffré avec précision : dans les charges de travail d'IA en production, les communications peuvent absorber jusqu'à 43,6 % du temps de passe avant (forward pass) et 32 % du temps d'entraînement de bout en bout. Sur les modèles Mixture-of-Experts (MoE), cette proportion grimpe à 47 % du temps d'exécution total. mKernel propose cinq noyaux fusionnés couvrant les opérations les plus courantes : AllGather + GEMM, GEMM + AllReduce, dispatch MoE + GEMM, Ring Attention et GEMM + ReduceScatter. Chaque noyau fusionne simultanément les communications NVLink intra-nœud, le RDMA inter-nœud et le calcul dense, le tout orchestré directement par le GPU sans passer par le processeur central.

Le gain fondamental de cette approche réside dans l'élimination du goulet d'étranglement lié au pilotage par le CPU. Dans le modèle classique, le processeur central contrôle les flux d'exécution et appelle des bibliothèques comme NCCL ou NVSHMEM pour déclencher les opérations collectives. Or, à l'échelle des infrastructures modernes, un rack GB300 NVL72 intègre 72 GPU Blackwell Ultra, livrant 720 PFLOPS en FP8 et 130 To/s de bande passante NVLink, les latences microsecondes introduites par chaque appel CPU créent des bulles visibles dans le pipeline. mKernel supprime ce niveau d'indirection : le GPU lui-même initie les transferts RDMA via libibverbs, sans dépendance à NCCL ou NVSHMEM. À l'intérieur du noyau, les blocs de threads (CTAs) se spécialisent automatiquement en rôles distincts, calcul, communication intra-nœud, envoi et réduction inter-nœud, avec un nombre de SMs alloués à chaque rôle ajustable selon la forme des tenseurs.

Ce travail s'inscrit dans une tendance de fond qui voit la communauté de recherche en systèmes distribués chercher à repousser les limites du parallélisme à très grande échelle. Les architectures MoE, popularisées notamment par les modèles de DeepSeek et Mixtral, amplifient les besoins de communication car chaque token doit être routé dynamiquement vers des experts potentiellement situés sur des nœuds différents. Les bibliothèques existantes comme Flux ou DeepEP avaient déjà exploré la fusion de noyaux, mais restaient généralement confinées à un seul nœud ou un seul GPU. mKernel, évalué sur deux clusters de 2 nœuds à 8 GPU H200 chacun, étend ce paradigme au cas multi-nœud, ouvrant la voie à des entraînements et inférences distribués où la communication cesse d'être un frein structurel à la scalabilité.

Impact France/UE

Les laboratoires et entreprises européens entraînant des modèles distribués à grande échelle (notamment MoE) pourraient bénéficier indirectement de cette bibliothèque open-source pour réduire leur overhead de communication inter-GPU.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire
1MarkTechPost 

Construire un workflow multi-agents pour la modélisation de réseaux biologiques, interactions protéiques, métabolisme et signalisation cellulaire

Des chercheurs et développeurs en bioinformatique disposent désormais d'un tutoriel détaillé pour construire un pipeline multi-agents capable de modéliser des systèmes biologiques complexes en un seul environnement de calcul unifié. Publié sous forme de notebook Google Colab, ce guide propose d'assembler plusieurs agents spécialisés autour de quatre domaines distincts : l'analyse des réseaux de régulation génique, la prédiction des interactions protéine-protéine, l'optimisation des voies métaboliques et la simulation des cascades de signalisation cellulaire. Chaque agent traite des données synthétiques générées en amont, avec des paramètres contrôlés (14 gènes, 40 protéines, 70 pas de simulation), et un modèle OpenAI GPT-4o-mini joue le rôle d'investigateur principal, synthétisant l'ensemble des résultats en une interprétation biologique cohérente qui relie régulation, métabolisme et signalisation. L'intérêt de cette approche dépasse la simple démonstration technique. En centralisant dans un seul workflow des analyses qui nécessitent habituellement des outils et des équipes séparées, le pipeline réduit la friction entre disciplines et rend la biologie computationnelle reproductible à coût quasi nul. Les chercheurs en génomique, pharmacologie ou biologie synthétique peuvent ainsi prototyper des hypothèses sur des interactions moléculaires sans avoir accès à des données expérimentales réelles, ce qui accélère la phase exploratoire avant les expériences en laboratoire. Le recours à un LLM comme chef d'orchestre final est particulièrement notable : il ne remplace pas l'expertise humaine, mais il agrège des sorties hétérogènes en une narration scientifique structurée, comblant le fossé entre calcul brut et interprétation biologique. Ce type d'infrastructure reflète une tendance de fond dans la bioinformatique computationnelle : l'émergence de systèmes multi-agents où des modules IA spécialisés collaborent plutôt que de concentrer toute la logique dans un seul modèle monolithique. Des entreprises comme Recursion Pharmaceuticals ou Insilico Medicine ont déjà industrialisé des pipelines similaires pour la découverte de médicaments, mais l'accès à ces outils reste souvent réservé à des équipes bien dotées. La mise à disposition d'un tel tutoriel open-source, fondé sur des bibliothèques standard comme NumPy, NetworkX et scikit-learn, démocratise une approche jusque-là réservée aux grands laboratoires. La prochaine étape logique serait d'y intégrer de vraies données omiques, comme des profils d'expression ARN issus de bases publiques telles que GEO ou TCGA, pour transformer ce prototype pédagogique en outil de recherche opérationnel.

RechercheTuto
1 source
M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
2arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source
AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA
3Amazon Science 

AWS et Johns Hopkins lancent une base de données inédite pour la conception d'anticorps par IA

Amazon Web Services (AWS) et l'université Johns Hopkins ont annoncé le lancement de l'Antibody Developability Benchmark, une base de données publique destinée à accélérer la conception d'anticorps thérapeutiques par intelligence artificielle. Ce jeu de données est 20 fois plus diversifié que les benchmarks existants dans la littérature scientifique, couvrant 50 anticorps de référence, plusieurs formats structuraux, cibles et profils biophysiques. Le projet est né d'une collaboration entre l'équipe Amazon Bio Discovery d'AWS et le Gray Lab du département de génie chimique et biomoléculaire de Johns Hopkins, dirigé par le professeur Jeffrey Gray, créateur original de RosettaDock, un outil de référence pour la prédiction de structures de complexes protéiques. Ce benchmark comble un manque critique qui freinait depuis des années le développement d'outils d'IA fiables pour la découverte de médicaments. Les modèles de langage protéique (pLM) et les architectures de deep learning structurel promettent de prédire la "développabilité" des anticorps, c'est-à-dire leur capacité à être fabriqués, stabilisés et administrés sans danger comme médicament. Or, comme l'a souligné Jeffrey Gray, les benchmarks internes de son laboratoire montraient que les modèles actuels échouaient encore à prédire des propriétés critiques comme la solubilité ou la spécificité. Sans données publiques suffisamment larges, diversifiées et collectées dans des conditions standardisées, il était impossible d'évaluer rigoureusement ces outils, ni de les améliorer de manière fiable. La nouvelle base de données répond directement à cette contrainte en fournissant des mesures biophysiques et biochimiques à grande échelle pour un espace de séquences représentatif du travail réel d'ingénierie des anticorps. Depuis 1986, date à laquelle la FDA américaine a approuvé son premier anticorps thérapeutique, les progrès ont été réels mais les délais et coûts de développement restent prohibitifs. Les pandémies récentes ont mis en lumière l'urgence de disposer d'outils capables d'identifier et d'optimiser rapidement ces molécules. Les modèles de fondation biologiques (BioFM) représentent une voie prometteuse, mais leur crédibilité repose sur leur capacité à être évalués contre des données expérimentales solides. Les datasets publics existants souffraient d'un biais structurel majeur : ils se concentraient sur un seul format d'anticorps, une seule cible, ou ne contenaient que des molécules naturelles ou cliniquement avancées, peu représentatives des défis réels de conception. En rendant publique cette base de données hétérogène et à grande échelle, AWS et Johns Hopkins espèrent catalyser une nouvelle génération d'outils in silico capables de raccourcir significativement les timelines de découverte, avec des implications directes pour la réponse aux crises sanitaires futures.

UELes laboratoires pharmaceutiques et équipes de recherche européens pourront exploiter ce benchmark public pour évaluer et améliorer leurs propres modèles d'IA appliqués à la conception d'anticorps thérapeutiques.

RecherchePaper
1 source
MATT-Diff : suivi actif de cibles multimodal par politique de diffusion
4arXiv cs.RO 

MATT-Diff : suivi actif de cibles multimodal par politique de diffusion

Des chercheurs du laboratoire CINAPS ont publié MATT-Diff, un système de contrôle permettant à un agent mobile autonome de pister plusieurs cibles simultanément dans des environnements inconnus. Présenté dans un article arXiv (2511.11931), le système repose sur une politique de diffusion, une approche inspirée des modèles génératifs d'images, pour piloter le comportement de l'agent selon trois modes distincts : exploration de zones inconnues, suivi de cibles détectées, et réacquisition de cibles perdues. L'ensemble du système fonctionne sans connaissance préalable du nombre de cibles, de leurs positions ou de leurs dynamiques de déplacement. Ce qui distingue MATT-Diff des approches existantes, c'est sa capacité à gérer le compromis fondamental en robotique de surveillance : quand explorer pour trouver des cibles encore inconnues, et quand exploiter l'information déjà disponible pour réduire l'incertitude sur les cibles déjà repérées. Le modèle utilise un vision transformer pour tokeniser les cartes égocentrées de l'agent, et un mécanisme d'attention pour intégrer des estimations variables des cibles représentées sous forme de densités gaussiennes. Entraîné comme un modèle de diffusion, il apprend à générer des séquences d'actions multimodales via un processus de débruitage, ce qui lui permet d'adopter des comportements variés face à une même situation, là où les politiques classiques produiraient une seule réponse déterministe. Pour constituer les données d'entraînement, les chercheurs ont combiné les démonstrations de trois planificateurs experts distincts : un planificateur à base de frontières pour l'exploration, un planificateur hybride basé sur l'incertitude alternant entre exploration et suivi via l'algorithme RRT*, et un planificateur hybride temporel déclenchant la réacquisition selon le temps écoulé depuis la dernière détection. Cette diversité des sources d'apprentissage explique la richesse comportementale du système final. Les évaluations montrent des performances supérieures aux autres baselines d'apprentissage dans des environnements inédits. Le code est disponible publiquement sur GitHub, ouvrant la voie à des applications en surveillance autonome, recherche et sauvetage, ou gestion de drones en milieu complexe.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour