Aller au contenu principal
InfrastructureMarkTechPost1h

NVIDIA publie cuda-oxide : un compilateur expérimental Rust vers CUDA générant des noyaux GPU directement en PTX

Résumé IASource uniqueImpact UE
Source originale ↗·

Les équipes de recherche de NVIDIA AI ont publié cuda-oxide, un compilateur expérimental qui permet aux développeurs d'écrire des noyaux GPU CUDA SIMT (Single Instruction, Multiple Threads) directement en Rust standard, sans passer par du C++ ni par des interfaces de liaison (FFI). Le projet compile le code Rust vers PTX (Parallel Thread Execution), la représentation intermédiaire assembleur qu'utilise CUDA pour cibler les GPU NVIDIA. La chaîne de compilation est entièrement construite en Rust : le code source traverse d'abord le frontend de rustc, puis Stable MIR (l'API stable et versionnée exposant les internals du compilateur), avant d'être transformé via trois dialectes intermédiaires définis dans Pliron, un framework Rust natif similaire à MLIR. Le résultat est un fichier LLVM IR (.ll) que l'outil externe llc compile en PTX, chargé ensuite par le driver CUDA à l'exécution. Le code hôte et le code GPU coexistent dans un même fichier .rs, et chaque étape de la chaîne peut être inspectée avec la commande cargo oxide pipeline.

L'intérêt principal de cuda-oxide est de permettre aux développeurs Rust d'écrire des kernels GPU sans quitter l'écosystème Rust et sans installer de chaîne C++, CMake ou tablegen. L'ensemble du projet se compile avec cargo. En s'appuyant sur Stable MIR plutôt que sur les internals instables de rustc, le backend évite de se casser à chaque mise à jour nightly du compilateur, ce qui était un obstacle récurrent pour les projets similaires. Pour l'industrie, cela ouvre la possibilité de combiner les garanties de sécurité mémoire de Rust avec la programmation GPU basse couche, un domaine jusqu'ici dominé par le C++ et où les bugs liés à la gestion mémoire ont des conséquences directes sur les performances et la stabilité des modèles d'IA en production.

L'écosystème Rust-GPU existe déjà sous plusieurs formes : Rust-GPU cible SPIR-V pour Vulkan, rust-cuda utilise un backend rustc vers NVVM IR, CubeCL expose un DSL embarqué compilant vers CUDA, ROCm et WGPU, et std::offload exploite le chemin d'offload implicite de LLVM. cuda-oxide se positionne différemment : là où rust-cuda cherche à "amener Rust sur GPU" en préservant l'ergonomie Rust (async/await, bibliothèque standard on-device), cuda-oxide vise à "amener CUDA dans Rust", c'est-à-dire exprimer le modèle CUDA natif, les intrinsèques GPU et l'indexation de threads directement en Rust. Les équipes de NVlabs ont précisé coordonner avec les mainteneurs de rust-cuda et considèrent les deux projets complémentaires plutôt que concurrents. Le projet reste expérimental, mais son architecture modulaire et son absence de dépendances C++ en font une base sérieuse pour explorer la programmation GPU en Rust à grande échelle.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs
1IEEE Spectrum AI 

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs

Le dernier modèle Llama de Meta atteint les 2 000 milliards de paramètres, un chiffre vertigineux qui illustre la course effrénée au gigantisme dans l'industrie de l'IA. Mais des chercheurs de l'université de Stanford ont mis au point une puce expérimentale qui pourrait changer radicalement l'équation énergétique de ces modèles colossaux. Leur approche repose sur un phénomène connu sous le nom de sparsité : dans la plupart des grands modèles de langage, une majorité des paramètres (poids et activations) sont égaux à zéro, ou si proches de zéro qu'ils peuvent être traités comme tels sans perte de précision. L'équipe Stanford a conçu le premier accélérateur matériel capable de traiter efficacement tous les types de charges de travail sparses, en partant de zéro sur la pile complète : hardware, firmware bas niveau et logiciel applicatif. Résultat mesuré : la puce consomme en moyenne soixante-dix fois moins d'énergie qu'un CPU classique et effectue les calculs huit fois plus vite. L'enjeu est considérable pour l'ensemble de l'industrie. Les modèles d'IA actuels exigent des ressources computationnelles et énergétiques croissantes, avec un impact carbone qui devient difficile à ignorer. Or les GPU et CPU dominants aujourd'hui n'exploitent pas naturellement la sparsité : ils multiplient et additionnent les zéros comme n'importe quel autre nombre, gaspillant du temps et de l'énergie. Sauter ces opérations inutiles et ne stocker que les paramètres non nuls permettrait, en théorie, de faire tourner des modèles de très grande taille avec une fraction de l'infrastructure actuelle, sans sacrifier leurs performances. Pour les entreprises qui déploient des modèles en production, les économies potentielles sur les coûts d'inférence seraient substantielles. Il y a deux ans, Cerebras avait déjà démontré que l'on peut mettre à zéro jusqu'à 70 à 80 % des paramètres d'un grand modèle de langage sans perte de précision mesurable, en testant cette approche sur le Llama 7B de Meta, avec des implications étendues à des modèles comme ChatGPT ou Claude. La sparsité peut aussi être naturellement présente dans certaines architectures, comme les modèles de recommandation ou les graphes de réseaux sociaux, où la plupart des connexions possibles n'existent pas. Ce que l'équipe Stanford apporte maintenant, c'est la preuve matérielle que toute la chaîne d'exécution peut être repensée pour exploiter cette propriété. La prochaine étape sera de savoir si l'industrie, dominée par Nvidia et ses GPU denses, adoptera cette direction ou si la sparsité restera un sujet de recherche académique face à la brutalité des roadmaps de puissance brute.

💬 70x moins d'énergie, c'est pas un détail. Stanford prouve qu'on peut reconstruire toute la stack matérielle autour de la sparsité et obtenir des résultats qui feraient pâlir n'importe quel data center. La vraie question, c'est si Nvidia va laisser ce genre de truc décoller, ou si leurs roadmaps de puissance brute vont continuer à dicter la direction de l'industrie pendant les 10 prochaines années.

InfrastructureOpinion
1 source
NVIDIA et Google réduisent les coûts d'inférence en IA
2AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
3MIT Technology Review 

Déployer l'IA dans les environnements contraints du secteur public

Les institutions publiques du monde entier subissent une pression croissante pour adopter l'intelligence artificielle, mais leur contexte opérationnel diffère radicalement de celui du secteur privé. Une étude de Capgemini révèle que 79 % des dirigeants du secteur public s'inquiètent de la sécurité des données liées à l'IA, une préoccupation justifiée au regard de la sensibilité des informations gouvernementales et des obligations légales qui les entourent. Han Xiao, vice-président de l'IA chez Elastic, résume la situation : les agences gouvernementales doivent strictement contrôler les données qu'elles envoient sur le réseau, ce qui impose de nombreuses contraintes sur leur approche de l'IA. Une enquête d'Elastic auprès de décideurs publics révèle par ailleurs que 65 % d'entre eux peinent à exploiter leurs données en continu, en temps réel et à grande échelle. Là où le secteur privé présuppose une connectivité permanente au cloud, une infrastructure centralisée et une liberté de mouvement des données, les administrations publiques ne peuvent accepter ces conditions. Elles doivent garantir que leurs données restent sous leur contrôle, que les informations peuvent être vérifiées, et que la continuité des opérations est assurée, y compris dans des environnements où la connexion internet est limitée ou inexistante. S'ajoute à cela un autre obstacle matériel : les administrations achètent rarement des GPU, ces processeurs graphiques indispensables pour faire tourner les grands modèles d'IA, faute d'habitude de gérer ce type d'infrastructure. Ces contraintes cumulées expliquent pourquoi de nombreux projets pilotes d'IA dans le secteur public ne franchissent jamais le stade de l'expérimentation. Face à ces limites, les petits modèles de langage, ou SLM (Small Language Models), apparaissent comme une solution adaptée. Contrairement aux grands modèles comme GPT-4 qui mobilisent des centaines de milliards de paramètres, les SLM n'en utilisent que quelques milliards, ce qui les rend bien moins gourmands en ressources de calcul et permet de les héberger localement, sans dépendance au cloud. Des études empiriques montrent que leurs performances sont comparables, voire supérieures à celles des LLM sur des tâches spécialisées. Les données restent stockées en dehors du modèle et ne sont consultées qu'au moment des requêtes, grâce à des techniques comme la recherche vectorielle et l'ancrage sur des sources vérifiables. Des entreprises comme Elastic positionnent ces approches comme la voie réaliste vers une IA véritablement opérationnelle dans les administrations, à l'heure où la pression politique en faveur de la modernisation numérique ne cesse de s'intensifier.

UELes administrations françaises et européennes, contraintes par le RGPD et les exigences de souveraineté des données, trouvent dans les SLM déployables en local une voie concrète pour dépasser le stade pilote et accélérer leur modernisation numérique sans dépendance au cloud.

InfrastructureOpinion
1 source
OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA
4The Decoder 

OpenAI crée un protocole réseau avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour résoudre les goulets d'étranglement des supercalculateurs IA

OpenAI a annoncé la mise au point du protocole réseau MRC en collaboration avec AMD, Broadcom, Intel, Microsoft et NVIDIA. Ce protocole open source permet de transmettre des données simultanément sur des centaines de chemins entre les GPU, là où les architectures traditionnelles n'en empruntent qu'un à la fois. Là où les infrastructures classiques nécessitent trois ou quatre couches de commutateurs réseau pour relier des dizaines de milliers de puces, MRC n'en requiert que deux pour interconnecter plus de 100 000 GPU. Le protocole est déjà opérationnel sur le supercalculateur Stargate d'OpenAI. Cette simplification de l'architecture réseau a des conséquences directes sur les coûts et la consommation d'énergie des centres de données d'IA. Supprimer une à deux couches de commutateurs représente une économie substantielle en matériel, en câblage et en électricité, à une époque où les dépenses en infrastructure IA atteignent des dizaines de milliards de dollars par an. Pour les opérateurs de supercalculateurs, cette approche permet d'atteindre des échelles inédites tout en maîtrisant la facture énergétique, un enjeu majeur alors que la consommation des data centers est de plus en plus scrutée. Le projet Stargate, dont les investissements annoncés dépassent 500 milliards de dollars sur plusieurs années, illustre l'ambition d'OpenAI de bâtir sa propre infrastructure de calcul à très grande échelle. La création d'un protocole open source, développé en consortium avec les principaux fabricants de semi-conducteurs et Microsoft, signale une volonté de standardiser les communications entre GPU à l'échelle des supercalculateurs modernes. En ouvrant MRC, OpenAI mise sur une adoption large qui pourrait en faire un standard de fait pour l'industrie.

UELe protocole MRC pourrait réduire la consommation énergétique des supercalculateurs IA, un enjeu directement encadré par la réglementation européenne sur l'efficacité énergétique des centres de données.

💬 Enlever une à deux couches de commutateurs sur 100 000 GPU, ça veut dire des centaines de millions en matériel et en électricité économisés, pas un détail à cette échelle. Ce qui me frappe, c'est qu'OpenAI ouvre le protocole en consortium avec AMD, Broadcom, Intel et NVIDIA, plutôt que de le garder propriétaire. La stratégie est lisible : faire de MRC un standard de fait avant que quelqu'un d'autre s'y colle.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour