Aller au contenu principal
NVIDIA publie cuda-oxide : un compilateur expérimental Rust vers CUDA générant des noyaux GPU directement en PTX
InfrastructureMarkTechPost6sem· 2 min de lecture

NVIDIA publie cuda-oxide : un compilateur expérimental Rust vers CUDA générant des noyaux GPU directement en PTX

Source originale ↗·

Les équipes de recherche de NVIDIA AI ont publié cuda-oxide, un compilateur expérimental qui permet aux développeurs d'écrire des noyaux GPU CUDA SIMT (Single Instruction, Multiple Threads) directement en Rust standard, sans passer par du C++ ni par des interfaces de liaison (FFI). Le projet compile le code Rust vers PTX (Parallel Thread Execution), la représentation intermédiaire assembleur qu'utilise CUDA pour cibler les GPU NVIDIA. La chaîne de compilation est entièrement construite en Rust : le code source traverse d'abord le frontend de rustc, puis Stable MIR (l'API stable et versionnée exposant les internals du compilateur), avant d'être transformé via trois dialectes intermédiaires définis dans Pliron, un framework Rust natif similaire à MLIR. Le résultat est un fichier LLVM IR (.ll) que l'outil externe llc compile en PTX, chargé ensuite par le driver CUDA à l'exécution. Le code hôte et le code GPU coexistent dans un même fichier .rs, et chaque étape de la chaîne peut être inspectée avec la commande cargo oxide pipeline.

L'intérêt principal de cuda-oxide est de permettre aux développeurs Rust d'écrire des kernels GPU sans quitter l'écosystème Rust et sans installer de chaîne C++, CMake ou tablegen. L'ensemble du projet se compile avec cargo. En s'appuyant sur Stable MIR plutôt que sur les internals instables de rustc, le backend évite de se casser à chaque mise à jour nightly du compilateur, ce qui était un obstacle récurrent pour les projets similaires. Pour l'industrie, cela ouvre la possibilité de combiner les garanties de sécurité mémoire de Rust avec la programmation GPU basse couche, un domaine jusqu'ici dominé par le C++ et où les bugs liés à la gestion mémoire ont des conséquences directes sur les performances et la stabilité des modèles d'IA en production.

L'écosystème Rust-GPU existe déjà sous plusieurs formes : Rust-GPU cible SPIR-V pour Vulkan, rust-cuda utilise un backend rustc vers NVVM IR, CubeCL expose un DSL embarqué compilant vers CUDA, ROCm et WGPU, et std::offload exploite le chemin d'offload implicite de LLVM. cuda-oxide se positionne différemment : là où rust-cuda cherche à "amener Rust sur GPU" en préservant l'ergonomie Rust (async/await, bibliothèque standard on-device), cuda-oxide vise à "amener CUDA dans Rust", c'est-à-dire exprimer le modèle CUDA natif, les intrinsèques GPU et l'indexation de threads directement en Rust. Les équipes de NVlabs ont précisé coordonner avec les mainteneurs de rust-cuda et considèrent les deux projets complémentaires plutôt que concurrents. Le projet reste expérimental, mais son architecture modulaire et son absence de dépendances C++ en font une base sérieuse pour explorer la programmation GPU en Rust à grande échelle.

💬 L'analyse de Mathieu

Rust sur GPU sans installer CMake ni une chaîne C++, c'est le genre de truc qu'on attendait depuis 2 ans. Le vrai truc malin ici c'est Stable MIR : tous les projets similaires se cassaient à chaque update nightly, cuda-oxide a trouvé le bon endroit où accrocher le backend. Reste expérimental, mais la base est sérieuse.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Comment Nvidia veut s’emparer du « cerveau » de nos ordinateurs personnels
1La Tribune 

Comment Nvidia veut s’emparer du « cerveau » de nos ordinateurs personnels

Au salon Computex de Taipei, fin mai 2026, Nvidia a présenté RTX Spark, sa première gamme de processeurs conçus pour équiper ordinateurs de bureau et ordinateurs portables sous Windows. Il s'agit d'une rupture nette dans la stratégie du fabricant californien, jusqu'ici centré sur les GPU dédiés : avec RTX Spark, Nvidia s'attaque au marché des processeurs centraux, territoire dominé depuis des décennies par Intel et AMD. La gamme intègre directement des capacités de traitement d'IA au cœur des machines grand public, sans nécessiter de carte graphique additionnelle. L'enjeu est considérable pour l'ensemble de l'industrie PC. En embarquant la puissance de calcul IA dans le processeur principal, Nvidia permet aux fabricants de proposer des machines plus compactes, moins gourmandes en énergie et capables d'exécuter des modèles de langage ou des outils d'IA générative en local, sans dépendre du cloud. Pour les professionnels et les utilisateurs exigeants, cela signifie des traitements plus rapides, plus privés et moins coûteux à long terme. Cette offensive s'inscrit dans une tendance de fond : la bataille pour le contrôle de l'IA dite « edge », c'est-à-dire déployée directement sur l'appareil de l'utilisateur plutôt que sur des serveurs distants. Microsoft pousse activement les PC Copilot+, Qualcomm a pris de l'avance avec ses puces ARM dédiées à l'IA, et Apple intègre depuis plusieurs années ses Neural Engine dans ses Mac. Nvidia, fort de sa domination sur les GPU de data centers, cherche désormais à reproduire ce leadership jusqu'au poste de travail individuel, transformant la définition même de ce qu'est un ordinateur personnel.

UEL'intégration de l'IA directement dans les processeurs grand public pourrait permettre aux entreprises et particuliers européens d'exécuter des modèles d'IA en local, réduisant la dépendance aux clouds américains et facilitant la conformité au RGPD.

💬 Nvidia arrive en retard sur l'IA edge, Qualcomm et Apple ont plusieurs longueurs d'avance depuis 2023. Mais intégrer l'IA dans le processeur principal plutôt que dans une carte graphique séparée à 800€, ça change le calcul pour tous les fabricants PC qui hésitaient à embarquer de l'IA locale. Sur le papier c'est solide, reste à voir ce que ça donne face aux puces ARM de Qualcomm en conditions réelles.

InfrastructureOpinion
1 source
Le CPU Vera de NVIDIA s'affirme comme un concurrent redoutable
2NVIDIA AI Blog 

Le CPU Vera de NVIDIA s'affirme comme un concurrent redoutable

Les premiers benchmarks publics du processeur Vera de NVIDIA, publiés le 27 mai 2026 par le site spécialisé Phoronix, révèlent des performances qui pourraient redessiner le paysage des processeurs pour centres de données. Le CPU Vera, conçu autour de 88 cœurs personnalisés baptisés Olympus et compatibles avec l'architecture Armv9.2, affiche une bande passante mémoire de 1,2 To/s grâce à un sous-système LPDDR5X de deuxième génération. Le tout dans une enveloppe thermique de 450 watts pour le processeur, avec moins de 30 watts dédiés à la mémoire. Les tests couvrent un large spectre de charges de travail : compilation de code, compression de fichiers, transcodage vidéo, Python, Java et gestion de bases de données. Michael Larabel, fondateur de Phoronix, conclut sans ambages : "C'est la concurrence la plus redoutable jamais vue face aux processeurs Intel et AMD x86_64." Ces résultats ont une portée directe pour les entreprises qui construisent des infrastructures d'IA agentique, c'est-à-dire des systèmes où des agents autonomes exécutent simultanément du code, interrogent des bases de données et orchestrent des pipelines complexes. Sur le test STREAM TRIAD, Vera soutient 90% de sa bande passante mémoire de pointe, un taux qu'aucun autre processeur testé par Phoronix n'a atteint, tout en délivrant plus de quatre fois la bande passante mémoire par cœur comparé aux CPU x86 traditionnels. La société Prime Intellect a confirmé, dans des tests séparés, que Vera maintient une bande passante élevée et une latence mémoire faible et stable à mesure que le nombre de processus parallèles augmente. Pour les opérateurs d'infrastructures IA, cela se traduit par moins de serveurs nécessaires pour un même volume de travail, et une facture énergétique réduite. NVIDIA a présenté Vera comme la réponse architecturale au virage vers l'IA agentique, qui impose aux processeurs des contraintes différentes de celles du deep learning classique : moins de calcul matriciel massif, davantage de traitement séquentiel, de branchements conditionnels et d'accès mémoire dispersés. Par rapport au processeur Grace de génération précédente, Vera affiche un gain de 1,6x en moyenne géométrique sur l'ensemble des benchmarks Phoronix, une progression que Larabel qualifie de "constamment au-delà de ce qu'on attend d'une génération à l'autre". Ce lancement intervient dans un contexte où AMD EPYC et Intel Xeon dominent encore les data centers d'entreprise, mais où NVIDIA cherche à imposer ses propres CPU aux côtés de ses GPU dans des plateformes intégrées. La prochaine étape sera de voir si ces performances en benchmark se confirment dans des déploiements de production à grande échelle, notamment dans les grandes fermes d'IA où le coût total par inférence reste le critère ultime.

UELes opérateurs de centres de données européens pourraient réduire leur consommation énergétique et le nombre de serveurs nécessaires pour leurs charges IA agentique, un avantage concret dans le contexte des objectifs européens de sobriété numérique.

InfrastructureActu
1 source
OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia
3The Information AI 

OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia

OpenAI envisage de rendre public un outil logiciel développé en interne qui permettrait d'exécuter des charges de travail d'intelligence artificielle sur des puces de différents fabricants, sans se limiter à celles de Nvidia. C'est Sachin Katti, responsable des infrastructures et du calcul chez OpenAI, qui a évoqué cette possibilité lors d'une table ronde. OpenAI a récemment conclu des accords pour utiliser les puces d'Amazon, de Cerebras et d'AMD, tout en développant ses propres puces personnalisées. Katti a décrit cet outil comme une "capacité d'optimisation agentique" et affirmé vouloir "rendre cette capacité disponible pour le monde entier". Il a également indiqué qu'OpenAI disposait déjà d'échantillons précoces des prochaines puces Vera Rubin de Nvidia, dont le déploiement est attendu d'ici fin 2025, et prévoit de les intégrer à ses entraînements d'ici la fin de l'année. Si OpenAI publie effectivement cet outil, les conséquences pour Nvidia pourraient être significatives. L'avantage concurrentiel du géant des semi-conducteurs repose en grande partie sur CUDA, son écosystème propriétaire de compilateurs, de bibliothèques et d'outils d'optimisation que la quasi-totalité des grands développeurs d'IA utilisent pour faire tourner leurs logiciels sur ses puces. Un outil capable d'abstraire cette dépendance, c'est-à-dire de permettre aux équipes d'OpenAI de lancer des charges de travail sans se soucier du matériel sous-jacent, ouvrirait la voie à une concurrence matérielle que Nvidia a jusqu'ici réussi à étouffer grâce à son écosystème logiciel. Katti a également suggéré que l'IA elle-même pourrait générer du code optimisé pour différentes architectures de puces, réduisant encore davantage la valeur de l'exclusivité de CUDA. Cette annonce s'inscrit dans une tendance de fond que l'on observe chez tous les grands laboratoires d'IA : OpenAI, Anthropic et Meta cherchent tous à diversifier leurs fournisseurs de calcul pour ne pas dépendre d'un seul acteur. Katti a résumé cette évolution par une formule claire : "Nous allons nous retrouver dans un monde très hétérogène." PyTorch, le framework développé à l'origine par Meta, avait déjà commencé à éroder l'hégémonie de CUDA en facilitant l'écriture de code pour plusieurs types de puces. Des startups proposent désormais des outils de traduction automatique de ce code vers des instructions bas niveau adaptées directement au matériel. OpenAI, en s'inspirant du système Borg de Google qui permet de gérer des charges de calcul sur des infrastructures hétérogènes, ambitionne d'accélérer ce mouvement à l'échelle de l'ensemble de l'industrie.

UESi cet outil est publié, les laboratoires et entreprises européens pourraient diversifier leurs fournisseurs de puces IA au-delà de Nvidia, réduisant ainsi une dépendance stratégique coûteuse.

InfrastructureOpinion
1 source
Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs
4IEEE Spectrum AI 

Un meilleur matériel peut transformer les outsiders de l'IA en acteurs majeurs

Le dernier modèle Llama de Meta atteint les 2 000 milliards de paramètres, un chiffre vertigineux qui illustre la course effrénée au gigantisme dans l'industrie de l'IA. Mais des chercheurs de l'université de Stanford ont mis au point une puce expérimentale qui pourrait changer radicalement l'équation énergétique de ces modèles colossaux. Leur approche repose sur un phénomène connu sous le nom de sparsité : dans la plupart des grands modèles de langage, une majorité des paramètres (poids et activations) sont égaux à zéro, ou si proches de zéro qu'ils peuvent être traités comme tels sans perte de précision. L'équipe Stanford a conçu le premier accélérateur matériel capable de traiter efficacement tous les types de charges de travail sparses, en partant de zéro sur la pile complète : hardware, firmware bas niveau et logiciel applicatif. Résultat mesuré : la puce consomme en moyenne soixante-dix fois moins d'énergie qu'un CPU classique et effectue les calculs huit fois plus vite. L'enjeu est considérable pour l'ensemble de l'industrie. Les modèles d'IA actuels exigent des ressources computationnelles et énergétiques croissantes, avec un impact carbone qui devient difficile à ignorer. Or les GPU et CPU dominants aujourd'hui n'exploitent pas naturellement la sparsité : ils multiplient et additionnent les zéros comme n'importe quel autre nombre, gaspillant du temps et de l'énergie. Sauter ces opérations inutiles et ne stocker que les paramètres non nuls permettrait, en théorie, de faire tourner des modèles de très grande taille avec une fraction de l'infrastructure actuelle, sans sacrifier leurs performances. Pour les entreprises qui déploient des modèles en production, les économies potentielles sur les coûts d'inférence seraient substantielles. Il y a deux ans, Cerebras avait déjà démontré que l'on peut mettre à zéro jusqu'à 70 à 80 % des paramètres d'un grand modèle de langage sans perte de précision mesurable, en testant cette approche sur le Llama 7B de Meta, avec des implications étendues à des modèles comme ChatGPT ou Claude. La sparsité peut aussi être naturellement présente dans certaines architectures, comme les modèles de recommandation ou les graphes de réseaux sociaux, où la plupart des connexions possibles n'existent pas. Ce que l'équipe Stanford apporte maintenant, c'est la preuve matérielle que toute la chaîne d'exécution peut être repensée pour exploiter cette propriété. La prochaine étape sera de savoir si l'industrie, dominée par Nvidia et ses GPU denses, adoptera cette direction ou si la sparsité restera un sujet de recherche académique face à la brutalité des roadmaps de puissance brute.

💬 70x moins d'énergie, c'est pas un détail. Stanford prouve qu'on peut reconstruire toute la stack matérielle autour de la sparsité et obtenir des résultats qui feraient pâlir n'importe quel data center. La vraie question, c'est si Nvidia va laisser ce genre de truc décoller, ou si leurs roadmaps de puissance brute vont continuer à dicter la direction de l'industrie pendant les 10 prochaines années.

InfrastructureOpinion
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic