Aller au contenu principal

CUDA· sujet

48 articlesmis à jour le 2026-06-09

Suivi de CUDA : versions, compatibilité GPU NVIDIA, intégration aux frameworks IA et usages pour l'entraînement et l'inférence des modèles.

Hub d'actualité sur CUDA, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Le pouls du sujet · 30 derniers jours

données Le Fil IA
35 46%
articles (vs 30j préc.)
2.7%
de la couverture IA
Souvent associé à
NVIDIAInférenceAgenticOpenAIBlackwell

Mesuré sur notre corpus de 50+ sources, fenêtre glissante de 30 jours. Part de voix = part des articles IA de la période mentionnant CUDA. Voir le Baromètre IA complet

À retenir · 30 derniers jours

CUDA est l'interface de programmation que NVIDIA a publiée en 2007 pour faire tourner du calcul généraliste sur ses cartes graphiques. Quinze ans plus tard, c'est le socle quasi obligatoire de l'IA moderne : les bibliothèques qui entraînent et font tourner les modèles (cuDNN, cuBLAS, et les frameworks PyTorch ou TensorFlow au-dessus) sont écrites pour CUDA. Acheter un GPU NVIDIA, ce n'est pas seulement acheter du silicium, c'est entrer dans cet écosystème logiciel.

Sa position durable tient à cet effet de verrou. Des années de code, de tutoriels et d'optimisations existent en CUDA et nulle part ailleurs, ce qui rend la migration vers une autre marque coûteuse même quand le matériel concurrent est compétitif. C'est ce « fossé » logiciel, autant que les puces, qui explique la domination de NVIDIA sur l'infrastructure IA. Les alternatives existent (ROCm chez AMD, des couches d'abstraction comme Triton ou des compilateurs maison chez les grands acteurs du cloud), mais aucune n'a encore brisé l'habitude.

Pour un professionnel, comprendre CUDA, c'est comprendre où se situe le vrai pouvoir de marché dans l'IA, en amont des modèles.

Dans ce hub, on suit l'évolution de l'écosystème CUDA, les efforts pour s'en émanciper, et ce que ce verrou implique pour les coûts et la souveraineté.

Toute l'actualité CUDA

Flux automatique. Articles classés par pertinence, agrégés en continu.

Tutoriel NVIDIA cuTile en Python : noyaux GPU tuilés pour vecteurs et matrices dans Colab
1MarkTechPost OutilsTuto

Tutoriel NVIDIA cuTile en Python : noyaux GPU tuilés pour vecteurs et matrices dans Colab

NVIDIA a lancé cuTile Python, une interface de programmation GPU par tuiles permettant d'écrire des kernels de style CUDA directement en Python, sans passer par le C++. Un tutoriel détaillé, conçu pour fonctionner sur Google Colab, guide les développeurs à travers trois exemples progressifs : addition de vecteurs, addition de matrices et multiplication de matrices. L'environnement requiert au minimum le pilote NVIDIA R580 et le CUDA Toolkit 13.1, des prérequis que Colab ne satisfait pas toujours en configuration standard. Le package s'installe via PyPI sous le nom cuda-tile[tileiras], et le tutoriel intègre un mode de repli automatique sur PyTorch pour garantir l'exécutabilité du notebook même lorsque les conditions du runtime ne sont pas réunies. L'enjeu est considérable pour la communauté des développeurs en machine learning et en IA. Jusqu'ici, écrire des kernels GPU personnalisés et hautement optimisés exigeait de maîtriser le CUDA C++, un langage bas niveau réservé à un profil d'ingénieur très spécialisé. cuTile Python abaisse cette barrière en exposant une abstraction par tuiles directement en Python, le langage de référence de l'écosystème IA. Concrètement, les développeurs peuvent désormais contrôler finement comment les tenseurs sont chargés, calculés et stockés en mémoire GPU, puis comparer les performances de leurs kernels personnalisés avec les opérations standard de PyTorch. Ce niveau de contrôle, auparavant réservé à des équipes spécialisées dans des laboratoires comme Google DeepMind ou Meta FAIR, devient accessible à un cercle bien plus large de praticiens. Cette initiative s'inscrit dans une tendance de fond chez NVIDIA à rendre son écosystème CUDA plus accessible aux développeurs Python, face à la montée en puissance de compilateurs alternatifs comme Triton d'OpenAI ou JAX de Google. Triton, intégré nativement à PyTorch depuis 2022, avait déjà ouvert cette voie en permettant d'écrire des opérations GPU optimisées en Python pur. cuTile se positionne comme la réponse directe de NVIDIA, en s'appuyant sur son propre stack logiciel et ses nouvelles générations de pilotes. Le fait que le tutoriel soit explicitement conçu pour Colab, l'environnement de notebooks gratuit de Google, signale une stratégie d'adoption large : abaisser le coût d'entrée pour que les étudiants, chercheurs et ingénieurs puissent expérimenter sans infrastructure dédiée. La prochaine étape naturelle sera l'intégration de cuTile dans les frameworks d'entraînement majeurs comme HuggingFace Accelerate ou PyTorch Lightning, ce qui pourrait redéfinir comment les équipes optimisent leurs pipelines à grande échelle.

1 source
SK hynix et NVIDIA étendent leur partenariat autour des AI Factories
2Le Big Data 

SK hynix et NVIDIA étendent leur partenariat autour des AI Factories

SK hynix et NVIDIA ont annoncé le 7 juin 2026 un partenariat technologique pluriannuel centré sur le codéveloppement de mémoires de nouvelle génération pour les infrastructures d'IA mondiales. L'accord couvre un spectre large : les supercalculateurs d'IA Vera Rubin, les processeurs Vera, les PC RTX Spark et les plateformes robotiques Jetson Thor. Au-delà de la mémoire, les deux groupes prévoient d'appliquer l'intelligence artificielle à la conception et à la fabrication des semi-conducteurs eux-mêmes, en mobilisant les bibliothèques CUDA-X de NVIDIA et le framework PhysicsNeMo pour accélérer les simulations de puces, la lithographie computationnelle et les flux de conception assistée par ordinateur. Ce partenariat répond à une tension structurelle qui pèse sur toute l'industrie : les cycles de conception et de production des mémoires avancées sont longs et coûteux, alors que la demande explose avec l'essor des centres de données spécialisés en IA. Pour NVIDIA, sécuriser un fournisseur mémoire synchronisé avec sa propre feuille de route est devenu aussi stratégique que la conception des GPU eux-mêmes. Pour SK hynix, l'accord représente une montée en gamme décisive : l'entreprise coréenne sort du marché traditionnel des centres de données pour s'imposer sur deux segments que NVIDIA considère comme ses prochains relais de croissance, l'IA personnelle et l'IA physique, c'est-à-dire la robotique. L'utilisation de jumeaux numériques pour simuler les usines de semi-conducteurs pourrait par ailleurs réduire significativement les délais de développement à mesure que la complexité des puces continue de croître. Ce rapprochement s'inscrit dans une recomposition plus large des chaînes d'approvisionnement technologiques, accélérée par la course mondiale aux infrastructures d'IA. Les grands fournisseurs de GPU ne se contentent plus de concevoir des accélérateurs : ils cherchent à verrouiller en amont les composants critiques, dont la mémoire à haute bande passante est aujourd'hui le principal goulot d'étranglement pour l'entraînement et l'inférence des grands modèles. SK hynix, déjà premier fournisseur mondial de mémoire HBM, renforce ainsi une position concurrentielle face à Samsung et Micron. L'intégration de l'IA dans les processus industriels de fabrication de puces ouvre également la voie à une collaboration plus étroite entre fondeurs, concepteurs de GPU et éditeurs de logiciels EDA, un écosystème encore fragmenté dont NVIDIA cherche visiblement à devenir le pivot central.

UELes centres de données européens dépendent des mémoires HBM de SK hynix pour leurs infrastructures IA, ce partenariat renforce la dépendance stratégique de l'UE envers des fournisseurs non-européens de composants critiques.

InfrastructureOpinion
1 source
NVIDIA lance Dynamo Snapshot : démarrage rapide pour l'inférence IA sur Kubernetes via CRIU
3MarkTechPost 

NVIDIA lance Dynamo Snapshot : démarrage rapide pour l'inférence IA sur Kubernetes via CRIU

L'équipe de recherche en IA de NVIDIA a publié Dynamo Snapshot, un système de démarrage rapide pour les charges de travail d'inférence sur Kubernetes, reposant sur une approche de type checkpoint/restore. Le dispositif combine deux outils : CRIU (Checkpoint/Restore in Userspace), qui sérialise l'état CPU d'un processus Linux vers le disque, et cuda-checkpoint, qui capture l'état GPU (contextes CUDA, mémoire device, mappings d'adresses virtuelles) vers la RAM avant que CRIU ne prenne le relais. Le résultat est une image complète de l'état d'un serveur d'inférence en cours d'exécution, stockée sur un système de fichiers partagé (NFS ou SMB), et restaurable sur n'importe quel nœud du cluster. Côté Kubernetes, NVIDIA fournit un DaemonSet privilégié appelé snapshot-agent, déployable via Helm chart, qui gère les opérations de checkpoint et de restauration pour les conteneurs runc sans modification du runtime lui-même. Le problème que résout Dynamo Snapshot est concret et coûteux : le démarrage à froid d'un serveur d'inférence vLLM (version 0.20.0) sur un seul GPU se décompose en trois phases, téléchargement de l'image conteneur, initialisation du moteur (chargement des poids, warmup des kernels CUDA, compilation des graphes), et démarrage du runtime distribué, ce qui peut représenter plusieurs minutes pendant lesquelles les GPU sont alloués mais inactifs, sans générer le moindre token. Dans un environnement de production soumis à des pics de trafic imprévisibles, cette latence de démarrage expose directement les opérateurs à des violations de SLA : le système ne peut pas scaler assez vite pour absorber une hausse soudaine de la demande. Avec Dynamo Snapshot, le processus restauré reprend exactement à l'instruction où il a été figé, sans avoir conscience qu'une interruption s'est produite, réduisant le temps effectif de mise en service à une fraction du démarrage à froid classique. Cette publication s'inscrit dans une course plus large à l'efficacité opérationnelle des infrastructures LLM en production. Kubernetes est devenu le standard de facto pour orchestrer les déploiements d'inférence à grande échelle, mais ses primitives natives de scaling (HPA, KEDA) se heurtent au goulot d'étranglement structurel du cold start GPU. NVIDIA a choisi une approche DaemonSet plutôt que de s'appuyer sur le support natif checkpoint/restore de Kubernetes pour trois raisons : portabilité totale sans dépendance aux feature gates des cloud providers, contrôle fin sur l'état CUDA que les mécanismes standard n'exposent pas, et compatibilité immédiate avec les clusters existants. Le projet Dynamo, dont Snapshot est un composant, représente l'investissement de NVIDIA dans la couche logicielle d'inférence distribuée, un enjeu stratégique alors que la concurrence entre fournisseurs de frameworks (vLLM, TensorRT-LLM, SGLang) s'intensifie autour de la performance au token près.

💬 Le cold start GPU, c'est le boulet silencieux de tout déploiement LLM en prod. NVIDIA règle ça proprement avec du CRIU adapté au contexte CUDA, sans toucher au runtime Kubernetes (et ça, c'est malin, parce que les feature gates cloud c'est le chaos). Reste à voir si ça tient quand tu restaures sur un nœud avec un contexte GPU légèrement différent.

InfrastructureOpinion
1 source
Miso Labs publie MisoTTS : un modèle de synthèse vocale expressif de 8 milliards de paramètres en open weights
4MarkTechPost 

Miso Labs publie MisoTTS : un modèle de synthèse vocale expressif de 8 milliards de paramètres en open weights

Miso Labs a publié le 3 juin 2026 MisoTTS, un modèle de synthèse vocale open-weights de 8 milliards de paramètres capable de générer une parole expressive à partir de texte et de contexte audio. Construit sur une architecture de type Llama 3.2, le modèle s'inspire du système CSM de Sesame et repose sur une technique de quantification vectorielle résiduelle (RVQ) pour représenter les sons. Contrairement aux transformeurs classiques qui travaillent avec un vocabulaire discret fixe, MisoTTS émet pour chaque token audio un vecteur de 32 indices issus de codebooks de 2048 entrées chacun, ce qui lui permet d'atteindre théoriquement environ 10^105 tokens adressables sans augmenter le nombre de paramètres. L'architecture se divise en deux composants : un backbone de 7,7 milliards de paramètres responsable de la prédiction temporelle, et un décodeur de 300 millions de paramètres qui raffine les indices de codebook restants. Miso Labs revendique une latence de 110 millisecondes, contre 300 ms pour Sesame et 700 ms pour ElevenLabs. Le modèle est publié sous une licence MIT modifiée. Ce lancement est notable pour deux raisons techniques distinctes. La première est la résolution du problème de vocabulaire : la parole humaine varie en hauteur, rythme, accentuation, émotion et accent, ce qui la rend difficile à capturer avec un vocabulaire de tokens classique sans gonfler massivement la taille du modèle. La RVQ contourne cette limite en empilant des raffinements successifs plutôt qu'en élargissant un seul vocabulaire plat. La seconde avancée concerne le conditionnement : la plupart des systèmes TTS existants ne prennent en entrée que du texte. MisoTTS conditionne aussi le modèle sur l'audio de l'interlocuteur, lui permettant de répondre au ton de la conversation plutôt que de produire une voix uniforme. Miso Labs soutient que c'est précisément cette absence de prise en compte du contexte émotionnel qui cause l'effet de vallée de l'étrange dans les TTS actuels. Le modèle s'inscrit dans une dynamique d'ouverture accélérée dans le secteur des modèles audio. Après Sesame, dont l'architecture CSM a directement inspiré MisoTTS, plusieurs laboratoires cherchent à rendre la synthèse vocale expressive accessible localement, en dehors des API propriétaires. Le déploiement local est d'ailleurs l'un des arguments commerciaux de Miso Labs, qui met en avant la confidentialité des données audio. Des limites demeurent : le modèle fonctionne uniquement en mode half-duplex, sans gestion du tour de parole, nécessite un GPU CUDA performant, et l'accès API annoncé n'est pas encore disponible. Les affirmations sur la latence et la qualité n'ont pas encore été vérifiées par des tiers indépendants, ce qui laisse ouvertes les questions sur les performances réelles en production.

UELes développeurs et entreprises européennes peuvent déployer localement ce modèle open-weights pour la synthèse vocale expressive, réduisant leur dépendance aux API propriétaires et améliorant la confidentialité des données audio sensibles.

CréationOpinion
1 source
Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle
5NVIDIA AI Blog 

Les recherches de NVIDIA ouvrent la voie à la préhension avancée, la conduite autonome et l'entraînement d'agents à grande échelle

NVIDIA Research présente cette semaine au CVPR 2026 trois nouveaux papiers de recherche qui partagent une ambition commune : entraîner des systèmes à grande échelle pour qu'ils généralisent au-delà de leurs cas d'usage initiaux. Le premier, GraspGen-X, est décrit comme le premier modèle fondamental pour la saisie robotique zéro-shot : entraîné sur deux milliards de saisies simulées couvrant des milliers de formes d'objets et de configurations de pinces, il est capable de générer des propositions de prise fiables pour n'importe quelle pince robotique, y compris des modèles qu'il n'a jamais rencontrés. Le deuxième papier, LCDrive, introduit une approche pour la conduite autonome qui remplace le raisonnement textuel par des représentations latentes compactes, permettant aux véhicules de raisonner plus vite sur le matériel embarqué réel. Enfin, NitroGen est un modèle fondamental d'IA de gameplay, construit sur l'architecture NVIDIA Isaac GR00T, qui aide à entraîner des agents incarnés dans des environnements virtuels sur des dizaines de milliers d'heures d'interaction. Ces trois travaux répondent à des verrous concrets qui freinent le déploiement de l'IA physique aujourd'hui. Pour la robotique, le problème était simple mais paralysant : chaque nouveau type de pince nécessitait un cycle complet de collecte de données, fine-tuning et validation. GraspGen-X élimine ce goulot d'étranglement en fonctionnant comme un grand modèle de langage appliqué à la géométrie, utilisable directement avec les pinces courantes sans réentraînement. En parallèle, LCDrive adresse une contrainte matérielle réelle des véhicules autonomes : le raisonnement par chaîne de pensée basé sur du texte génère des tokens qui coûtent du temps de calcul, un luxe que les processeurs embarqués dans les voitures ne peuvent pas se permettre en situation réelle. En remplaçant les mots par des représentations latentes, le système peut raisonner plus vite sur le même hardware. Ces annonces s'inscrivent dans une dynamique plus large chez NVIDIA, qui positionne l'IA physique comme le prochain grand chantier après les LLM. La conférence CVPR, l'une des plus importantes en vision par ordinateur, est un terrain de choix pour valider ces approches auprès de la communauté académique avant leur adoption industrielle. GraspGen-X s'intègre d'ailleurs avec curoboV2, une nouvelle bibliothèque de planification de mouvement accélérée par CUDA, et s'appuie sur des travaux antérieurs comme Grasp-MPC présenté à l'ICRA 2026. Pour les développeurs de robots et de véhicules autonomes, l'enjeu est de taille : réduire les cycles de développement grâce à des modèles fondamentaux capables de s'adapter à de nouveaux contextes sans repartir de zéro, une approche qui commence à prouver sa valeur dans le monde du langage et que NVIDIA ambitionne désormais d'imposer dans le monde physique.

UELes avancées en préhension robotique zéro-shot et en inférence embarquée pour véhicules autonomes pourraient bénéficier aux industriels européens de la robotique et de l'automobile cherchant à réduire les cycles de développement.

RobotiquePaper
1 source
Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique
6arXiv cs.RO 

Cosmos 3 : des modèles du monde omnimodaux pour l'IA physique

NVIDIA a publié Cosmos 3, une famille de modèles du monde omnimodaux capables de traiter et générer conjointement du texte, des images, de la vidéo, de l'audio et des séquences d'actions au sein d'une architecture unifiée de type mixture-of-transformers. Présenté dans un preprint arXiv (2606.02800) le 3 juin 2026, Cosmos 3 fusionne en un seul framework quatre catégories de modèles jusqu'ici distinctes : modèles vision-langage (VLM), générateurs vidéo, simulateurs de monde et modèles action-monde. Les variantes post-entraînées ont été classées meilleures modèles open-source texte-vers-image et image-vers-vidéo par Artificial Analysis, et meilleur modèle de politique robotique par RoboArena. Code, checkpoints, datasets synthétiques et benchmarks d'évaluation sont publiés sous la licence OpenMDW-1.1 de la Linux Foundation, sur GitHub et HuggingFace. L'intégration de ces modalités dans un backbone scalable unique représente un changement architectural structurant pour l'IA physique. Pour un intégrateur robotique ou un décideur industriel, Cosmos 3 signifie qu'un seul modèle peut simultanément percevoir une scène, simuler des séquences vidéo plausibles, produire des instructions en langage naturel et prédire des séquences d'actions, sans recourir à plusieurs stacks spécialisés. La performance sur RoboArena, benchmark indépendant d'évaluation des politiques de contrôle robot, suggère que l'approche omnimodale ne sacrifie pas la précision des politiques à la généralité, une hypothèse régulièrement contestée dans le secteur. La mise à disposition des benchmarks sous licence ouverte offre en outre la possibilité d'un audit externe des performances, ce que les publications classiques de laboratoire ne permettent pas toujours. Cosmos 3 prolonge la trajectoire de NVIDIA en Physical AI amorcée avec Cosmos 1.x, présenté début 2025 comme plateforme de simulation pour l'entraînement robotique. L'architecture mixture-of-transformers rappelle des choix similaires chez Google DeepMind (Gemini) et Meta (Chameleon), mais avec un focus explicite sur l'embodiment et le contrôle moteur. Les concurrents directs sur le segment world-model pour robots incluent Physical Intelligence avec Pi-0, Google DeepMind avec ses successeurs de RT-2, et Skild AI. L'ouverture complète du code et des poids sous licence permissive est un signal stratégique clair : NVIDIA mise sur l'adoption par l'écosystème pour faire de Cosmos l'infrastructure de référence de l'IA physique, répliquant la dynamique qui a fait de CUDA le standard incontournable du calcul GPU.

UELes laboratoires et intégrateurs robotiques européens peuvent immédiatement adopter Cosmos 3 comme infrastructure open-source (licence permissive OpenMDW-1.1) pour leurs développements en IA physique, sans frais de licence et avec des benchmarks auditables.

💬 La comparaison avec CUDA n'est pas anodine. NVIDIA ne publie pas Cosmos 3 par générosité open-source, ils font exactement ce qu'ils ont fait en 2007 : poser le layer d'infrastructure que tout le monde finira par utiliser, et vendre les GPU par-dessus. Vu les benchmarks sur RoboArena, les labos robotiques ont peu de raisons de résister.

RobotiqueOpinion
1 source
Les leaders du logiciel industriel créent des ingénieurs IA autonomes et sécurisés avec NVIDIA NIM
7NVIDIA AI Blog 

Les leaders du logiciel industriel créent des ingénieurs IA autonomes et sécurisés avec NVIDIA NIM

NVIDIA a présenté cette semaine NemoClaw lors du GTC Taipei, en marge du salon COMPUTEX, en compagnie d'une douzaine de partenaires logiciels industriels. NemoClaw est un blueprint open source destiné à construire des agents IA autonomes, spécialisés et capables de fonctionner sur de longues durées. Il s'appuie sur OpenShell, un runtime sécurisé qui contrôle l'accès de chaque agent aux fichiers, réseaux et outils via des politiques de sécurité granulaires. La plateforme intègre un routeur de modèles, les bibliothèques NVIDIA NeMo, et supporte plusieurs frameworks d'orchestration comme OpenClaw et Hermes. Elle peut être déployée sur les DGX Spark, en datacenter d'entreprise ou dans le cloud. Cadence, Dassault Systèmes, Siemens et Synopsys figurent parmi les premiers à s'y appuyer pour construire leurs propres agents d'ingénierie. Cadence développe ainsi un agent RTL autonome capable d'orchestrer ChipStack pour la conception et la vérification de circuits numériques, réduisant le temps de vérification RTL de plusieurs semaines à quelques heures. Siemens intègre NemoClaw dans Fuse EDA AI Agent pour les workflows de conception de semi-conducteurs, circuits imprimés et circuits intégrés 3D. Synopsys, de son côté, démontre sur le show floor de COMPUTEX une application à l'optimisation thermique de systèmes de refroidissement GPU avec Ansys Icepak. L'enjeu industriel est considérable : si le calcul accéléré a déjà réduit les temps de simulation de plusieurs semaines à quelques heures, les workflows adjacents, conception assistée par ordinateur, maillage, configuration des simulations, post-traitement, rédaction de rapports, restaient encore largement manuels et chronophages. NemoClaw vise à automatiser cette chaîne complète. Pour les secteurs de l'automobile, de l'aérospatiale, des semi-conducteurs et de la fabrication, la promesse est une compression drastique des cycles de développement produit, avec des agents capables d'explorer des milliers de variantes de conception de manière autonome, de nuit comme de jour, là où une équipe d'ingénieurs aurait besoin de semaines. Au-delà des grands éditeurs, des startups s'emparent également de NemoClaw pour des cas d'usage pointus. Flexcompute utilise OpenShell pour ses agents Tidy3D et PhotonForge dédiés à la conception optique co-packagée, en combinant simulations optiques, électriques et thermiques pour explorer des milliers de variantes et produire des composants plus performants à moindre consommation énergétique, une technologie qu'NVIDIA utilise elle-même pour concevoir ses propres dispositifs photoniques. Luminary s'en sert pour automatiser la génération de données d'entraînement et les boucles d'apprentissage de modèles physiques IA. Neural Concept déploie un agent pour la conception de moteurs électriques enchaînant simulations électromagnétiques, structurelles et vibratoires. Cette mobilisation simultanée d'acteurs majeurs et de startups autour d'une même plateforme signale que NVIDIA cherche à imposer NemoClaw comme standard de facto de l'ingénierie autonome, à l'image de ce que CUDA a représenté pour le calcul GPU.

UEDassault Systèmes, entreprise française de référence dans la CAO industrielle (CATIA, SolidWorks), figure parmi les premiers partenaires de NemoClaw, ce qui pourrait accélérer l'adoption de l'ingénierie autonome dans les filières aérospatiale et automobile européennes.

OutilsActu
1 source
Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026
8VentureBeat AI 

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

Perplexity AI, la startup de recherche valorisée à 20 milliards de dollars, a présenté lundi soir au salon Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-cloud du marché. Le PDG Aravind Srinivas a fait la démonstration en direct aux côtés de Lip-Bu Tan, directeur général d'Intel, lors du keynote de l'entreprise. Sur scène, le système traitait des documents financiers confidentiels en répartissant automatiquement les tâches: les informations sensibles restaient sur l'appareil, équipé d'un processeur Intel Core Ultra Série 3, tandis que les raisonnements complexes étaient envoyés vers des modèles cloud. La nouveauté n'est pas qu'un modèle tourne en local, mais que le système décide lui-même, en temps réel et en cours d'exécution, quelle partie de chaque tâche doit rester sur la machine et laquelle peut rejoindre le cloud. Selon la société, aucun produit n'avait jusqu'ici automatisé cette décision de routage. La fonctionnalité sera disponible dans les prochaines semaines. L'enjeu concret est celui de la confidentialité des données dans un contexte d'agents IA de plus en plus autonomes. En demandant une validation utilisateur avant d'envoyer des éléments sensibles vers le cloud, Perplexity répond directement aux inquiétudes des entreprises sur la gouvernance des données dans les systèmes agentiques. Pour les professionnels manipulant des informations médicales, juridiques ou financières, cette architecture permet de bénéficier de la puissance des grands modèles de langage comme Claude, Gemini ou GPT sans renoncer au contrôle sur les données les plus critiques. C'est un compromis que ni les solutions purement locales ni les agents entièrement cloud ne proposaient jusqu'ici. Cette annonce s'inscrit dans une trajectoire de produit accélérée depuis le début de l'année. Le 25 février, Perplexity lançait Computer, un agent multi-modèles orchestrant 19 modèles d'IA différents, entièrement dans le cloud. En mars, lors de sa conférence développeurs Ask 2026, la startup introduisait Personal Computer, une application Mac hybride capable d'accéder au système de fichiers local dans un environnement sécurisé et auditable. Le système présenté à Computex franchit une étape supplémentaire: l'orchestrateur raisonne désormais sur le lieu d'exécution de chaque fragment de tâche, pas seulement sur le choix du modèle. La démonstration intervient dans un contexte industriel particulièrement favorable, Computex 2026 étant dominé par le thème de l'IA embarquée: quelques heures plus tôt, Jensen Huang avait dévoilé le RTX Spark, une puce Arm Nvidia intégrant un GPU Blackwell avec 6 144 coeurs CUDA, 128 Go de mémoire LPDDR5X et une bande passante de 300 Go/s, conçue pour une nouvelle génération de PC nativement IA.

UELes entreprises européennes soumises au RGPD pourraient bénéficier directement de cette architecture hybride, qui permet de maintenir les données sensibles en local tout en accédant aux grands modèles cloud, répondant aux exigences de souveraineté et de gouvernance des données imposées par la réglementation européenne.

OutilsOpinion
1 source
NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud
9NVIDIA AI Blog 

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

NVIDIA et Microsoft ont dévoilé lors de Microsoft Build un partenariat élargi pour déployer une pile technologique unifiée dédiée à l'IA agentique, couvrant les PC Windows, le cloud Azure et les environnements locaux. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu en direct depuis Taipei aux côtés de Satya Nadella pour présenter les nouvelles initiatives. Au programme : les PC RTX Spark et les stations DGX Station for Windows, l'accélération GPU de Microsoft Fabric, les modèles ouverts NVIDIA sur Microsoft Foundry, et le runtime sécurisé NVIDIA OpenShell intégré à GitHub Copilot. RTX Spark cible les laptops et petits ordinateurs de bureau avec 1 pétaflop de performance IA, jusqu'à 128 Go de mémoire unifiée et une autonomie toute la journée, avec des systèmes attendus cet automne chez Microsoft Surface, ASUS, Dell, HP, Lenovo et MSI. La DGX Station for Windows, propulsée par le superchip NVIDIA GB300 Grace Blackwell Ultra, offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops en FP4, capable de faire tourner des modèles jusqu'à 1 billion de paramètres, avec des livraisons prévues au quatrième trimestre 2026 chez ASUS, Dell, GIGABYTE, HP, MSI et Supermicro. Ce partenariat marque un tournant dans la course à l'IA agentique d'entreprise en proposant, pour la première fois, une chaîne complète allant du matériel personnel à l'infrastructure cloud. Pour les développeurs et les entreprises, cela signifie pouvoir construire, affiner et déployer des agents IA directement sur Windows sans dépendre exclusivement du cloud. Les modèles Claude d'Anthropic tournent désormais nativement sur les systèmes Blackwell Ultra dans Azure, avec une disponibilité annoncée dans les prochaines semaines. Sur Microsoft Foundry, le nouveau NVIDIA Nemotron 3 Ultra, conçu pour le raisonnement de longue durée dans des tâches de codage, de recherche et de workflows d'entreprise, est disponible dès ce mois-ci, accompagné de Nemotron 3.5 ASR pour la reconnaissance vocale et Nemotron 3.5 Content Safety pour la modération de contenu. Ce rapprochement intervient alors que l'ensemble de l'industrie cherche à concrétiser la promesse des agents IA autonomes capables d'exécuter des tâches complexes sur la durée. NVIDIA, dont les GPU sont devenus incontournables dans les data centers, étend son influence jusqu'au bureau et au PC personnel, concurrençant indirectement Apple Silicon et AMD sur le terrain de l'inférence locale. Le runtime OpenShell, sécurisé nativement, répond aux exigences de gouvernance des grandes entreprises qui hésitent encore à confier des tâches autonomes à des agents. L'intégration des bibliothèques CUDA-X comme cuDF, cuOpt et NeMo directement accessibles aux agents ouvre la voie à des workflows scientifiques plus complexes, notamment avec le modèle Cosmos 3 pour la simulation du monde physique et les modèles météo Earth-2 disponibles via Microsoft Planetary Computer Pro.

UELes entreprises européennes utilisant Azure et Windows bénéficieront d'une chaîne de déploiement IA unifiée du PC personnel au cloud, réduisant la dépendance exclusive à l'infrastructure cloud pour les workflows agentiques.

💬 Jensen Huang qui s'invite en hologramme depuis Taipei pendant le keynote de Satya, c'est le genre de mise en scène qui cache souvent un partenariat creux. Là, non : la DGX Station sous Windows avec 748 Go de mémoire cohérente et 20 pétaflops, c'est du concret pour les boîtes qui refusent de tout mettre dans Azure. Reste à voir si les prix seront accessibles à autre chose qu'aux grands comptes, mais l'idée d'une chaîne complète du laptop au datacenter sans changer de stack, ça change vraiment quelque chose pour les équipes qui font tourner des agents en prod.

InfrastructureActu
1 source
Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie
10Le Big Data 

Cosmos 3 : Nvidia lance l’IA qui comprend (enfin) la vraie vie

Nvidia a présenté Cosmos 3 lors du GTC de Taipei le 1er juin 2026, en parallèle de son robot humanoïde Isaac GROOT. Il s'agit du premier omnimodèle entièrement open source dédié à l'IA physique, disponible en deux variantes dès le lancement : une version "Super" de 32 milliards de paramètres, optimisée pour la précision dans des tâches comme la robotique et la conduite autonome, et une version "Nano" de 8 milliards de paramètres, conçue pour des inférences rapides. Une troisième déclinaison "Edge", utilisable directement sur des appareils locaux sans connexion cloud, est annoncée prochainement. Le modèle a été entraîné sur un corpus colossal de 20 000 milliards de tokens incluant près d'un milliard d'images, 400 millions de vidéos réelles et générées, des données audio ambiantes, du texte, ainsi que des traces d'actions captées sur des humains et des robots. Parmi les premiers partenaires industriels figurent Agile Robots, Black Forest Labs et Runway. Ce qui distingue Cosmos 3 des générateurs vidéo ou des modèles multimodaux classiques, c'est sa capacité native à comprendre et produire des actions, et pas seulement des représentations visuelles. Le système peut générer des données concrètes comme les angles d'articulations d'un robot, des trajectoires ou des positions de pinces mécaniques, directement exploitables pour entraîner des machines à interagir avec le monde physique. Ming-Yu Liu, vice-président du Cosmos Lab chez Nvidia, a insisté sur ce point : modéliser les mouvements des machines, et non seulement l'apparence des environnements, est la clé des systèmes autonomes réellement opérationnels. Autre avantage majeur : Cosmos peut simuler des scénarios rares ou dangereux, comme des collisions robotiques ou des incidents routiers atypiques, qui sont coûteux et risqués à reproduire en conditions réelles. Nvidia affirme que des tâches d'entraînement qui demandaient auparavant plusieurs mois pourraient désormais être réalisées en quelques jours. La publication de Cosmos 3 en open source s'inscrit dans la stratégie de Nvidia de construire un écosystème ouvert autour de l'IA physique, dans la lignée de sa famille de modèles Nemotron. En rendant le modèle librement adaptable, l'entreprise cherche à accélérer l'adoption industrielle tout en captant les retours du terrain pour orienter ses futures versions. Ce lancement intervient dans un contexte de compétition intense autour des fondations logicielles de la robotique et des véhicules autonomes, secteurs dans lesquels Google, Tesla et plusieurs startups chinoises investissent massivement. En positionnant Cosmos comme l'infrastructure commune de l'IA physique, Nvidia tente de reproduire dans le monde des machines intelligentes le rôle dominant que CUDA joue depuis vingt ans dans le calcul GPU.

UELes laboratoires et entreprises européens de robotique et de conduite autonome peuvent désormais exploiter un modèle de fondation open source de référence pour l'IA physique, réduisant les coûts d'entraînement et la dépendance au cloud.

💬 C'est la comparaison avec CUDA qui dit tout : Nvidia ne veut pas vendre des GPU pour la robotique, il veut être l'infrastructure qu'on ne peut plus éviter. Cosmos 3 en open source, c'est le même coup que PyTorch, tu ouvres pour capter l'écosystème avant de le monétiser. Reste à voir si les labos européens ont vraiment les ressources pour en tirer parti.

RobotiqueActu
1 source
Accélérer l'entraînement des transformers avec NVIDIA Apex et torch.amp
11MarkTechPost 

Accélérer l'entraînement des transformers avec NVIDIA Apex et torch.amp

Un tutoriel récemment publié propose une approche structurée pour accélérer l'entraînement de modèles Transformer sur GPU en s'appuyant sur NVIDIA Apex, une bibliothèque d'optimisation spécialisée. Le guide couvre en particulier trois composants : FusedAdam, un optimiseur de remplacement pour AdamW, FusedLayerNorm et FusedRMSNorm pour les couches de normalisation, ainsi que l'API de précision mixte torch.amp désormais intégrée nativement dans PyTorch. La démarche commence par la compilation d'Apex depuis les sources avec les extensions CUDA et C++, étape critique car une installation Python seule peut sembler réussie tout en ignorant silencieusement les noyaux haute performance qui font la valeur réelle de la bibliothèque. Le tutoriel inclut ensuite des benchmarks comparant FusedAdam face à PyTorch AdamW, les couches de normalisation fusionnées face aux variantes standard, puis une expérience complète d'entraînement Transformer qui mesure l'écart de débit entre un pipeline FP32 classique et une configuration combinant Apex et AMP. Les gains en jeu sont concrets : les noyaux CUDA fusionnés permettent de réduire le nombre d'opérations mémoire en combinant plusieurs calculs en un seul passage sur le GPU, ce qui se traduit directement en un débit d'entraînement supérieur et en une réduction du temps par itération. Pour les équipes qui entraînent de grands modèles de langage ou des Transformers profonds sur des infrastructures NVIDIA, ces optimisations peuvent représenter une économie significative en heures de calcul et donc en coût de GPU. La précision mixte, qui permet d'effectuer certains calculs en FP16 tout en maintenant la stabilité numérique en FP32 pour les parties sensibles, réduit également la consommation mémoire et autorise des batchs plus grands, accélérant la convergence. NVIDIA Apex est un projet open source maintenu par NVIDIA qui a longtemps servi de référence pour l'entraînement en précision mixte avant que PyTorch n'intègre nativement des fonctionnalités équivalentes via torch.amp. Aujourd'hui, certaines parties d'Apex restent pertinentes, notamment les noyaux CUDA fusionnés pour l'optimiseur et la normalisation, là où PyTorch n'offre pas encore d'alternative directe. Le tutoriel prend soin de distinguer les composants encore utiles des parties obsolètes, un arbitrage important dans un écosystème qui évolue rapidement. Avec l'essor des architectures de type GPT, Llama ou Mistral et la multiplication des entraînements à grande échelle, la demande d'outils d'optimisation bas niveau reste forte, et des bibliothèques comme Apex continuent d'alimenter les pipelines des équipes cherchant à extraire chaque milliseconde de leurs GPU NVIDIA.

OutilsTuto
1 source
NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes
12Interesting Engineering 

NVIDIA dévoile une plateforme complète pour robots humanoïdes, robotaxis et usines intelligentes

Lors du GTC Taipei, NVIDIA a dévoilé une plateforme full-stack destinée aux robots humanoïdes, aux véhicules autonomes et à l'automatisation industrielle. Le cœur de l'annonce est Cosmos 3, un omnimodèle fondational open-source construit sur une architecture mixture-of-transformers, capable de traiter simultanément texte, images, vidéo, son et commandes d'action dans un seul système. Il se décline en Cosmos 3 Super, orienté haute précision pour la robotique et les véhicules autonomes, et Cosmos 3 Nano, optimisé pour l'inférence rapide. NVIDIA lance également l'Isaac GR00T Reference Humanoid Robot, un design de référence intégrant le robot Unitree H2 Plus, les mains articulées Sharpa, le calculateur embarqué Jetson Thor et la pile logicielle GR00T, adopté par Ai2, ETH Zurich, Stanford Robotics Center et UC San Diego. La collaboration avec TSMC porte les bibliothèques CUDA-X dans la fab pour la lithographie computationnelle, la simulation de transistors et l'inspection de plaquettes à l'échelle nanométrique. Alpamayo 2 Super, un modèle de raisonnement à 32 milliards de paramètres, cible quant à lui les applications robotaxi. La cohérence verticale de la plateforme est sa principale valeur ajoutée : NVIDIA prétend désormais couvrir l'intégralité de la chaîne de valeur de l'IA physique, de la génération de données synthétiques à la simulation, jusqu'au déploiement en production. Pour les équipes R&D en robotique humanoïde, GR00T Reference Robot réduit potentiellement plusieurs mois d'intégration hardware/software. Cosmos 3 s'attaque par ailleurs au sim-to-real gap en proposant un world model capable de générer des environnements d'entraînement réalistes, l'un des verrous structurels du secteur. Cela dit, les benchmarks avancés ("meilleur modèle ouvert" sur plusieurs évaluations) émanent de NVIDIA lui-même sans validation tierce, ce qui invite à une lecture prudente. L'intégration dans la fab TSMC est plus tangible : des gains d'efficacité mesurables dans la détection de défauts nanométriques signalent une adoption industrielle réelle, pas seulement un proof-of-concept. NVIDIA construit ce positionnement depuis plusieurs années via Isaac Sim, Omniverse et la famille GR00T N2 présentée en 2025. Sur le marché des humanoïdes, les concurrents directs incluent Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0), Boston Dynamics (Atlas) et Agility Robotics (Digit). Le choix du robot Unitree H2 Plus, acteur chinois concurrent sur le segment humanoïde, comme base matérielle du design de référence NVIDIA est notable. En Europe, Enchanted Tools (Miroki, France) et Wandercraft pourraient tirer parti de Cosmos 3 pour la génération de données d'entraînement, même si aucun partenariat public n'a été annoncé. Les prochaines étapes incluent l'accès des institutions de recherche à GR00T Reference Robot et la disponibilité de Cosmos 3 via NVIDIA NGC ; aucune tarification ni date de commercialisation n'a été communiquée pour l'ensemble de la plateforme.

UEEnchanted Tools et Wandercraft pourraient exploiter Cosmos 3 pour la génération de données d'entraînement, et ETH Zurich figure parmi les partenaires de recherche du GR00T Reference Robot, mais aucun déploiement commercial en Europe n'est confirmé à ce stade.

💬 NVIDIA ne vend plus du silicium, il vend une plateforme verticale, de la simulation jusqu'au robot en prod. Le détail qui m'a accroché : le choix d'Unitree, concurrent chinois direct, comme base matérielle du robot de référence GR00T. C'est soit du pragmatisme pur, soit une façon de dire que l'avantage NVIDIA est dans le software, pas le hardware.

RobotiqueOpinion
1 source
OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia
13The Information AI 

OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia

OpenAI envisage de rendre public un outil logiciel développé en interne qui permettrait d'exécuter des charges de travail d'intelligence artificielle sur des puces de différents fabricants, sans se limiter à celles de Nvidia. C'est Sachin Katti, responsable des infrastructures et du calcul chez OpenAI, qui a évoqué cette possibilité lors d'une table ronde. OpenAI a récemment conclu des accords pour utiliser les puces d'Amazon, de Cerebras et d'AMD, tout en développant ses propres puces personnalisées. Katti a décrit cet outil comme une "capacité d'optimisation agentique" et affirmé vouloir "rendre cette capacité disponible pour le monde entier". Il a également indiqué qu'OpenAI disposait déjà d'échantillons précoces des prochaines puces Vera Rubin de Nvidia, dont le déploiement est attendu d'ici fin 2025, et prévoit de les intégrer à ses entraînements d'ici la fin de l'année. Si OpenAI publie effectivement cet outil, les conséquences pour Nvidia pourraient être significatives. L'avantage concurrentiel du géant des semi-conducteurs repose en grande partie sur CUDA, son écosystème propriétaire de compilateurs, de bibliothèques et d'outils d'optimisation que la quasi-totalité des grands développeurs d'IA utilisent pour faire tourner leurs logiciels sur ses puces. Un outil capable d'abstraire cette dépendance, c'est-à-dire de permettre aux équipes d'OpenAI de lancer des charges de travail sans se soucier du matériel sous-jacent, ouvrirait la voie à une concurrence matérielle que Nvidia a jusqu'ici réussi à étouffer grâce à son écosystème logiciel. Katti a également suggéré que l'IA elle-même pourrait générer du code optimisé pour différentes architectures de puces, réduisant encore davantage la valeur de l'exclusivité de CUDA. Cette annonce s'inscrit dans une tendance de fond que l'on observe chez tous les grands laboratoires d'IA : OpenAI, Anthropic et Meta cherchent tous à diversifier leurs fournisseurs de calcul pour ne pas dépendre d'un seul acteur. Katti a résumé cette évolution par une formule claire : "Nous allons nous retrouver dans un monde très hétérogène." PyTorch, le framework développé à l'origine par Meta, avait déjà commencé à éroder l'hégémonie de CUDA en facilitant l'écriture de code pour plusieurs types de puces. Des startups proposent désormais des outils de traduction automatique de ce code vers des instructions bas niveau adaptées directement au matériel. OpenAI, en s'inspirant du système Borg de Google qui permet de gérer des charges de calcul sur des infrastructures hétérogènes, ambitionne d'accélérer ce mouvement à l'échelle de l'ensemble de l'industrie.

UESi cet outil est publié, les laboratoires et entreprises européens pourraient diversifier leurs fournisseurs de puces IA au-delà de Nvidia, réduisant ainsi une dépendance stratégique coûteuse.

InfrastructureOpinion
1 source
Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA
14NVIDIA AI Blog 

Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA

Le workflow a été bloqué pour revue. Je fais la traduction directement. Taiwan abrite plus de 500 partenaires de l'écosystème NVIDIA, et c'est là que convergent plus d'un million de composants MGX destinés à la nouvelle infrastructure Vera Rubin, répartis sur 25 sites de production. Cette architecture de grande échelle implique l'ensemble de la chaîne d'approvisionnement : des acteurs de la fabrication de puces comme TSMC, SPIL, Kinsus, KYEC et UMTC aux géants de l'assemblage de serveurs que sont Foxconn, Pegatron, Quanta Cloud Technology (QCT), Wistron et Inventec. Mais ces industriels ne se contentent plus de construire l'infrastructure IA mondiale, ils l'appliquent à leurs propres usines. Foxconn déploie les blueprints NVIDIA Factory Operations et NemoClaw pour développer MoMClaw, un agent de gestion des opérations industrielles qui analyse en temps réel les signaux capteurs et machines, et fournit aux opérateurs des plans d'action en langage naturel. Les gains estimés sont substantiels : réduction de 80 % du temps d'analyse des causes racines, hausse de 15 % de la productivité, baisse de 10 % des pannes machines. La société construit par ailleurs un supercalculateur cloud à Taiwan pour 1,4 milliard de dollars, équipé de 10 000 GPU NVIDIA GB300 NVL72. L'enjeu dépasse la seule performance opérationnelle : Taiwan est en train de redéfinir ce que signifie construire de l'infrastructure IA à l'échelle industrielle. TSMC utilise les bibliothèques CUDA-X et des modèles IA pour la lithographie computationnelle, la simulation de transistors et le contrôle qualité, la bibliothèque cuLitho d'NVIDIA améliore le temps de cycle ou le coût de 20 à 50 % par rapport aux solutions CPU, tandis que cuEST accélère la simulation de matériaux semiconducteurs d'un facteur 50. QCT, de son côté, exploite des jumeaux numériques basés sur NVIDIA Omniverse pour planifier ses usines, et développe avec sa filiale Techman Robot un kit IA physique appuyé sur NVIDIA Jetson Thor et la plateforme Isaac GR00T, pour des robots humanoïdes comme le TM Xplore I, capables d'assembler des serveurs. Wistron simule des environnements de test thermique sur ses sites mondiaux grâce au framework PhysicsNeMo et à Cadence Reality DC Design. Cette dynamique s'inscrit dans une transition structurelle du secteur : NVIDIA ne se positionne plus seulement comme fournisseur de GPU, mais comme architecte d'un écosystème industriel intégré, où ses plateformes logicielles (Omniverse, Isaac, Metropolis, NeMo) pilotent autant la production que le produit final. Taiwan, qui concentre l'essentiel de la capacité mondiale de fabrication de semi-conducteurs avancés, devient ainsi le laboratoire grandeur nature de l'IA physique appliquée au manufacturing. Avec la montée en charge de Vera Rubin pour alimenter les "agentic AI factories" à l'échelle mondiale, la question n'est plus de savoir si l'IA va transformer l'industrie manufacturière, mais à quelle vitesse les acteurs qui ne participent pas à cet écosystème pourront rester compétitifs.

InfrastructureActu
1 source
mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU
15MarkTechPost 

mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU

Des chercheurs de l'Université de Californie à Berkeley, dans le cadre du projet UCCL, ont publié mKernel, une bibliothèque de noyaux CUDA persistants conçue pour fusionner les communications inter-GPU et le calcul en un seul et même noyau. Le problème qu'ils adressent est chiffré avec précision : dans les charges de travail d'IA en production, les communications peuvent absorber jusqu'à 43,6 % du temps de passe avant (forward pass) et 32 % du temps d'entraînement de bout en bout. Sur les modèles Mixture-of-Experts (MoE), cette proportion grimpe à 47 % du temps d'exécution total. mKernel propose cinq noyaux fusionnés couvrant les opérations les plus courantes : AllGather + GEMM, GEMM + AllReduce, dispatch MoE + GEMM, Ring Attention et GEMM + ReduceScatter. Chaque noyau fusionne simultanément les communications NVLink intra-nœud, le RDMA inter-nœud et le calcul dense, le tout orchestré directement par le GPU sans passer par le processeur central. Le gain fondamental de cette approche réside dans l'élimination du goulet d'étranglement lié au pilotage par le CPU. Dans le modèle classique, le processeur central contrôle les flux d'exécution et appelle des bibliothèques comme NCCL ou NVSHMEM pour déclencher les opérations collectives. Or, à l'échelle des infrastructures modernes, un rack GB300 NVL72 intègre 72 GPU Blackwell Ultra, livrant 720 PFLOPS en FP8 et 130 To/s de bande passante NVLink, les latences microsecondes introduites par chaque appel CPU créent des bulles visibles dans le pipeline. mKernel supprime ce niveau d'indirection : le GPU lui-même initie les transferts RDMA via libibverbs, sans dépendance à NCCL ou NVSHMEM. À l'intérieur du noyau, les blocs de threads (CTAs) se spécialisent automatiquement en rôles distincts, calcul, communication intra-nœud, envoi et réduction inter-nœud, avec un nombre de SMs alloués à chaque rôle ajustable selon la forme des tenseurs. Ce travail s'inscrit dans une tendance de fond qui voit la communauté de recherche en systèmes distribués chercher à repousser les limites du parallélisme à très grande échelle. Les architectures MoE, popularisées notamment par les modèles de DeepSeek et Mixtral, amplifient les besoins de communication car chaque token doit être routé dynamiquement vers des experts potentiellement situés sur des nœuds différents. Les bibliothèques existantes comme Flux ou DeepEP avaient déjà exploré la fusion de noyaux, mais restaient généralement confinées à un seul nœud ou un seul GPU. mKernel, évalué sur deux clusters de 2 nœuds à 8 GPU H200 chacun, étend ce paradigme au cas multi-nœud, ouvrant la voie à des entraînements et inférences distribués où la communication cesse d'être un frein structurel à la scalabilité.

UELes laboratoires et entreprises européens entraînant des modèles distribués à grande échelle (notamment MoE) pourraient bénéficier indirectement de cette bibliothèque open-source pour réduire leur overhead de communication inter-GPU.

RecherchePaper
1 source
Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle
16MarkTechPost 

Hexo Labs publie SIA en open source : un agent capable d'améliorer son propre cadre et ses poids de modèle

Hexo Labs a publié cette semaine SIA (Self-Improving AI), un framework open source sous licence MIT conçu pour dépasser une limite fondamentale des agents actuels : leur incapacité à s'améliorer une fois déployés. L'architecture divise l'agent en deux composants distincts, le scaffold (prompt système, logique de dispatch, politique de retry, code d'extraction) et les poids du modèle, et les modifie tous les deux dans une même boucle d'auto-amélioration. Trois LLM orchestrent ce cycle : un Meta-Agent qui génère le scaffold initial depuis une spécification de tâche, un agent d'exécution qui journalise chaque étape, et un Feedback-Agent tournant sur Claude Sonnet 4.6 qui analyse les trajectoires complètes pour décider de l'action suivante. Ce dernier choisit à chaque itération soit de réécrire le scaffold, soit de déclencher une mise à jour des poids via LoRA (rang 32), en sélectionnant également l'algorithme d'entraînement adapté au signal de récompense observé. Le modèle de base est openai/gpt-oss-120b, entraîné sur GPU H100 via la plateforme Modal. Les tests sur trois domaines radicalement différents montrent des gains constants. Sur LawBench, une tâche de classification criminelle chinoise en 191 classes, le scaffold seul plafonne à 50,0% de précision après avoir construit un pipeline TF-IDF plus LinearSVC ; les mises à jour de poids via PPO font bondir le score à 70,1%, soit un gain de 20,1 points de pourcentage. Sur TriMul, l'optimisation d'un kernel CUDA pour l'Evoformer d'AlphaFold2, le scaffold atteint 1,14x d'accélération, puis les mises à jour réduisent le temps d'exécution de 12 483 à 1 017 microsecondes, soit 91,9% de réduction et 14,02x au total. Pour l'imputation d'ARN monocellulaire, une modification en deux lignes générée dès la première mise à jour des poids, arrondir les comptes imputés à des entiers non négatifs, a suffi à faire passer le MSE normalisé de 0,241 à 0,289, une correction qu'aucune itération de scaffold n'avait trouvée. L'enjeu dépasse la performance brute. Améliorer un agent en production exige aujourd'hui un cycle manuel de prompt engineering, de fine-tuning et de réévaluation, souvent lent et coûteux. SIA propose d'automatiser ce cycle complet, ouvrant la voie à des systèmes capables de s'adapter à leurs propres erreurs sans intervention humaine. Installable via pip install sia-agent avec quatre tâches intégrées, le projet est conçu pour être étendu à de nouveaux domaines. Une limite mérite d'être signalée : sur TriMul, Claude Code a atteint seul 1,50x d'accélération, dépassant SIA-H (1,14x) avant toute mise à jour des poids, ce qui rappelle que les agents de codage avancés constituent déjà une concurrence sérieuse au scaffold seul. La question ouverte reste de savoir si cette boucle d'auto-amélioration tient sur des tâches plus longues et plus complexes, et quelles garanties de sécurité s'imposent lorsqu'un système modifie ses propres poids de façon autonome.

RecherchePaper
1 source
Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore
17AWS ML Blog 

Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore

AWS a publié un guide technique détaillant comment construire des systèmes d'agents d'IA générative haute performance en combinant trois technologies complémentaires : Strands Agents, le framework multi-agents d'AWS ; NVIDIA NIM, une plateforme d'inférence accélérée par GPU disponible via build.nvidia.com ; et Amazon Bedrock AgentCore, l'environnement d'exécution managé d'Amazon. L'architecture proposée repose sur un système de trois agents spécialisés fonctionnant en parallèle : un agent d'analyse des personas qui évalue le contenu marketing selon différentes audiences et produit des scores de résonance, un agent de validation qui vérifie la conformité légale et de marque, et un agent agrégateur qui consolide les recommandations. Le tout s'articule autour d'un frontend React qui interroge les résultats de manière asynchrone au fur et à mesure que les agents rendent leurs verdicts. Cette combinaison répond à trois problèmes concrets qui freinent le passage des prototypes IA vers la production : la latence d'inférence sous forte charge, la perte de contexte entre les interactions dans les environnements sans état, et le manque de visibilité sur l'exécution des agents. NVIDIA NIM apporte l'accélération GPU via des technologies comme CUDA et TensorRT-LLM, en exposant des API compatibles OpenAI sans adaptation spécifique au modèle. Bedrock AgentCore prend en charge la persistance de la mémoire partagée entre agents, les mécanismes de checkpoint et de récupération sur erreur, ainsi que l'observabilité intégrée. Strands gère l'orchestration parallèle, le contrôle de flux et l'agrégation des résultats. L'ensemble se déploie sous forme de conteneur Docker dans AgentCore Runtime, éliminant la gestion d'infrastructure à mesure que la charge augmente. Le cas d'usage présenté, la revue automatisée de campagnes marketing, n'est qu'un point d'entrée : la même architecture s'applique aux assistants virtuels, aux pipelines RAG et à l'automatisation de processus de validation complexes. Ce guide s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour capter les workloads IA en production. AWS positionne Bedrock AgentCore comme la couche managée qui simplifie le déploiement d'agents à grande échelle, tandis que NVIDIA consolide sa présence dans la chaîne de valeur logicielle via NIM, bien au-delà de la simple vente de GPU. Strands Agents, framework open source lancé par AWS début 2025, cherche à s'imposer face à LangGraph ou AutoGen comme standard d'orchestration multi-agents. La multiplication de ces briques interopérables signale que les architectures agentiques entrent dans une phase d'industrialisation, où la fiabilité et l'observabilité comptent désormais autant que les capacités du modèle lui-même.

OutilsOutil
1 source
OmniVoice Studio : une alternative locale et open source à ElevenLabs
18MarkTechPost 

OmniVoice Studio : une alternative locale et open source à ElevenLabs

OmniVoice Studio est une application de bureau open source qui propose une alternative locale aux services vocaux d'ElevenLabs, dont les abonnements vont de 5 à 330 dollars par mois. Développée autour du modèle OmniVoice de k2-fsa, l'application regroupe six fonctionnalités principales : clonage de voix à partir d'un clip audio de trois secondes en zero-shot learning, conception de voix synthétiques paramétrables (genre, âge, accent, émotion), doublage automatique de vidéos YouTube ou locales, dictée en temps réel via un widget flottant système, traitement par lots jusqu'à 50 vidéos simultanées, et exposition de toutes ces capacités via un serveur MCP compatible avec Claude, Cursor ou tout client personnalisé. L'architecture repose sur un frontend React couplé à un backend FastAPI exposant 97 endpoints, avec stockage SQLite et streaming via Server-Sent Events. Les bibliothèques ML au coeur du système sont WhisperX pour la transcription (99 langues, alignement mot à mot), Demucs de Meta pour la séparation vocale, Pyannote pour la diarisation des locuteurs, et AudioSeal de Meta pour incruster un filigrane neuronal invisible dans l'audio généré. L'application supporte nativement CUDA, Apple Silicon Metal et ROCm AMD, avec bascule automatique sur CPU en dessous de 8 Go de VRAM. Ce qui distingue fondamentalement OmniVoice Studio, c'est que l'intégralité du pipeline s'exécute en local, sans envoyer aucune donnée vers des serveurs externes. Pour les créateurs de contenu, les développeurs, les journalistes ou les entreprises traitant des enregistrements sensibles, cela représente un changement de paradigme concret : zéro latence réseau, zéro dépendance à un abonnement, zéro exposition de données propriétaires. Le support de 646 langues pour la synthèse vocale, contre 32 pour ElevenLabs, ouvre des usages dans des langues minoritaires ou des dialectes régionaux que les plateformes commerciales ignorent. La fonctionnalité de doublage vidéo entièrement automatisée, transcription, traduction, synthèse, export MP4, comprime en quelques minutes un workflow qui demandait auparavant des outils multiples et des compétences spécialisées. Le projet s'inscrit dans une tendance de fond qui voit l'open source rattraper progressivement les services cloud d'IA vocale, portés par la démocratisation des modèles de diffusion et des architectures TTS performantes. OmniVoice Studio propose six moteurs TTS interchangeables via une variable d'environnement, dont CosyVoice 3 (Apache 2.0, 9 langues et 18 dialectes), MLX-Audio réservé à Apple Silicon, et MOSS-TTS-Nano capable de fonctionner en temps réel sur CPU. Ajouter un moteur personnalisé ne requiert qu'une cinquantaine de lignes de Python. L'enveloppe desktop est construite avec Tauri, framework Rust multiplateforme, pour une base de code répartie à 56 % en Python et 23,6 % en JavaScript. À mesure que les modèles locaux gagnent en qualité et que les coûts d'inférence baissent, des projets comme celui-ci fragilisent le modèle économique des plateformes SaaS vocales qui facturent l'accès à des capacités désormais reproductibles hors cloud.

UELe traitement 100% local facilite la conformité RGPD pour les entreprises, médias et journalistes européens qui manipulent des enregistrements sensibles sans dépendre de serveurs cloud américains.

CréationOutil
1 source
Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM
19AWS ML Blog 

Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM

Depuis novembre 2025, Amazon SageMaker AI propose un mode de streaming bidirectionnel pour l'inférence en temps réel, permettant aux développeurs de faire circuler des données en continu dans les deux sens entre leurs applications et les conteneurs de modèles. Mistral AI en est l'un des premiers bénéficiaires concrets : le modèle Voxtral-Mini-4B-Realtime-2602, conçu spécifiquement pour la transcription vocale en temps réel, peut désormais être déployé sur un endpoint SageMaker via un conteneur vLLM. Le framework open source vLLM, de son côté, expose une API dite Realtime accessible via WebSocket à l'adresse /v1/realtime, qui traite l'audio de façon incrémentale et renvoie les tokens de transcription au fur et à mesure que le son arrive, sans attendre la fin de l'enregistrement. SageMaker gère la traduction de protocole entre HTTP/2 côté client et WebSocket côté conteneur sur le port 8443, de façon transparente et sans configuration supplémentaire. L'enjeu est direct pour toute une classe d'applications professionnelles qui se heurtaient jusqu'ici à la latence inhérente aux architectures requête-réponse classiques : agents vocaux, sous-titrage en direct, analytique de centres d'appels, outils d'accessibilité. Dans ces contextes, attendre que l'intégralité d'un enregistrement soit reçue avant de lancer la transcription brise l'expérience temps réel. La nouvelle architecture permet une connexion full-duplex persistante : l'audio entre en continu, la transcription sort en continu. vLLM applique par ailleurs une exécution par graphe CUDA en morceaux pour réduire la latence par token lors du streaming, tandis que SageMaker assure le monitoring via Amazon CloudWatch, les keepalives WebSocket et la résilience de connexion sans instrumentation personnalisée. Cette évolution s'inscrit dans une tendance plus large de convergence entre infrastructure cloud managée et serving open source haute performance. Amazon a progressivement enrichi SageMaker pour couvrir des cas d'usage au-delà de l'inférence batch classique, et le support du streaming bidirectionnel représente une réponse directe à la montée des LLM multimodaux et des applications temps réel. Mistral AI, avec sa gamme Voxtral, positionne ses modèles compacts sur le segment de la voix embarquée et managée, en concurrence avec des solutions propriétaires comme Whisper d'OpenAI ou les API de Google Cloud Speech. Le fait que vLLM soit open source garantit aux équipes une maîtrise totale sur la configuration, la quantisation et la compilation des modèles, sans dépendance à un fournisseur de serving. Un dépôt GitHub accompagne le tutoriel pour reproduire le déploiement complet.

UEMistral AI, entreprise française, voit ses modèles Voxtral intégrés nativement sur AWS SageMaker, renforçant la visibilité et l'adoption commerciale de ses solutions vocales sur le marché cloud mondial.

OutilsTuto
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
20MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire
21Frandroid 

Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire

Nvidia a franchi ce mercredi 13 mai 2026 le seuil des 5 500 milliards de dollars de capitalisation boursière, un record absolu dans l'histoire des marchés financiers. Jamais aucune entreprise n'avait atteint une telle valorisation. Pour mettre ce chiffre en perspective, Nvidia pèse désormais plus d'une fois et demie le PIB annuel de la France, qui s'établit autour de 3 200 milliards de dollars. Le groupe californien, fondé par Jensen Huang, s'est imposé comme le fournisseur incontournable de puces GPU utilisées pour entraîner et faire tourner les modèles d'intelligence artificielle. Cette valorisation record illustre l'appétit insatiable des marchés pour tout ce qui touche à l'IA générative. Nvidia capte une part écrasante des dépenses d'infrastructure des géants technologiques, Microsoft, Google, Amazon, Meta, qui investissent des centaines de milliards de dollars dans leurs datacenters. Ses puces H100, H200 et Blackwell sont en rupture chronique depuis deux ans, ce qui confère à l'entreprise un pouvoir de fixation des prix exceptionnel et des marges brutes dépassant 70 %. Nvidia a profité d'une longueur d'avance stratégique grâce à CUDA, son écosystème logiciel développé depuis 2006, qui a rendu ses GPU quasi indétrônables dans la recherche et l'industrie IA. Ses concurrents, AMD et Intel côté puces, ou les solutions maison de Google (TPU) et Amazon (Trainium), peinent encore à rogner sa domination. La question qui se pose désormais est de savoir si cette croissance est soutenable, ou si un ralentissement des investissements en IA pourrait provoquer une correction aussi spectaculaire que l'ascension.

UELes startups et entreprises européennes développant des solutions IA restent structurellement dépendantes des puces Nvidia, dont les prix élevés et la pénurie chronique renchérissent le coût d'accès à l'infrastructure IA sur le marché européen.

InfrastructureOpinion
1 source
Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs
22MarkTechPost 

Sakana AI et NVIDIA présentent TwELL : accélération de 20,5 % en inférence et 21,9 % en entraînement pour les LLMs

Des chercheurs de Sakana AI et NVIDIA ont publié en mai 2026 un article accepté à ICML 2026 (arXiv:2603.23198) présentant TwELL, un nouveau format de calcul creux accompagné de noyaux CUDA dédiés, permettant d'accélérer les grands modèles de langage de 20,5 % à l'inférence et de 21,9 % à l'entraînement. Le travail cible les couches feedforward des transformeurs, qui concentrent plus des deux tiers des paramètres d'un modèle et consomment plus de 80 % des opérations flottantes totales. Le constat de départ est frappant : pour n'importe quel token traité, plus de 99 % des neurones cachés dans ces couches produisent une valeur nulle après la fonction d'activation. Cette sparsité dite "d'activation" existe donc à grande échelle, mais n'avait jusqu'ici jamais pu être exploitée efficacement sur GPU. L'impact potentiel est considérable pour l'ensemble de l'industrie du calcul IA. Les GPU NVIDIA sont architecturés pour des multiplications matricielles denses via les Tensor Cores, qui exigent de larges blocs de données contiguës. Les formats creux classiques comme ELLPACK nécessitaient un passage kernel supplémentaire pour convertir les activations du format dense au format creux, une surcharge qui annulait tout gain. Les travaux précédents de sparsité dans les LLM, notamment TurboSparse, ProSparse et Q-Sparse, ne traitaient que les opérations GEMV à un seul token, un cas marginal en production. TwELL résout le problème réellement difficile : les opérations GEMM batchées avec des milliers de tokens simultanés, qui correspondent à la fois à l'inférence à haut débit et à l'entraînement. Un gain de 20 % sur ces régimes se traduit directement par des économies massives en coût de calcul et en consommation électrique pour quiconque opère des modèles à l'échelle. L'innovation technique centrale de TwELL réside dans un découpage des colonnes en tuiles horizontales correspondant exactement à la taille de tuile T_n du kernel de multiplication matricielle. Les valeurs non nulles sont compactées localement dans chaque tuile, et cette construction s'effectue dans l'épilogue du kernel de projection existant, sans kernel supplémentaire, sans lecture mémoire additionnelle ni synchronisation entre blocs. À l'inférence, un seul kernel fusionné lit les activations au format TwELL et effectue les projections montante et descendante conjointement, évitant d'écrire l'état caché intermédiaire en mémoire globale et réduisant ainsi drastiquement le trafic DRAM. Pour l'entraînement, un format hybride route dynamiquement chaque ligne vers une matrice ELL compacte ou vers un bloc dense de secours selon le taux de sparsité local. Ce travail ouvre la voie à des optimisations architecturales profondes sans modifier les poids ni les architectures existantes, une direction que d'autres laboratoires devraient rapidement explorer.

RecherchePaper
1 source
NVIDIA publie cuda-oxide : un compilateur expérimental Rust vers CUDA générant des noyaux GPU directement en PTX
23MarkTechPost 

NVIDIA publie cuda-oxide : un compilateur expérimental Rust vers CUDA générant des noyaux GPU directement en PTX

Les équipes de recherche de NVIDIA AI ont publié cuda-oxide, un compilateur expérimental qui permet aux développeurs d'écrire des noyaux GPU CUDA SIMT (Single Instruction, Multiple Threads) directement en Rust standard, sans passer par du C++ ni par des interfaces de liaison (FFI). Le projet compile le code Rust vers PTX (Parallel Thread Execution), la représentation intermédiaire assembleur qu'utilise CUDA pour cibler les GPU NVIDIA. La chaîne de compilation est entièrement construite en Rust : le code source traverse d'abord le frontend de rustc, puis Stable MIR (l'API stable et versionnée exposant les internals du compilateur), avant d'être transformé via trois dialectes intermédiaires définis dans Pliron, un framework Rust natif similaire à MLIR. Le résultat est un fichier LLVM IR (.ll) que l'outil externe llc compile en PTX, chargé ensuite par le driver CUDA à l'exécution. Le code hôte et le code GPU coexistent dans un même fichier .rs, et chaque étape de la chaîne peut être inspectée avec la commande cargo oxide pipeline. L'intérêt principal de cuda-oxide est de permettre aux développeurs Rust d'écrire des kernels GPU sans quitter l'écosystème Rust et sans installer de chaîne C++, CMake ou tablegen. L'ensemble du projet se compile avec cargo. En s'appuyant sur Stable MIR plutôt que sur les internals instables de rustc, le backend évite de se casser à chaque mise à jour nightly du compilateur, ce qui était un obstacle récurrent pour les projets similaires. Pour l'industrie, cela ouvre la possibilité de combiner les garanties de sécurité mémoire de Rust avec la programmation GPU basse couche, un domaine jusqu'ici dominé par le C++ et où les bugs liés à la gestion mémoire ont des conséquences directes sur les performances et la stabilité des modèles d'IA en production. L'écosystème Rust-GPU existe déjà sous plusieurs formes : Rust-GPU cible SPIR-V pour Vulkan, rust-cuda utilise un backend rustc vers NVVM IR, CubeCL expose un DSL embarqué compilant vers CUDA, ROCm et WGPU, et std::offload exploite le chemin d'offload implicite de LLVM. cuda-oxide se positionne différemment : là où rust-cuda cherche à "amener Rust sur GPU" en préservant l'ergonomie Rust (async/await, bibliothèque standard on-device), cuda-oxide vise à "amener CUDA dans Rust", c'est-à-dire exprimer le modèle CUDA natif, les intrinsèques GPU et l'indexation de threads directement en Rust. Les équipes de NVlabs ont précisé coordonner avec les mainteneurs de rust-cuda et considèrent les deux projets complémentaires plutôt que concurrents. Le projet reste expérimental, mais son architecture modulaire et son absence de dépendances C++ en font une base sérieuse pour explorer la programmation GPU en Rust à grande échelle.

💬 Rust sur GPU sans installer CMake ni une chaîne C++, c'est le genre de truc qu'on attendait depuis 2 ans. Le vrai truc malin ici c'est Stable MIR : tous les projets similaires se cassaient à chaque update nightly, cuda-oxide a trouvé le bon endroit où accrocher le backend. Reste expérimental, mais la base est sérieuse.

InfrastructureOpinion
1 source
Google TPU v8 : la puce IA qui défie NVIDIA Blackwell
24Le Big Data 

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion
1 source
Moonshot AI open-source FlashKDA : noyaux CUTLASS pour Kimi Delta Attention et benchmarks H20
25MarkTechPost 

Moonshot AI open-source FlashKDA : noyaux CUTLASS pour Kimi Delta Attention et benchmarks H20

Moonshot AI, la startup chinoise derrière le chatbot Kimi.ai, vient de publier en open source FlashKDA (Flash Kimi Delta Attention), une bibliothèque de kernels GPU haute performance construite sur CUTLASS, la librairie de templates CUDA de NVIDIA. Disponible sur GitHub sous licence MIT, FlashKDA est une implémentation de production du mécanisme d'attention Kimi Delta Attention (KDA), le composant central du modèle hybride Kimi Linear. Sur des GPU NVIDIA H20, la bibliothèque atteint des gains de vitesse de prefill allant de 1,72x à 2,22x par rapport à la référence flash-linear-attention, et s'intègre directement comme backend de remplacement dans cette même librairie. Les prérequis techniques sont CUDA 12.9 et PyTorch 2.4, avec un ciblage exclusif de l'architecture Hopper (SM90 et supérieur), ce qui englobe les H100 et H20. L'enjeu est concret : Kimi Linear est un modèle à 48 milliards de paramètres totaux dont seulement 3 milliards sont activés à l'inférence. Son architecture repose sur un ratio de trois couches KDA pour une couche d'attention globale de type MLA (Multi-Head Latent Attention), ce qui réduit l'utilisation du cache KV de 75 % lors de la génération sur de longues séquences. À un million de tokens de contexte, ce design offre un débit de décodage jusqu'à six fois supérieur à celui d'une architecture full-attention classique. FlashKDA est précisément le kernel CUDA qui rend ce gain possible lors de la phase de prefill, en exploitant les Tensor Cores de NVIDIA via CUTLASS pour optimiser le calcul matriciel à basse précision (bf16). Ce travail s'inscrit dans une vague de recherche intense sur les mécanismes d'attention linéaire, motivée par le problème fondamental de la complexité quadratique de l'attention softmax standard : plus le contexte est long, plus les coûts de calcul explosent. KDA est la réponse de Moonshot AI à ce défi, en raffinant l'architecture Gated DeltaNet avec un mécanisme de gating par canal plus fin, ce qui améliore l'utilisation de la mémoire d'état finie des RNN. Le support du batching à longueur variable via des séquences cumulatives (cu_seqlens) et la gestion d'états récurrents initiaux et finaux facilitent son usage en production pour l'inférence multi-tour. En publiant FlashKDA sous licence MIT, Moonshot AI permet à d'autres équipes de reproduire et construire sur cette architecture, au moment même où la course à l'inférence longue séquence s'intensifie entre les grands laboratoires mondiaux.

UEImpact indirect : les équipes de recherche et startups IA européennes disposant de GPU Hopper (H100/H20) peuvent intégrer FlashKDA (licence MIT) pour accélérer leurs travaux sur l'inférence longue séquence, sans dépendance à une solution propriétaire.

InfrastructureOpinion
1 source
[AINews] Rien de notable aujourd'hui
26Latent Space 

[AINews] Rien de notable aujourd'hui

La journée du 27-28 avril 2026 n'a pas produit de séisme dans l'industrie de l'IA, mais plusieurs sorties de modèles méritent attention. NVIDIA a lancé Nemotron 3 Nano Omni, un modèle multimodal open-source de 30 milliards de paramètres actifs (3B actifs, architecture MoE) capable de traiter texte, images, vidéo, audio et documents, avec une fenêtre de contexte de 256 000 tokens orientée vers les usages agentiques. Sa distribution a été immédiate : OpenRouter, LM Studio, Ollama, Fireworks, Together et une dizaine d'autres plateformes ont annoncé sa disponibilité le jour même. Le modèle intègre un encodeur audio Parakeet, fonctionne pour l'instant uniquement en anglais, et affiche un taux d'erreur de 5,95 % sur le benchmark Open ASR, avec un débit annoncé neuf fois supérieur à des modèles omni comparables. Du côté de Poolside, la startup a publié son premier modèle public, Laguna XS.2, un modèle de code MoE de 33 milliards de paramètres totaux (3B actifs) entraîné intégralement en interne, distribué sous licence Apache 2.0, et conçu pour tourner sur un seul GPU. Microsoft, de son côté, a sorti TRELLIS.2, un modèle open-source de 4 milliards de paramètres pour la génération de scènes 3D texturées à partir d'images, avec une résolution allant jusqu'à 1536 cubes et une compression spatiale 16x. Ces sorties illustrent une tendance de fond : la compétition sur l'efficacité d'inférence s'intensifie, et les acteurs cherchent à démocratiser des capacités avancées sur du matériel accessible. Que Poolside publie un modèle de code haute performance tournant sur un seul GPU, ou que NVIDIA intègre audio et vidéo dans un modèle ouvert, le message est clair : les capacités multimodales et agentiques descendent rapidement vers des configurations matérielles grand public. Pour les développeurs et les entreprises, cela signifie des coûts d'infrastructure moindres pour déployer des agents capables de comprendre des documents complexes ou de générer des assets 3D. En parallèle, l'infrastructure d'inférence connaît sa propre effervescence. La version 0.20.0 de vLLM, framework open-source de référence pour servir les grands modèles, embarque un cache KV 2 bits (TurboQuant) offrant quatre fois plus de capacité, ainsi qu'une amélioration de latence de 2,1 % grâce à une fusion d'opérations. Les benchmarks publiés par SemiAnalysis sur les puces B300 de NVIDIA indiquent un débit jusqu'à huit fois supérieur à celui des H200 pour des charges DeepSeek V4 Pro. Dans ce contexte, des voix techniques soulignent que DeepSeek s'éloigne progressivement de la dépendance exclusive à CUDA via ses TileKernels, ouvrant la voie à des déploiements sur accélérateurs hétérogènes, y compris des puces non-NVIDIA. Les prochaines semaines devraient confirmer si GPT-6, dont le buzz commence à monter, reconfigurera à nouveau les priorités de l'écosystème.

UELes modèles open-source publiés ce jour (Nemotron 3 Nano Omni, Laguna XS.2, TRELLIS.2) sont immédiatement accessibles aux développeurs et entreprises européennes via Ollama, Hugging Face et autres plateformes, réduisant les coûts d'infrastructure pour déployer des agents multimodaux sur du matériel grand public.

LLMsActu
1 source
Moore Threads annonce une forte croissance de ses revenus au T1 et progresse vers un cluster de 100 000 GPU
27Pandaily 

Moore Threads annonce une forte croissance de ses revenus au T1 et progresse vers un cluster de 100 000 GPU

Moore Threads (cotée à Shanghai sous le symbole 688795.SH) a publié le 26 avril 2026 ses résultats annuels 2025 et ses chiffres du premier trimestre 2026, confirmant une trajectoire de croissance exceptionnelle. Le fabricant chinois de GPU a enregistré un chiffre d'affaires de 1,505 milliard de yuans (environ 208 millions de dollars) en 2025, soit une hausse de 243 % sur un an, avec un taux de croissance annuel composé dépassant 200 % entre 2022 et 2024. La marge brute atteint 65,57 %, l'une des plus élevées du secteur, pour un bénéfice brut de 987 millions de yuans. Les pertes nettes continuent de se réduire : hors rémunérations en actions, la perte nette s'établit à 648 millions de yuans, en recul de 56,65 % sur un an. La dynamique s'est encore accélérée au premier trimestre 2026, avec un chiffre d'affaires de 738 millions de yuans (+155 % sur un an) et un bénéfice net attributable aux actionnaires redevenu positif à 29 millions de yuans. En mars 2026, la société a décroché une commande de 660 millions de yuans pour son cluster de calcul intelligent KUAE, illustrant sa capacité à déployer des infrastructures à grande échelle. Ces résultats positionnent Moore Threads comme l'un des acteurs les plus crédibles de l'alternative chinoise à Nvidia. La rentabilité naissante du premier trimestre 2026 est un signal fort : l'entreprise n'est plus seulement en phase d'investissement, elle commence à monétiser concrètement ses GPU auprès d'opérateurs cloud, d'acteurs de l'IA incarnée, de l'éducation intelligente et du secteur manufacturier. Son GPU phare, le MTT S5000, délivre jusqu'à 1 000 TFLOPS de calcul IA dense par carte, rivalisant selon la société avec les produits leaders mondiaux. Le cluster KUAE, construit autour de ce GPU, supporte l'entraînement de modèles à mille milliards de paramètres et a déjà été déployé commercialement avec des métriques atteignant les standards internationaux, ce qui représente une validation technique significative pour un fabricant émergent. Moore Threads a été fondée en 2020, dans un contexte de tensions croissantes entre les États-Unis et la Chine autour des semi-conducteurs avancés. Les restrictions américaines sur les exportations de GPU Nvidia vers la Chine ont créé un vide que des acteurs comme Moore Threads, Biren ou Cambricon cherchent à combler. La société a investi 1,305 milliard de yuans en R&D en 2025, soit 86,68 % de son chiffre d'affaires, et détient 806 droits de propriété intellectuelle dont 590 brevets d'invention. Elle développe actuellement une nouvelle génération de clusters ultra-larges basée sur son architecture "Huagang", visant des systèmes à 100 000 GPU. Parallèlement, son écosystème logiciel MUSA est conçu pour être compatible avec CUDA, ce qui facilite l'adoption par les développeurs déjà familiers des outils Nvidia. La question centrale pour les prochains trimestres sera de savoir si cette indépendance technologique revendiquée résistera à l'épreuve des déploiements à très grande échelle.

UELa montée en puissance de Moore Threads comme alternative chinoise crédible à Nvidia, dans le contexte des restrictions américaines sur les exportations de GPU, pourrait à terme diversifier les options d'approvisionnement en puces IA pour les entreprises et datacenters européens.

InfrastructureOpinion
1 source
kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles
28MarkTechPost 

kvcached : mémoire KV Cache élastique, service LLM en rafales et partage GPU multi-modèles

La gestion de la mémoire GPU représente l'un des défis les plus concrets du déploiement de modèles de langage en production, et kvcached apporte une réponse directe à ce problème. Ce projet open source, conçu comme une surcouche à vLLM, remplace l'allocateur statique de cache KV par une solution élastique et dynamique. Un tutoriel récent détaille son implémentation pas à pas, en déployant deux modèles Qwen2.5 (versions 0,5 milliard et 1,5 milliard de paramètres d'Alibaba) via une API compatible OpenAI sur les ports 8001 et 8002, avec vLLM 0.10.2 et une extension CUDA compilée à l'installation. L'activation se fait via quelques variables d'environnement, ENABLEKVCACHED et KVCACHEDAUTOPATCH, sans modifier le code source du serveur d'inférence. L'enjeu est significatif pour quiconque gère des infrastructures d'IA avec des charges de travail irrégulières. Avec l'allocation statique classique, la mémoire VRAM est réservée au démarrage du serveur et reste bloquée, que le modèle soit sollicité ou non. kvcached permet au contraire à la mémoire de se redistribuer en temps réel selon l'activité effective de chaque modèle. Dans un scénario multi-modèles sur un seul GPU, cela signifie concrètement qu'un modèle inactif libère de la mémoire au profit d'un autre qui subit un pic de requêtes, ce que les ingénieurs appellent une charge "bursty". Les expériences du tutoriel mesurent et visualisent directement cette différence en termes d'utilisation VRAM et de latence, avec une limite de contexte fixée à 2 048 tokens. Ce type d'outil s'inscrit dans une tendance de fond : optimiser l'utilisation des GPU pour réduire les coûts d'inférence, qui constituent désormais la majorité des dépenses opérationnelles des applications LLM à grande échelle. vLLM, maintenu par une communauté active et adopté par des dizaines d'entreprises d'infrastructure IA, reste la référence pour le serving haute performance, mais son modèle d'allocation mémoire statique montre ses limites face aux charges variables. Des projets comme kvcached, qui s'y greffent sans réécriture profonde, offrent une voie pragmatique vers une meilleure densité de déploiement. La prochaine étape logique, suggérée par la structure même du tutoriel, est l'extension à des architectures de serveurs partagés entre plusieurs équipes ou clients, ce que l'on appelle le multi-tenant serving, qui deviendra incontournable à mesure que les coûts GPU restent élevés.

UELes équipes techniques françaises déployant des LLMs en production via vLLM pourraient réduire leurs coûts GPU grâce à cette optimisation open source, sans impact réglementaire ou stratégique propre à la France/UE.

InfrastructureTuto
1 source
Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027
29Le Big Data 

Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027

Nvidia a officiellement confirmé le lancement de son prochain GPU phare, le Rubin Ultra, prévu pour 2027. Successeur du Blackwell Ultra, cette puce repose sur une architecture en chiplets de type MCM (Multi-Chip Module) assemblant quatre dies gravés en nœud N2 chez TSMC, pour un total d'environ 336 milliards de transistors. Elle s'intègre dans la plateforme Vera, un écosystème complet où le GPU collabore avec le processeur Vera, doté de 88 cœurs, via une interconnexion NVLink-C2C sans latence. Le tout est relié par le nouveau commutateur NVLink 6, conçu pour des vitesses de transfert inédites à l'échelle des racks de serveurs. La mémoire intégrée atteint 1 To de HBM4e répartis sur 12 stacks, avec une bande passante annoncée à 22 To/s, soit un bond considérable par rapport aux générations précédentes. Ce niveau de performance change concrètement la donne pour les entreprises qui entraînent ou déploient des grands modèles de langage. Avec 1 To de mémoire embarquée sur une seule puce, il devient possible de charger des modèles entiers sans recourir à des échanges lents entre composants, l'un des goulots d'étranglement structurels des infrastructures actuelles. L'architecture en chiplets apporte par ailleurs une modularité absente des puces monolithiques : la montée en charge des clusters de serveurs devient plus fluide, et chaque unité de calcul peut fonctionner en coordination étroite avec les autres. Pour les opérateurs de data centers et les hyperscalers, le Rubin Ultra ne représente pas un simple upgrade de performance, mais une refonte de ce que l'on appelle désormais les "AI Factories", ces infrastructures entièrement conçues autour des besoins du calcul IA. Nvidia accélère son calendrier de manière visible : le Rubin Ultra arrivera en 2027, mais son architecture est déjà documentée et ses partenariats hardware (TSMC N2, HBM4e) sont scellés, signalant une volonté de garder plusieurs générations d'avance sur ses concurrents AMD et Intel, ainsi que sur les puces maison développées par Google (TPU), Amazon (Trainium) et Microsoft (Maia). La transition vers les chiplets, longtemps réservée aux CPU, marque un tournant pour les GPU de datacenter. L'intégration verticale de la plateforme Vera, qui lie hardware et software de façon indissociable, rappelle la stratégie d'Apple avec ses puces M, mais appliquée à l'échelle des supercalculateurs industriels. Les entreprises qui visent ces infrastructures devront consentir des investissements massifs, mais la dépendance à l'écosystème Nvidia, déjà forte via CUDA, ne fera que s'approfondir avec cette nouvelle génération.

UELes opérateurs européens de data centers et les hyperscalers devront planifier dès maintenant des investissements massifs pour 2027, tout en s'enfermant davantage dans l'écosystème Nvidia via CUDA et la plateforme Vera.

InfrastructureOpinion
1 source
30NVIDIA AI Blog 

NVIDIA et ses partenaires présentent l'avenir de la fabrication pilotée par l'IA à Hannover Messe 2026

NVIDIA et ses partenaires industriels investissent Hannover Messe 2026, le salon phare de l'industrie manufacturière qui se tient du 20 au 24 avril à Hanovre, en Allemagne, pour y présenter ce qu'ils considèrent comme la prochaine révolution de la production : l'usine pilotée par l'intelligence artificielle. Au programme, des démonstrations concrètes couvrant l'informatique accélérée, la simulation physique en temps réel, les agents autonomes et les robots humanoïdes opérant en environnement industriel. Parmi les temps forts, l'annonce de l'Industrial AI Cloud, l'un des plus grands centres d'IA d'Europe, construit en Allemagne par Deutsche Telekom sur infrastructure NVIDIA. Des géants comme SAP, Siemens, ABB, Dassault Systèmes, Cadence ou encore Synopsys y participent, aux côtés d'acteurs spécialisés comme Agile Robots, Wandelbots et PhysicsX. EDAG, prestataire indépendant d'ingénierie, a par ailleurs annoncé le déploiement de sa plateforme de métavers industriel "metys" sur ce cloud souverain, ciblant l'automobile et l'ingénierie lourde. L'enjeu est considérable : l'industrie manufacturière mondiale fait face à une pression simultanée sur les cycles de conception, les coûts opérationnels et la disponibilité de main-d'œuvre qualifiée. L'IA n'est plus une option expérimentale mais un levier de compétitivité immédiat. Les jumeaux numériques à l'échelle d'une usine entière, construits sur les bibliothèques Omniverse de NVIDIA et le standard ouvert OpenUSD, permettent désormais de simuler, tester et optimiser des lignes de production en continu, sans interruption physique. ABB, par exemple, intègre ces outils dans sa suite Genix pour analyser la performance des équipements et accélérer la recherche de causes de pannes via des agents IA. Pour les ingénieurs, la simulation physique en temps réel change radicalement le processus de conception : là où des heures de calcul étaient nécessaires, des résultats apparaissent en secondes. Cette offensive de NVIDIA dans l'industrie s'inscrit dans une stratégie plus large visant à faire de l'informatique accélérée le socle de la transformation industrielle européenne. Le concept de "souveraineté numérique" est central : face aux craintes européennes de dépendance aux clouds américains, l'Industrial AI Cloud positionné en Allemagne répond à une demande politique autant qu'économique. CUDA-X, Omniverse, les modèles ouverts Nemotron et les puces NVIDIA équipent désormais les logiciels des éditeurs les plus influents du secteur, de Siemens à Dassault Systèmes, créant un écosystème interdépendant difficile à contourner. Dell, IBM, Lenovo et PNY complètent l'offre avec des systèmes accélérés déployables de la périphérie jusqu'aux datacenters. La prochaine étape, déjà visible à Hanovre, est l'intégration de robots humanoïdes dans les chaînes de production, un marché où NVIDIA entend jouer un rôle d'infrastructure aussi structurant que dans l'IA générative.

UEL'Industrial AI Cloud inauguré en Allemagne par Deutsche Telekom sur infrastructure NVIDIA, avec la participation de Dassault Systèmes et Siemens, offre aux industriels européens une infrastructure cloud souveraine pour déployer l'IA en production.

InfrastructureActu
1 source
NVIDIA lance Ising : sa première famille de modèles d'IA quantique ouverts pour systèmes hybrides quantique-classique
31MarkTechPost 

NVIDIA lance Ising : sa première famille de modèles d'IA quantique ouverts pour systèmes hybrides quantique-classique

NVIDIA a lancé Ising, la première famille de modèles d'IA quantique ouverts au monde, conçue pour aider chercheurs et entreprises à construire des processeurs quantiques capables de faire tourner des applications réelles. La famille comprend deux composants distincts : Ising Calibration, un modèle de langage visuel qui interprète en temps réel les mesures des processeurs quantiques et ajuste automatiquement le système pour le maintenir en fonctionnement optimal, réduisant les temps de calibration de plusieurs jours à quelques heures ; et Ising Decoding, disponible en deux variantes de réseau de neurones convolutif 3D optimisées respectivement pour la vitesse et la précision, qui effectuent le décodage d'erreurs quantiques en temps réel. Ising Decoding se montre jusqu'à 2,5 fois plus rapide et 3 fois plus précis que pyMatching, l'actuel standard open source du secteur. Dès le premier jour, des organisations comme IonQ, IQM Quantum Computers, Infleqtion, le Fermi National Accelerator Laboratory, Harvard, Sandia National Laboratories, l'Université de Chicago et une douzaine d'autres acteurs académiques et commerciaux ont déjà adopté ces outils. L'enjeu est considérable : le principal frein au déploiement concret de l'informatique quantique n'est pas la puissance brute des processeurs, mais leur extrême sensibilité aux perturbations extérieures. Les qubits, unités de calcul fondamentales, accumulent des erreurs à une vitesse qui rend tout calcul utile quasiment impossible sans une calibration rigoureuse et une correction d'erreurs en temps réel. Ces deux opérations étaient jusqu'ici manuelles, lentes et difficiles à mettre à l'échelle. En automatisant ces processus critiques par l'IA, NVIDIA s'attaque directement au goulot d'étranglement qui sépare les démonstrateurs de laboratoire des machines véritablement opérationnelles. Une réduction des temps de calibration de plusieurs jours à quelques heures représente un gain de productivité transformateur pour les équipes de recherche. Ising s'inscrit dans la stratégie plus large de NVIDIA pour positionner ses GPU au coeur de l'informatique hybride quantique-classique. Les modèles Ising complètent CUDA-Q, la plateforme logicielle de NVIDIA pour les workflows hybrides, et s'intègrent avec NVQLink, l'interconnexion matérielle GPU-QPU développée par l'entreprise pour permettre une communication à faible latence entre processeurs graphiques et unités quantiques. Cette approche suit la même philosophie que CUDA pour l'accélération GPU : coupler étroitement calcul classique et calcul accéléré. Alors que des acteurs comme IBM, Google et des startups spécialisées investissent massivement dans la course au quantique, NVIDIA parie sur une stratégie de plateforme transversale, agnostique aux technologies de qubits, qui lui permet de s'imposer comme couche d'infrastructure indispensable quelle que soit la technologie gagnante.

UEIQM Quantum Computers (Finlande, UE) figure parmi les premiers adoptants, ce qui pourrait accélérer le développement de processeurs quantiques en Europe.

💬 La calibration des qubits qui passe de plusieurs jours à quelques heures, c'est le vrai goulot d'étranglement du quantique, et c'est la première fois qu'on voit une solution à la hauteur du problème. NVIDIA fait exactement ce qu'ils ont fait avec CUDA : s'imposer comme couche d'infra incontournable avant même de savoir quelle technologie va gagner. Harvard, Fermi Lab, IQM dès le premier jour, ça ne s'invente pas.

InfrastructureActu
1 source
32MarkTechPost 

Tutoriel : faire tourner PrismML Bonsai LLM 1-bit sur CUDA avec GGUF, benchmarks, chat, JSON et RAG

PrismML a publié une pile de déploiement optimisée pour faire tourner Bonsai, un modèle de langage de 1,7 milliard de paramètres quantifié à 1 bit, sur GPU via accélération CUDA. Le modèle utilise le format GGUF avec une quantisation Q1\0\g128, et s'appuie sur une version personnalisée de llama.cpp distribuée par PrismML-Eng sur GitHub sous la balise de version prism-b8194-1179bfc. Un tutoriel complet détaille l'installation de l'environnement depuis Google Colab : vérification du GPU et de la version CUDA, installation des dépendances Python (huggingface\_hub, requests, tqdm, openai), téléchargement des binaires précompilés adaptés à la version CUDA détectée (12.4, 12.8 ou 13.1), puis chargement du modèle Bonsai-1.7B pour l'inférence. Le guide couvre ensuite sept cas d'usage concrets : inférence de base, benchmarking, conversation multi-tours, génération JSON structurée, génération de code, mode serveur compatible avec l'API OpenAI, et un pipeline RAG (retrieval-augmented generation) minimal. L'intérêt principal de Bonsai réside dans son empreinte mémoire extrêmement réduite grâce à la quantisation 1 bit : là où un modèle de 1,7 milliard de paramètres en FP16 occuperait environ 3,4 Go de VRAM, la version 1 bit descend bien en dessous de 1 Go, rendant le modèle utilisable sur des GPU d'entrée de gamme ou dans des environnements cloud à ressources limitées. La compatibilité avec le serveur OpenAI permet de brancher Bonsai directement sur des applications existantes sans modifier le code client. Pour les développeurs qui construisent des agents, des chatbots ou des pipelines RAG sur du matériel modeste, c'est une alternative sérieuse aux modèles quantifiés classiques en 4 ou 8 bits. La quantisation à 1 bit est une direction de recherche active depuis la publication de BitNet par Microsoft en 2023, qui avait montré qu'un modèle entraîné nativement en 1 bit pouvait conserver une qualité compétitive à faible coût computationnel. Bonsai s'inscrit dans cette lignée, et PrismML mise sur llama.cpp comme moteur d'inférence universel, bien implanté dans la communauté open source depuis sa création par Georgi Gerganov fin 2022. Le format GGUF, successeur de GGML, est aujourd'hui le standard de facto pour le déploiement local de LLMs quantifiés. La prochaine étape logique pour PrismML sera de proposer des modèles Bonsai dans des tailles supérieures (7B, 13B) pour mesurer si la qualité tient à plus grande échelle, et de valider les performances sur des benchmarks standardisés face à des modèles comme Phi-3 Mini ou Gemma 3.

💬 Moins d'1 Go de VRAM pour faire tourner un LLM complet, c'est le genre de chiffre qui change vraiment ce qu'on peut faire sur du matos lambda. La compatibilité API OpenAI en prime, ça veut dire qu'on branche ça sur un projet existant en cinq minutes. Bon, 1,7B de paramètres ça reste petit, reste à voir ce que ça vaut sur des tâches un peu exigeantes face à un Phi-3 Mini bien quantifié en 4 bits.

LLMsTuto
1 source
Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud
33AI News 

Cadence étend ses partenariats en IA et robotique avec Nvidia et Google Cloud

Cadence Design Systems a annoncé cette semaine, lors de son événement CadenceLIVE, deux nouvelles collaborations dans le domaine de l'intelligence artificielle : un approfondissement de son partenariat avec Nvidia, et une intégration inédite avec Google Cloud. Avec Nvidia, l'objectif est de combiner la simulation physique, le calcul accéléré et l'IA pour concevoir et déployer des systèmes robotiques et des infrastructures à grande échelle. Concrètement, Cadence intègre ses outils de simulation multiphysique avec les bibliothèques CUDA-X de Nvidia, ses modèles d'IA et son environnement de simulation basé sur Omniverse. Ces outils modélisent les interactions thermiques, électriques et mécaniques pour permettre aux ingénieurs d'évaluer le comportement des systèmes dans des conditions réelles, avant tout déploiement physique. Le PDG de Nvidia, Jensen Huang, présent à l'événement, a résumé l'ambition commune : "Nous travaillons avec vous sur l'ensemble des systèmes robotiques." Côté Google Cloud, Cadence a présenté un nouvel agent IA dédié à l'automatisation des étapes avancées de conception de puces, notamment la traduction des circuits en implantations physiques sur silicium. Cet agent s'appuie sur les modèles Gemini de Google et sera déployé directement dans le cloud. La plateforme ChipStack AI Super Agent de Cadence affiche des gains de productivité allant jusqu'à dix fois dans les premiers déploiements, sur des tâches de conception et de vérification. Ces annonces ont des implications directes pour plusieurs secteurs industriels. Dans la robotique, la simulation physique précise permet de générer des jeux de données d'entraînement sans avoir à collecter de données dans le monde réel, ce qui réduit considérablement les coûts et les délais. Comme l'a souligné le PDG de Cadence, Anirudh Devgan : "Plus les données générées sont précises, meilleur sera le modèle." Des géants de l'automatisation industrielle tels qu'ABB Robotics, FANUC, YASKAWA et KUKA intègrent déjà ces outils dans leurs flux de mise en service virtuelle pour tester des lignes de production entières avant leur déploiement physique. Pour la conception de semi-conducteurs, le passage à des agents IA capables d'automatiser les étapes de layout promet d'accélérer des cycles de développement qui comptent parmi les plus longs et coûteux de l'industrie technologique. Ces partenariats s'inscrivent dans une tendance de fond : la convergence entre conception électronique assistée par ordinateur, IA générative et jumeaux numériques. Cadence, acteur historique de l'EDA (Electronic Design Automation) aux côtés de Synopsys et Mentor, cherche à se repositionner comme une plateforme d'ingénierie systémique intégrant l'IA à chaque étape du cycle de conception. Nvidia, de son côté, poursuit l'expansion de son écosystème Omniverse au-delà du jeu et de la visualisation, vers l'industrie lourde et la robotique physique. L'utilisation de Google Cloud comme vecteur de déploiement des outils de Cadence signale également une montée en puissance du cloud dans des workflows traditionnellement dominés par des infrastructures locales. Les prochaines étapes attendues incluent des annonces de clients utilisant la plateforme ChipStack ainsi qu'une généralisation des agents IA à d'autres étapes du design de puces.

UELes industriels européens KUKA (Allemagne) et ABB (Suisse), déjà utilisateurs de ces outils de simulation, bénéficieront directement des avancées en jumeaux numériques et en automatisation de la conception de puces.

InfrastructureActu
1 source
34Latent Space 

[AINews] Le dernier souffle de l'humanité

La semaine du 3 et 4 avril 2026 a été marquée par une série de lancements techniques majeurs dans l'industrie de l'IA. Google a introduit les "Skills" dans Chrome, permettant aux utilisateurs de transformer des prompts Gemini en actions réutilisables d'un seul clic sur n'importe quelle page web. Google DeepMind a publié Gemini Robotics-ER 1.6, un modèle de raisonnement spatial atteignant 93% de réussite en lecture d'instruments et améliorant la manipulation d'objets contraignants comme les liquides. OpenAI a étendu son programme Trusted Access avec GPT-5.4-Cyber, une version affinée pour les workflows de sécurité défensive. Hugging Face a lancé "Kernels" sur le Hub, des artefacts GPU précompilés affichant des gains de performance de 1,7x à 2,5x sur les bases PyTorch. Cursor, en collaboration avec NVIDIA, a déployé un système multi-agents d'optimisation CUDA atteignant 38% d'accélération en moyenne sur 235 benchmarks. Par ailleurs, Tencent a teasé HYWorld 2.0, un modèle 3D open source capable de générer des scènes éditables à partir d'une seule image, repositionnant les world models comme outils de création 3D plutôt que de génération vidéo. Ces annonces s'inscrivent dans un paradoxe que la newsletter AINews nomme le "Turkey Problem" : les modèles progressent à vitesse record, SWE-Bench est saturé, Mythos (le modèle interne d'Anthropic) atteint 78% sur SWE-Bench Pro, et GDPval évalue GPT-5.4 comme équivalent ou supérieur à des experts humains dans 83% des secteurs économiques, et pourtant les ingénieurs et travailleurs du savoir n'ont jamais été aussi occupés. Aaron Levie, CEO de Box, observe que ses équipes n'ont jamais autant travaillé. Tyler Cowen soutient qu'il faut travailler davantage maintenant, quelle que soit sa position sur l'impact de l'IA. Simon Last de Notion, lui, décrit des nuits sans sommeil liées à "l'anxiété des tokens au niveau agents". Plus les agents produisent, plus les humains courent derrière, du moins pour l'instant. La question sous-jacente est celle du point de bascule : jusqu'où la valeur humaine restera-t-elle "élastique" face à l'automatisation, avant d'atteindre le sort des chevaux après l'invention du moteur à combustion ? Notion travaille sur un benchmark interne baptisé "Notion's Last Exam", les chercheurs Greg Brockman et François Chollet planchent sur ARC-AGI-3, et plusieurs équipes cherchent à définir les prochaines frontières des évaluations en programmation. Mais ces efforts paraissent relativisés par une hypothèse de plus en plus discutée : si l'AGI dépend avant tout de la puissance matérielle, un supercalculateur de 20 gigawatts suffirait à franchir le seuil. L'IA avance vite, les benchmarks tombent les uns après les autres, et l'industrie tente encore de définir ce qui restera hors de portée des machines.

UELe lancement des Kernels par Hugging Face (entreprise française) sur son Hub apporte des gains de performance GPU directs (1,7x à 2,5x) aux développeurs et chercheurs européens utilisant PyTorch.

💬 Le Turkey Problem, c'est ce paradoxe qu'on sent tous mais qu'on arrive pas encore à nommer clairement : les modèles explosent les benchmarks, GPT-5.4 jugé aussi bon que des experts dans 83% des secteurs, et tout le monde bosse plus qu'avant, pas moins. Logique : plus l'outil produit, plus le scope s'élargit, et c'est nous qui courons derrière pour absorber la valeur générée. La comparaison avec les chevaux est là, dans la pièce, et personne n'ose vraiment finir la phrase.

LLMsActu
1 source
35MarkTechPost 

CPUs, GPUs, TPUs, NPUs et LPUs : cinq architectures de calcul IA que tout ingénieur doit connaître

L'intelligence artificielle moderne ne repose plus sur un seul type de processeur, mais sur un écosystème de puces spécialisées aux compromis bien distincts. Les CPU (processeurs centraux), architecture historique de l'informatique, restent indispensables pour l'orchestration des systèmes, la gestion des flux de données et la coordination des autres accélérateurs, mais leurs cœurs peu nombreux et leur traitement séquentiel les rendent inadaptés aux calculs massivement parallèles que nécessite l'IA à grande échelle. Les GPU (processeurs graphiques), conçus à l'origine pour le rendu vidéo, sont devenus la colonne vertébrale de l'entraînement des modèles de deep learning grâce à leurs milliers de cœurs capables d'exécuter simultanément les multiplications matricielles et opérations tensorielles au cœur des réseaux de neurones, une révolution rendue possible par l'introduction de CUDA par Nvidia. À ces deux architectures s'ajoutent les TPU (Tensor Processing Units) de Google, conçus spécifiquement pour l'exécution de réseaux de neurones avec un flux de données optimisé, les NPU (Neural Processing Units) intégrés dans les appareils grand public pour une inférence locale économe en énergie, et les LPU (Language Processing Units) de Groq, une innovation récente promettant une inférence nettement plus rapide et plus efficiente pour les grands modèles de langage. Ces distinctions architecturales ont des conséquences directes pour les entreprises et les ingénieurs qui déploient des systèmes d'IA en production. Choisir la mauvaise puce signifie payer trop cher pour de l'entraînement, subir une latence excessive en inférence, ou gaspiller de l'énergie sur des appareils embarqués. Les GPU restent le choix dominant pour l'entraînement intensif, mais leur coût élevé et leur disponibilité limitée poussent les acteurs à explorer des alternatives. Les NPU, désormais intégrés dans les puces Apple Silicon, Qualcomm Snapdragon ou Intel Core Ultra, permettent d'exécuter des modèles directement sur les terminaux sans cloud, réduisant latence et risques liés à la confidentialité. Les LPU de Groq, eux, ciblent précisément le goulot d'étranglement de l'inférence en production pour les LLM, avec des débits annoncés plusieurs fois supérieurs aux GPU traditionnels. Cette diversification des architectures de calcul reflète une transition plus profonde de l'industrie : le passage du calcul généraliste à l'optimisation par charge de travail. Pendant des décennies, la loi de Moore et les CPU universels ont suffi. Aujourd'hui, la demande explosive en puissance de calcul pour l'IA, portée par des modèles de plus en plus massifs comme GPT-4, Gemini ou Llama 3, dépasse ce que les architectures généralistes peuvent absorber efficacement. Google a investi massivement dans ses TPU v4 et v5 pour sécuriser son indépendance vis-à-vis de Nvidia, tandis que des startups comme Groq, Cerebras ou Tenstorrent parient sur des designs radicalement différents. Pour tout ingénieur IA, comprendre ces architectures n'est plus une curiosité académique : c'est une compétence opérationnelle pour concevoir des systèmes performants, économiques et adaptés aux contraintes réelles du déploiement.

UEL'intégration des NPU dans les appareils grand public (Apple Silicon, Qualcomm Snapdragon, Intel Core Ultra) permet aux entreprises et utilisateurs européens d'exécuter des modèles en local, réduisant la dépendance au cloud et les risques liés au RGPD.

InfrastructureOpinion
1 source
36Le Big Data 

Nvidia vs Meta : qui contrôle vraiment l’IA en 2026 ?

En 2026, deux géants se livrent une bataille ouverte pour le contrôle de l'infrastructure de l'intelligence artificielle mondiale. D'un côté, Nvidia capte entre 80 et 90 % du marché des GPU pour centres de données, enchaînant les trimestres records grâce à une demande pour ses puces Blackwell qui dépasse toutes les prévisions. De l'autre, Meta, dirigé par Mark Zuckerberg, a décidé de rompre sa dépendance à ce fournisseur unique en annonçant jusqu'à 135 milliards de dollars d'investissements en capital pour 2026, dont un contrat historique de 6 gigawatts de puces AMD. Le marché mondial de l'IA générative devrait franchir 100 milliards de dollars d'ici fin 2026, porté par une adoption professionnelle massive : près de 80 % des entreprises prévoient d'intégrer des API d'IA ou de déployer des modèles personnalisés dans leurs processus. Les revenus issus des applications mobiles boostées à l'IA devraient doubler entre 2024 et 2026, avec une répartition géographique marquée : 37,3 milliards de dollars pour les États-Unis (+60 %), 14,7 milliards pour la Chine (+72 %), et une projection de 20 milliards pour la France à horizon 2030. L'enjeu dépasse la simple guerre commerciale entre deux entreprises. Ce que Meta cherche à construire, c'est une souveraineté technologique sur sa propre pile IA, de l'infrastructure physique jusqu'aux modèles. Tant que Nvidia reste le passage obligé pour tout acteur sérieux de l'IA, le géant de Menlo Park reste exposé à des pénuries, des hausses de prix et des délais de livraison qu'il ne contrôle pas. La diversification vers AMD n'est pas un choix technique anodin : c'est un signal politique adressé à toute l'industrie. En parallèle, les joueurs grand public risquent de subir les conséquences de cette course aux serveurs IA, Nvidia orientant clairement sa production vers les centres de données au détriment du segment gaming. La véritable forteresse de Nvidia ne réside pas dans ses puces mais dans son écosystème logiciel CUDA, standard industriel dominant depuis plus de quinze ans, que la concurrence peine à détrôner malgré des investissements considérables. L'architecture Rubin, attendue en succession des Blackwell, devrait creuser encore l'écart en termes de performances brutes. Meta n'est pas seul dans cette tentative de diversification : Google avec ses TPU, Amazon avec ses Trainium, et Microsoft via ses investissements dans OpenAI cherchent tous à réduire leur exposition à un seul fournisseur. La question qui structure désormais toute la filière est celle des infrastructures : les réseaux électriques, les capacités de refroidissement et les chaînes d'approvisionnement en semi-conducteurs peuvent-ils absorber une demande qui double tous les dix-huit mois ? C'est sur ce terrain physique, autant que logiciel, que se jouera la prochaine phase de la course à l'IA.

UELes entreprises européennes restent structurellement dépendantes de l'écosystème Nvidia/CUDA pour leurs projets IA, rendant leur accès à l'infrastructure coûteux et soumis aux arbitrages de production d'acteurs hors UE.

InfrastructureOpinion
1 source
Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export
37MarkTechPost 

Guide complet d'utilisation de ModelScope : recherche de modèles, inférence, fine-tuning, évaluation et export

ModelScope, la plateforme de partage de modèles d'intelligence artificielle développée par Alibaba et son laboratoire DAMO Academy, s'impose comme une alternative crédible à Hugging Face pour les développeurs souhaitant accéder à des modèles pré-entraînés, des jeux de données et des pipelines d'inférence. Un tutoriel complet publié récemment détaille un workflow de bout en bout exécutable sur Google Colab, couvrant l'installation de l'environnement, la recherche de modèles via le hub ModelScope, le téléchargement de snapshots comme BERT, le chargement du jeu de données IMDB, le fine-tuning d'un classificateur de sentiment, son évaluation et son export pour déploiement. La procédure repose sur un écosystème de bibliothèques Python incluant PyTorch, Transformers d'Hugging Face, Accelerate, scikit-learn et Optimum, avec une compatibilité GPU vérifiée dès le départ via CUDA. Ce type de guide pratique a une valeur concrète pour les équipes d'ingénierie et de recherche qui cherchent à industrialiser leurs workflows IA sans repartir de zéro. En montrant que ModelScope s'intègre nativement avec les outils Hugging Face, notamment les pipelines Transformers pour l'analyse de sentiment ou la vision par ordinateur, le tutoriel réduit la barrière à l'entrée pour les équipes déjà familières de cet écosystème. La possibilité de télécharger localement des snapshots de modèles, d'accéder à des datasets comme IMDB via l'API MsDataset, et d'exporter les modèles fine-tunés vers des formats de production (via Optimum) en fait un outil pertinent aussi bien pour l'expérimentation que pour des déploiements à plus grande échelle. ModelScope a été lancé en 2022 par Alibaba DAMO Academy avec l'ambition de construire un écosystème ouvert de modèles centré sur la communauté chinoise et internationale du machine learning. La plateforme héberge des milliers de modèles dans des domaines variés, NLP, vision, audio, multimodal, et se positionne directement face à Hugging Face, qui reste la référence mondiale avec plus de 500 000 modèles disponibles. La dépendance au réseau chinois pour certaines API (la recherche de modèles peut être indisponible hors de Chine, comme le mentionne le tutoriel lui-même) constitue une friction réelle pour les utilisateurs occidentaux. Néanmoins, avec l'accélération des sorties de modèles chinois performants comme Qwen, DeepSeek ou Yi, ModelScope devient un point d'accès incontournable pour quiconque souhaite travailler avec ces modèles dès leur publication, souvent avant leur disponibilité sur d'autres plateformes.

OutilsTuto
1 source
Guide pratique : utiliser le Transformer Engine NVIDIA avec précision mixte, vérifications FP8 et exécution de secours
38MarkTechPost 

Guide pratique : utiliser le Transformer Engine NVIDIA avec précision mixte, vérifications FP8 et exécution de secours

Le Transformer Engine de NVIDIA s'impose progressivement comme un outil de référence pour accélérer l'entraînement des modèles de deep learning en entreprise. Un tutoriel technique publié récemment propose une implémentation complète en Python, couvrant l'installation des composants, la vérification de la compatibilité GPU et CUDA, ainsi que la comparaison directe entre un pipeline PyTorch standard et un pipeline optimisé via le Transformer Engine. La démonstration construit deux réseaux neuronaux (enseignant et élève), les entraîne en parallèle, mesure leurs performances respectives en termes de vitesse d'exécution et de consommation mémoire, et produit des visualisations comparatives. Le tutoriel prend soin de gérer les échecs d'installation silencieusement, de manière à ce que le notebook reste exécutable même lorsque l'extension native ne peut pas être compilée, via un mode de repli automatique. Ce type d'outillage répond à un besoin concret des équipes d'IA cherchant à réduire les coûts d'entraînement sans changer d'architecture. Le Transformer Engine exploite la précision FP8 (8 bits flottants), disponible sur les GPU NVIDIA à partir de l'architecture Hopper (H100), pour effectuer les calculs matriciels les plus lourds avec une empreinte mémoire réduite et un débit augmenté, tout en maintenant la précision finale du modèle grâce à la gestion automatique des facteurs d'échelle. En pratique, cela peut se traduire par des gains de vitesse significatifs sur les passes avant et arrière des transformers, réduisant directement le temps et le coût des runs d'entraînement à grande échelle. L'approche intéresse aussi bien les laboratoires de recherche que les équipes MLOps en production. NVIDIA a développé le Transformer Engine en réponse à la montée en puissance des modèles de langage et de vision nécessitant des milliards de paramètres, pour lesquels la précision FP32 ou même FP16 devient un goulot d'étranglement. Introduit officiellement avec les GPU H100 et le framework TransformerEngine open source, il s'intègre à PyTorch et JAX via des couches drop-in comme te.Linear et te.TransformerLayer. La complexité d'installation, notamment la nécessité d'un compilateur NVCC et des headers cuDNN présents sur la machine, freine encore son adoption hors des environnements cloud spécialisés. Le tutoriel aborde précisément ce point de friction en proposant une détection automatique de l'environnement et un fallback propre, ce qui devrait abaisser la barrière d'entrée pour les équipes souhaitant expérimenter avant de migrer leurs pipelines de production vers cette technologie.

InfrastructureTuto
1 source
TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?
39The Information AI 

TensorWave peut-il dépasser l'avantage concurrentiel de Nvidia ?

Nick Tatarchuk, fondateur de la startup TensorWave, a organisé mercredi à San Francisco un événement intitulé Beyond Summit, anciennement appelé Beyond CUDA. Ce changement de nom n'est pas anodin : l'édition précédente, tenue à San Jose en 2025 lors de la conférence GTC de Nvidia, avait attiré des centaines de participants désireux de discuter des alternatives au logiciel de Nvidia. Cette année, des sponsors et participants potentiels ont exprimé des réticences à s'associer à un événement aussi explicitement positionné contre le géant des puces. Tatarchuk lui-même reconnaît cette pression, d'autant que sa salle habituelle à San Jose avait été réservée pour plusieurs années... par Nvidia. L'événement réunit des startups qui développent des compilateurs, des noyaux et des couches d'optimisation pour concurrencer l'écosystème logiciel de Nvidia, dont plusieurs ont figuré dans les classements Top 50 Startups de 2024 et 2025. L'enjeu central est CUDA, la plateforme logicielle de Nvidia considérée comme son véritable fossé concurrentiel : elle simplifie radicalement l'utilisation du matériel Nvidia pour l'entraînement et l'inférence de modèles d'IA. Mais ce monopole commence à se fissurer. OpenAI et Meta ont récemment annoncé des accords importants avec AMD, rival direct de Nvidia, pour utiliser ses puces dans leurs infrastructures d'IA. Tatarchuk affirme que des laboratoires d'IA commencent désormais à réaliser des entraînements à grande échelle sur du matériel AMD, une pratique qui était à peine évoquée publiquement il y a encore peu. Pour la première fois depuis des années, des clients seraient prêts à envisager sérieusement des alternatives à CUDA, estime-t-il : "Il y a tellement d'entreprises sophistiquées qui n'ont pas besoin de CUDA." Ce mouvement s'inscrit dans un contexte de transformation profonde de l'industrie du calcul pour l'IA. La domination de Nvidia, dont les GPU représentent l'essentiel du marché de l'entraînement des grands modèles, est contestée à la fois par des fabricants de puces alternatifs et par un écosystème logiciel naissant. En parallèle, une autre initiative illustre l'effervescence du secteur : à l'université Stanford, un cours universitaire de premier cycle sur l'infrastructure IA est devenu un événement majeur, surnommé le "Compute Coachella". Le cours, complet, réunit cette semaine Jensen Huang (Nvidia), Lisa Su (AMD), Sam Altman (OpenAI), Satya Nadella (Microsoft) et Andrej Karpathy comme intervenants. Il est enseigné par Anjney Midha, ancien associé d'Andreessen Horowitz et investisseur précoce d'Anthropic, et Michael Abbott, ancien responsable ingénierie chez Apple, tous deux impliqués dans AMP, une initiative visant à faciliter l'accès aux ressources de calcul pour les entreprises.

UEL'émergence d'alternatives viables à CUDA pourrait à terme réduire la dépendance des entreprises et laboratoires européens envers Nvidia pour leurs infrastructures d'entraînement IA.

InfrastructureActu
1 source
RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch
40MarkTechPost 

RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch

RightNow AI a publié AutoKernel, un framework open-source qui automatise l'optimisation des kernels GPU pour n'importe quel modèle PyTorch. Le principe est simple : soumettre un modèle avant de dormir et retrouver au matin des kernels Triton plus rapides, sans avoir à maîtriser la programmation GPU de bas niveau. Le système repose sur une boucle agentique autonome : un agent LLM modifie un fichier kernel.py, un banc de test vérifie la correction puis mesure le débit, et le résultat détermine si la modification est conservée ou annulée via un git reset. Chaque itération dure environ 90 secondes, ce qui permet de réaliser 300 à 400 expériences lors d'une session de 10 heures. L'agent suit un manuel d'optimisation en six niveaux encodé dans un document de 909 lignes, couvrant le réglage des tailles de blocs, les patterns d'accès mémoire, les optimisations de calcul comme TF32, les techniques avancées comme split-K, et les stratégies spécifiques aux architectures Hopper et Ampere de NVIDIA. L'enjeu est considérable pour l'industrie du machine learning. Optimiser un kernel GPU de haute performance exige de raisonner simultanément sur l'intensité arithmétique, la coalescence mémoire, la pression sur les registres, la synchronisation au niveau warp et la sélection des instructions tensor core, un ensemble de compétences qui prend des années à acquérir. Un seul kernel de multiplication matricielle performant peut représenter plus de 200 lignes de code CUDA ou Triton avec des dizaines de paramètres interdépendants. La suite de benchmarks KernelBench, qui évalue les grands modèles de langage sur 250 problèmes de kernels GPU, a montré que même les meilleurs modèles n'égalaient la baseline PyTorch que dans moins de 20 % des cas en génération directe. AutoKernel répond précisément à ce déficit en rendant cette expertise accessible sans spécialiste humain, ce qui pourrait accélérer significativement le développement et le déploiement de modèles d'IA. L'approche s'inspire directement du projet autoresearch d'Andrej Karpathy, dans lequel une boucle keep/revert appliquée à du code d'entraînement LLM avait permis de découvrir 20 optimisations en 700 expériences sur deux jours avec un seul GPU. AutoKernel transpose cette logique à l'espace des kernels, en substituant la loss de validation par un benchmark de correction et de débit comme fonction d'évaluation. La traçabilité est assurée par git, les résultats étant stockés dans un fichier TSV lisible directement par l'agent. Ce type de framework illustre une tendance plus large où les tâches d'ingénierie hautement spécialisées deviennent des cibles pour l'automatisation agentique, réduisant la dépendance aux rares experts en optimisation GPU à mesure que les architectures de modèles continuent d'évoluer.

💬 L'idée de laisser tourner une boucle agentique toute la nuit pour sortir des kernels Triton optimisés au matin, c'est exactement ce qu'on attendait depuis qu'on a vu Karpathy faire la même chose sur du code d'entraînement. La partie vraiment bien foutue, c'est le mécanisme d'évaluation : un benchmark de correction avant tout, et le git reset si ça régresse, ce qui évite de passer des heures à débugger des "optimisations" qui cassent tout. Pour les équipes sans expert CUDA dans les jambes, c'est une vraie bouffée d'air.

OutilsOutil
1 source
Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement
41Meta Engineering ML 

Meta lance KernelEvolve, un agent IA pour optimiser les infrastructures d'entraînement

Meta a présenté KernelEvolve, un système d'optimisation de kernels piloté par intelligence artificielle, développé en interne pour accélérer ses modèles de publicité et d'IA générative. Intégré à l'agent Ranking Engineer Agent, KernelEvolve automatise la création et l'optimisation de kernels — ces programmes bas niveau qui traduisent les opérations de haut niveau d'un modèle en instructions spécifiques à chaque puce. Le système cible une infrastructure hétérogène composée de GPU NVIDIA, de GPU AMD, de CPU classiques et des puces MTIA, les accélérateurs personnalisés de Meta. Les résultats publiés sont substantiels : plus de 60 % d'amélioration du débit d'inférence pour le modèle publicitaire Andromeda sur GPU NVIDIA, et plus de 25 % de gain en débit d'entraînement sur les puces MTIA. Des travaux qui auraient normalement demandé plusieurs semaines à des ingénieurs spécialisés ont été accomplis en quelques heures. L'article associé sera présenté au 53e International Symposium on Computer Architecture (ISCA) 2026. L'enjeu est direct et massif : Meta sert chaque jour des milliards d'expériences alimentées par l'IA, des recommandations personnalisées aux assistants génératifs. Chaque requête d'entraînement ou d'inférence repose sur une couche de kernels hautement optimisés, et à mesure que les modèles gagnent en complexité et que le parc matériel se diversifie, le nombre de configurations possibles explose — atteignant des milliers de combinaisons selon le hardware, l'architecture du modèle et le type d'opérateur. L'optimisation manuelle par des experts ne peut plus suivre ce rythme, créant un goulot d'étranglement critique qui freine l'adoption de nouveaux matériels et ralentit les cycles d'itération des modèles. KernelEvolve résout ce problème en traitant l'optimisation comme une recherche automatisée : un environnement d'évaluation dédié teste chaque kernel candidat, renvoie les diagnostics au LLM, et pilote une exploration continue sur des centaines d'alternatives — dépassant les performances des kernels écrits à la main par des experts humains. Cette initiative s'inscrit dans une tendance de fond chez les grandes plateformes technologiques : déléguer des tâches d'ingénierie de bas niveau à des agents IA pour absorber la complexité croissante des infrastructures de calcul. Meta fait face à la même contrainte que Google, Microsoft ou Amazon — accélérer sans cesse les modèles tout en maîtrisant les coûts de calcul sur un parc matériel qui ne cesse de se diversifier. KernelEvolve génère des kernels dans des langages aussi bien de haut niveau comme Triton ou CuteDSL que de bas niveau comme CUDA, HIP ou MTIA C++, ce qui lui confère une portabilité rare. À terme, ce type d'agent pourrait devenir standard dans l'industrie, réduisant drastiquement le besoin d'ingénieurs spécialisés en optimisation matérielle et accélérant la mise en production de nouvelles architectures de modèles sur des puces encore inconnues.

InfrastructureActu
1 source
NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark
42NVIDIA AI Blog 

NVIDIA optimise Gemma 4 pour les agents autonomes locaux, des GPU RTX aux serveurs Spark

Google et NVIDIA ont annoncé cette semaine une collaboration pour optimiser la nouvelle famille de modèles Gemma 4 sur les GPU NVIDIA, couvrant un spectre matériel allant des modules embarqués Jetson Orin Nano aux PC et stations de travail RTX, en passant par le superordinateur personnel DGX Spark. La gamme comprend quatre variantes — E2B, E4B, 26B et 31B — chacune ciblant un segment précis : les modèles E2B et E4B sont conçus pour une inférence ultra-rapide et hors-ligne sur des appareils à faible consommation, tandis que les 26B et 31B visent des cas d'usage plus exigeants comme le raisonnement complexe et les workflows de développement. Ces modèles multimodaux prennent en charge le texte, les images, la vidéo et l'audio, acceptent des entrées mixtes dans un même prompt, et couvrent nativement plus de 35 langues, avec un préentraînement sur plus de 140. Ils intègrent également un support natif pour les appels de fonctions structurés, fondement des architectures agentiques. L'enjeu principal est de rendre l'IA agentique accessible localement, sans dépendance au cloud. Jusqu'ici, faire tourner un assistant IA capable de raisonner, coder et interagir avec des fichiers personnels nécessitait soit une connexion internet, soit du matériel serveur coûteux. Avec Gemma 4 optimisé pour les Tensor Cores NVIDIA via CUDA, des machines grand public comme un PC équipé d'une RTX 5090 peuvent exécuter le modèle 31B avec des performances compétitives — les benchmarks réalisés avec llama.cpp (b7789) montrent un débit de génération de tokens mesurable à ISL 4096 et OSL 128. Des applications comme OpenClaw, déjà compatible avec ces nouveaux modèles, permettent de construire des agents locaux qui accèdent aux fichiers, applications et workflows de l'utilisateur en temps réel, sans que les données quittent la machine. Ce lancement s'inscrit dans une dynamique plus large d'ouverture des modèles de frontier, portée par Google DeepMind avec la famille Gemma depuis 2024. La collaboration avec NVIDIA vise à réduire le fossé entre les performances des modèles propriétaires cloud et ce qu'un développeur peut faire tourner chez lui. NVIDIA s'est associé à Ollama et llama.cpp pour simplifier le déploiement local, tandis qu'Unsloth propose dès le premier jour des versions quantifiées et optimisées pour le fine-tuning via Unsloth Studio. À mesure que la course aux modèles locaux s'intensifie — face à des acteurs comme Meta avec LLaMA ou Mistral AI — la capacité de Google à distribuer des modèles performants sur du matériel NVIDIA grand public représente un levier stratégique pour étendre l'écosystème Gemma bien au-delà des serveurs de données.

UELa concurrence directe de Gemma 4 avec les modèles de Mistral AI accentue la pression sur l'écosystème open source européen, tandis que les développeurs français bénéficient d'un accès immédiat à des modèles multimodaux performants exécutables localement via des outils déjà disponibles (Ollama, llama.cpp, Unsloth).

💬 Un 31B qui tourne sur une RTX sans toucher au cloud, c'est le verrou qui lâche enfin. Ce qui me convainc surtout, c'est l'écosystème autour (Ollama, Unsloth, llama.cpp dès J1) : si tu as du matériel NVIDIA chez toi, tu peux tester ça ce soir. Reste à voir si les perfs tiennent en conditions réelles, les benchmarks à contexte fixe c'est pas toujours très révélateur.

LLMsOpinion
1 source
Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab
43MarkTechPost 

Construire un pipeline IA de génération prêt pour la production avec Gemma 3 1B Instruct, Hugging Face Transformers et Colab

Google a récemment mis à disposition Gemma 3 1B Instruct, un modèle de langage compact de 1 milliard de paramètres conçu pour être déployé dans des environnements contraints, notamment sur CPU ou GPU grand public. Un tutoriel détaillé publié sur la plateforme AnalyticsVidhya propose un pipeline complet et reproductible pour faire tourner ce modèle directement dans Google Colab, en s'appuyant sur la bibliothèque Hugging Face Transformers (version 4.51.0 minimum), ainsi que sur les outils accelerate, sentencepiece et safetensors. Le workflow couvre l'authentification sécurisée via un token Hugging Face, le chargement du tokenizer et du modèle avec détection automatique du matériel disponible (CUDA ou CPU), et l'utilisation de la précision bfloat16 pour optimiser la mémoire sur GPU. Ce type de guide a une valeur concrète pour les développeurs et data scientists qui souhaitent intégrer des LLM légers dans leurs applications sans recourir à des infrastructures coûteuses. Gemma 3 1B se distingue par sa taille réduite, ce qui le rend accessible à un large éventail de machines, y compris les environnements gratuits de Colab. Le tutoriel ne se limite pas au simple chargement du modèle : il propose des utilitaires réutilisables pour la génération de texte, la mise en forme des prompts en structure de conversation (chat template), et teste le modèle sur des cas d'usage réels — génération libre, réponses structurées au format JSON, chaînage de prompts, benchmarking de vitesse et résumé déterministe. Cette approche orientée production, plutôt que démonstration, répond à un besoin croissant de reproductibilité dans les projets d'IA appliquée. Gemma 3 est la troisième génération de la famille de modèles open-weights de Google DeepMind, lancée début 2025 pour concurrencer des modèles comme Llama 3 de Meta ou Phi-3 de Microsoft sur le segment des LLM légers et locaux. L'écosystème Hugging Face joue ici un rôle central de plateforme de distribution et d'intégration, avec des outils standardisés qui facilitent le passage du prototype à la production. La disponibilité de modèles performants sous 2 milliards de paramètres est un enjeu stratégique : elle permet des déploiements on-device, réduit les coûts d'inférence et ouvre la voie à des applications embarquées ou hors-ligne. Les prochaines étapes naturelles de ce type de pipeline incluent le fine-tuning sur données propriétaires, le déploiement via une API FastAPI ou Gradio, et l'intégration dans des workflows RAG (retrieval-augmented generation).

LLMsTuto
1 source
Comment installer NemoClaw en 5 minutes : guide pas-à-pas
44Le Big Data 

Comment installer NemoClaw en 5 minutes : guide pas-à-pas

NemoClaw, l'outil de sandbox développé par NVIDIA pour sécuriser les agents autonomes d'intelligence artificielle, s'installe désormais en moins de cinq minutes via un script bash « one-liner ». Le processus repose sur Docker, qui confine chaque agent dans sa propre bulle isolée, et nécessite un noyau Linux à jour — ou WSL2 pour les utilisateurs Windows. Côté matériel, le minimum requis est 16 Go de RAM et une carte graphique NVIDIA avec les pilotes CUDA à jour, condition sans laquelle la sandbox ne détecte tout simplement pas la GPU. Une fois ces prérequis validés, le script télécharge automatiquement les dépendances, gère Node.js et prépare l'environnement OpenClaw sans intervention manuelle. Une phase interactive — le Wizard Onboarding — complète l'installation en quatre étapes : nommage de la sandbox, choix du modèle de langage (local ou via API cloud), et configuration des paramètres d'isolation. L'enjeu derrière cette simplicité d'installation est significatif. En 2026, les grands modèles de langage sont des cibles privilégiées pour les cyberattaques, et l'isolation des processus est devenue une exigence de sécurité fondamentale pour quiconque déploie de l'IA en production. NemoClaw répond à ce besoin en créant une barrière étanche entre le code exécuté par l'agent et le système hôte, limitant drastiquement la surface d'attaque. Le fait que cette protection soit accessible en cinq minutes, sans compétences poussées en administration système, change la donne pour les développeurs indépendants et les petites équipes qui ne peuvent pas se permettre un département sécurité dédié. L'approche conteneurisée via Docker permet par ailleurs de gérer plusieurs agents en parallèle dans des environnements strictement séparés. NVIDIA positionne NemoClaw dans un contexte industriel où la prolifération des agents autonomes pose des questions de gouvernance de plus en plus pressantes. Les incidents liés à des fuites de données via des LLM mal isolés se sont multipliés ces derniers mois, poussant les grands acteurs technologiques à proposer des solutions clés en main. NVIDIA, qui domine déjà le marché du matériel IA avec ses GPU, étend ainsi son influence vers la couche logicielle de sécurité — un mouvement stratégique qui lui permet de verrouiller davantage l'écosystème autour de ses cartes RTX. La compatibilité avec des modèles locaux comme avec des API cloud laisse ouverte la question de la dépendance aux infrastructures propriétaires, un débat que la communauté open source n'a pas fini de trancher.

UELes équipes de développement européennes déployant des agents IA en production peuvent adopter cet outil d'isolation pour renforcer leur sécurité sans compétences avancées en administration système.

SécuritéTuto
1 source
L'NVIDIA RTX PRO 6000 Blackwell Workstation Edition transforme la data science
45IEEE Spectrum AI 

L'NVIDIA RTX PRO 6000 Blackwell Workstation Edition transforme la data science

La NVIDIA RTX PRO 6000 Blackwell Workstation Edition, commercialisée par PNY Technologies, est présentée comme la GPU de bureau la plus puissante jamais construite, conçue pour répondre aux besoins croissants des data scientists face à des volumes de données massifs. Elle supporte jusqu'à quatre GPU en configuration multi-carte pour atteindre des performances équivalentes aux data centers, avec une intégration native dans l'écosystème logiciel NVIDIA (CUDA-X, plus de 100 applications IA). En maintenant les données en local plutôt que dans le cloud, elle offre également un avantage en matière de sécurité et de maîtrise des coûts pour les entreprises.

OutilsActu
1 source
« Sans GeForce il n’y aurait pas de CUDA et sans CUDA il n’y aurait pas d’IA » : Nvidia rend hommage aux joueurs PC qui ont financé l’IA
46Frandroid 

« Sans GeForce il n’y aurait pas de CUDA et sans CUDA il n’y aurait pas d’IA » : Nvidia rend hommage aux joueurs PC qui ont financé l’IA

À l'occasion du GDC 2026 et des 25 ans de la GeForce 3, le patron de Nvidia a rendu hommage aux joueurs PC en affirmant que sans GeForce, il n'y aurait pas eu CUDA, et sans CUDA, pas d'IA. Selon lui, les revenus générés par le gaming ont financé le développement des technologies qui ont rendu possible l'intelligence artificielle moderne.

BusinessOpinion
1 source
Import AI 448 : R&D en IA ; l'agent CUDA de ByteDance ; IA satellite embarquée
47Import AI 

Import AI 448 : R&D en IA ; l'agent CUDA de ByteDance ; IA satellite embarquée

Ajeya Cotra, chercheuse reconnue spécialisée dans les prévisions sur l'IA, vient de publier une mise à jour publique dans laquelle elle reconnaît avoir sous-estimé la vitesse de progression des systèmes d'intelligence artificielle. En janvier 2026, elle anticipait qu'un agent IA aurait un "horizon temporel" — c'est-à-dire la durée maximale de travail autonome qu'il peut mener sans assistance humaine — d'environ 24 heures d'ici fin 2026. Or, les derniers résultats de METR (une organisation qui évalue les capacités des agents IA) montrent que Claude Opus 4.6 d'Anthropic atteint déjà un horizon de 12 heures. Cotra révise donc ses estimations à la hausse : selon elle, d'ici la fin de l'année, les agents IA devraient dépasser les 100 heures d'autonomie sur des tâches logicielles complexes. Dans ce même numéro de la newsletter Import AI, des chercheurs de GovAI et de l'Université d'Oxford publient un cadre de 14 métriques conçu pour mesurer l'avancement de l'automatisation de la R&D en IA — c'est-à-dire la capacité des systèmes IA à construire d'autres systèmes IA. Ces développements ont des implications directes pour l'ensemble du secteur technologique. Un agent capable de travailler de manière autonome pendant plus de 100 heures représente l'équivalent de plusieurs semaines-homme de travail qualifié, ce qui remet en question le concept même de "temps de cycle" dans le développement logiciel. Pour les entreprises qui s'appuient sur des équipes d'ingénieurs, c'est un signal fort : l'IA ne se contente plus d'assister les développeurs, elle commence à les remplacer sur des tâches étendues et complexes. Les 14 métriques proposées par GovAI visent précisément à anticiper le moment où l'IA deviendrait capable d'amélioration récursive — c'est-à-dire de se perfectionner elle-même —, un seuil souvent décrit comme un point de bascule majeur, au-delà duquel l'accélération technologique pourrait devenir difficile à piloter. La notion d'amélioration récursive de l'IA est débattue depuis des années dans les cercles de la sécurité des systèmes avancés, mais elle était jusque-là considérée comme un horizon lointain. Les progrès récents de modèles comme Opus 4.6 signalent que cet horizon se rapproche beaucoup plus vite que prévu, y compris par celles et ceux dont c'est le métier de l'estimer. GovAI et Oxford proposent des indicateurs concrets — performance relative des IA versus équipes humaines, fréquence d'utilisation dans les décisions critiques, niveau de permissions accordées aux systèmes, taux de comportements indésirables en production — pour permettre aux régulateurs et aux laboratoires de suivre cette trajectoire avant qu'elle ne devienne incontrôlable. L'enjeu affiché est explicite : l'automatisation de la R&D en IA pourrait accélérer à la fois les bénéfices attendus et les risques les plus graves, incluant le développement d'armes de destruction massive ou des disruptions économiques massives liées au chômage technologique.

UELes 14 métriques publiées par GovAI et l'Université d'Oxford pour mesurer l'automatisation de la R&D en IA pourraient directement alimenter le cadre réglementaire européen, notamment les dispositions de l'AI Act relatives aux systèmes à haut risque et aux modèles à usage général.

RecherchePaper
1 source
Nous avons fait venir Claude pour créer des noyaux CUDA et enseigner les modèles ouverts !
48HuggingFace Blog 

Nous avons fait venir Claude pour créer des noyaux CUDA et enseigner les modèles ouverts !

Claude a été recruté pour développer des noyaux CUDA et enseigner les modèles ouverts. Son expertise contribuera à la création et à la diffusion de connaissances sur l'utilisation de ces modèles avancés.

LLMsTuto
1 source

Suivre CUDA en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour