Aller au contenu principal

Dossier NVIDIA — page 2

296 articles · page 2 sur 6

NVIDIA, l'arsenal de la course IA : Blackwell, Vera Rubin, Vera CPU, partenariats hyperscalers, Omniverse, et la rente CUDA face aux puces Huawei et Trainium.

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson
51NVIDIA Developer Blog AutreOpinion

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson

L'article source est tronqué (coupé après le premier paragraphe). Je vais rédiger à partir du contenu visible et des faits techniques documentés sur ce sujet, en restant factuel. --- La démocratisation des modèles d'IA générative open source crée une nouvelle pression sur les plateformes embarquées : les développeurs veulent désormais faire tourner des modèles de plusieurs milliards de paramètres directement sur des robots et agents autonomes opérant dans le monde physique, sans connexion permanente au cloud. Sur les modules NVIDIA Jetson Orin, la contrainte principale est la mémoire unifiée partagée entre CPU et GPU, plafonnée à 64 Go sur le Jetson AGX Orin et à 8 ou 16 Go sur les variantes Orin NX et Nano. Des techniques comme la quantification INT4 et INT8 via TensorRT-LLM, le paged KV cache et le flash attention permettent de faire tourner des modèles comme Llama 3 8B, Mistral 7B ou Phi-3 sur ces plateformes avec des compromis mesurés sur la précision. L'enjeu n'est pas académique : pour les intégrateurs robotiques et les OEM industriels, la capacité à exécuter un VLA (Vision-Language-Action model) localement sans latence réseau est un prérequis pour la manipulation en environnement non structuré, l'inspection autonome ou la navigation en entrepôt. La quantification agressive réduit l'empreinte mémoire d'un facteur 4 à 8x par rapport au FP16, mais introduit une dégradation de précision qu'il faut valider tâche par tâche. NVIDIA positionne cette optimisation comme un élément central de sa stack Physical AI via l'écosystème Isaac ROS. La plateforme Jetson est déployée dans des centaines de produits robotiques en production, des AMR d'entrepôt aux bras collaboratifs et drones d'inspection industrielle. Sur le segment concurrent, Qualcomm pousse ses puces RB3/RB5 avec le moteur Hexagon NPU, et Hailo (Israël) vise spécifiquement l'inférence embarquée légère. La prochaine étape pour NVIDIA sera l'intégration native de GR00T N2, son modèle de fondation humanoïde, sur Jetson Thor, une puce annoncée pour les robots humanoïdes haut de gamme et attendue dans les déploiements pilotes courant 2025-2026.

1 source
NVIDIA lance Ising : sa première famille de modèles d'IA quantique ouverts pour systèmes hybrides quantique-classique
52MarkTechPost 

NVIDIA lance Ising : sa première famille de modèles d'IA quantique ouverts pour systèmes hybrides quantique-classique

NVIDIA a lancé Ising, la première famille de modèles d'IA quantique ouverts au monde, conçue pour aider chercheurs et entreprises à construire des processeurs quantiques capables de faire tourner des applications réelles. La famille comprend deux composants distincts : Ising Calibration, un modèle de langage visuel qui interprète en temps réel les mesures des processeurs quantiques et ajuste automatiquement le système pour le maintenir en fonctionnement optimal, réduisant les temps de calibration de plusieurs jours à quelques heures ; et Ising Decoding, disponible en deux variantes de réseau de neurones convolutif 3D optimisées respectivement pour la vitesse et la précision, qui effectuent le décodage d'erreurs quantiques en temps réel. Ising Decoding se montre jusqu'à 2,5 fois plus rapide et 3 fois plus précis que pyMatching, l'actuel standard open source du secteur. Dès le premier jour, des organisations comme IonQ, IQM Quantum Computers, Infleqtion, le Fermi National Accelerator Laboratory, Harvard, Sandia National Laboratories, l'Université de Chicago et une douzaine d'autres acteurs académiques et commerciaux ont déjà adopté ces outils. L'enjeu est considérable : le principal frein au déploiement concret de l'informatique quantique n'est pas la puissance brute des processeurs, mais leur extrême sensibilité aux perturbations extérieures. Les qubits, unités de calcul fondamentales, accumulent des erreurs à une vitesse qui rend tout calcul utile quasiment impossible sans une calibration rigoureuse et une correction d'erreurs en temps réel. Ces deux opérations étaient jusqu'ici manuelles, lentes et difficiles à mettre à l'échelle. En automatisant ces processus critiques par l'IA, NVIDIA s'attaque directement au goulot d'étranglement qui sépare les démonstrateurs de laboratoire des machines véritablement opérationnelles. Une réduction des temps de calibration de plusieurs jours à quelques heures représente un gain de productivité transformateur pour les équipes de recherche. Ising s'inscrit dans la stratégie plus large de NVIDIA pour positionner ses GPU au coeur de l'informatique hybride quantique-classique. Les modèles Ising complètent CUDA-Q, la plateforme logicielle de NVIDIA pour les workflows hybrides, et s'intègrent avec NVQLink, l'interconnexion matérielle GPU-QPU développée par l'entreprise pour permettre une communication à faible latence entre processeurs graphiques et unités quantiques. Cette approche suit la même philosophie que CUDA pour l'accélération GPU : coupler étroitement calcul classique et calcul accéléré. Alors que des acteurs comme IBM, Google et des startups spécialisées investissent massivement dans la course au quantique, NVIDIA parie sur une stratégie de plateforme transversale, agnostique aux technologies de qubits, qui lui permet de s'imposer comme couche d'infrastructure indispensable quelle que soit la technologie gagnante.

UEIQM Quantum Computers (Finlande, UE) figure parmi les premiers adoptants, ce qui pourrait accélérer le développement de processeurs quantiques en Europe.

💬 La calibration des qubits qui passe de plusieurs jours à quelques heures, c'est le vrai goulot d'étranglement du quantique, et c'est la première fois qu'on voit une solution à la hauteur du problème. NVIDIA fait exactement ce qu'ils ont fait avec CUDA : s'imposer comme couche d'infra incontournable avant même de savoir quelle technologie va gagner. Harvard, Fermi Lab, IQM dès le premier jour, ça ne s'invente pas.

InfrastructureActu
1 source
NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant
53MarkTechPost 

NVIDIA et l'Université du Maryland lancent Audio Flamingo Next (AF-Next), un grand modèle audio-langage ouvert et puissant

Des chercheurs de NVIDIA et de l'Université du Maryland ont publié Audio Flamingo Next (AF-Next), le modèle le plus puissant de la série Audio Flamingo et l'un des grands modèles audio-langage (LALM) open source les plus avancés à ce jour. AF-Next est disponible en trois variantes spécialisées : AF-Next-Instruct pour les questions-réponses générales, AF-Next-Think pour le raisonnement multi-étapes complexe, et AF-Next-Captioner pour la description détaillée de contenus audio. L'architecture repose sur quatre composants : un encodeur audio AF-Whisper (basé sur Whisper, pré-entraîné sur un corpus plus large incluant de la parole multilingue), un adaptateur MLP à deux couches, un backbone LLM Qwen-2.5-7B à 7 milliards de paramètres avec une fenêtre de contexte étendue à 128 000 tokens, et un module de synthèse vocale en streaming. Une innovation clé est l'introduction des Rotary Time Embeddings (RoTE), qui ancrent chaque token audio à son horodatage réel plutôt qu'à sa position dans la séquence, ce qui améliore significativement le raisonnement temporel sur de longs enregistrements. L'entraînement a mobilisé plus d'un million d'heures de données audio. AF-Next représente une avancée concrète pour toutes les applications nécessitant une compréhension fine de l'audio : transcription de réunions longues, analyse de podcasts, surveillance sonore, ou encore assistants vocaux capables de raisonner sur le contexte temporel d'une conversation. La technique dite de Temporal Audio Chain-of-Thought oblige le modèle à ancrer chaque étape de raisonnement à un timestamp précis avant de produire une réponse, ce qui réduit les hallucinations et améliore la fiabilité sur des enregistrements longs. Pour entraîner cette capacité, les chercheurs ont constitué AF-Think-Time, un jeu de données d'environ 43 000 exemples issus de bandes-annonces, résumés de films, histoires à suspense et conversations multi-participants, avec une moyenne de 446 mots par chaîne de raisonnement. L'audio a toujours été le parent pauvre du multimodal : là où les modèles vision-langage comme GPT-4V ou LLaVA ont rapidement mûri, les équivalents audio peinaient à traiter simultanément parole, sons environnementaux et musique, surtout sur de longues durées. AF-Next s'attaque directement à cette lacune en proposant une architecture unifiée et entièrement ouverte, à l'heure où les grands laboratoires comme OpenAI et Google gardent leurs modèles audio les plus puissants propriétaires. En publiant les poids du modèle et le dataset AF-Think-Time, NVIDIA et l'Université du Maryland offrent à la communauté de recherche une base solide pour faire progresser l'audio compréhension ouverte, un domaine stratégique pour les prochaines générations d'interfaces vocales et d'agents autonomes capables d'agir sur des flux audio en temps réel.

💬 L'audio était vraiment le grand oublié du multimodal, et là c'est NVIDIA qui comble le trou avec une architecture ouverte. Les Rotary Time Embeddings pour ancrer les tokens à leur timestamp réel, c'est le genre de détail qui change tout quand tu travailles sur des enregistrements longs. Reste à voir si les 128k tokens de contexte tiennent vraiment en pratique, mais les poids sont là, le dataset aussi, bonne base.

LLMsOpinion
1 source
Tutoriel NVIDIA PhysicsNeMo : Darcy Flow, FNOs, PINNs, modèles de substitution et benchmarking d'inférence
54MarkTechPost 

Tutoriel NVIDIA PhysicsNeMo : Darcy Flow, FNOs, PINNs, modèles de substitution et benchmarking d'inférence

NVIDIA a publié PhysicsNeMo, une bibliothèque dédiée à l'apprentissage automatique informé par la physique, et un tutoriel complet en montre l'implémentation pratique sur Google Colab. Le guide couvre l'ensemble du pipeline scientifique : génération de données pour le problème de l'écoulement de Darcy 2D, entraînement de modèles avancés dont l'opérateur de Fourier neuronal (FNO) et un réseau convolutif de base, ainsi qu'une introduction aux réseaux de neurones informés par la physique (PINNs). Le tutoriel se conclut par une comparaison d'architectures, une évaluation des prédictions et un benchmark d'inférence, avec sauvegarde des modèles entraînés. Techniquement, le problème de Darcy 2D sert de cas d'école : il s'agit de résoudre l'équation -∇·(k(x,y)∇u(x,y)) = f(x,y) sur un domaine carré de résolution 64×64, où k représente le champ de perméabilité en entrée et u le champ de pression en sortie, les données étant générées via des champs aléatoires gaussiens et un solveur par différences finies. Ce type d'outil intéresse directement les ingénieurs et chercheurs qui travaillent sur des simulations physiques coûteuses en calcul. Les opérateurs neuronaux comme le FNO peuvent apprendre des solutions d'équations aux dérivées partielles sans résoudre le système à chaque fois, réduisant les temps de calcul de plusieurs ordres de grandeur par rapport aux solveurs classiques. Pour des domaines comme la modélisation des écoulements souterrains, la conduction thermique, la mécanique des fluides ou la conception de matériaux, ces modèles de substitution (surrogate models) permettent d'explorer des milliers de scénarios là où un simulateur numérique traditionnel n'en traiterait que quelques dizaines dans le même temps. Le benchmark d'inférence inclus dans le tutoriel permet de quantifier précisément ce gain. PhysicsNeMo s'inscrit dans une tendance de fond portée par NVIDIA depuis plusieurs années : outiller la communauté scientifique avec des frameworks qui combinent deep learning et contraintes physiques. La bibliothèque fait écho à d'autres initiatives similaires comme DeepMind's GraphCast pour la météo ou les travaux de Microsoft sur les modèles de simulation climatique. L'enjeu est de démocratiser la scientific machine learning en abaissant la barrière d'entrée technique : en proposant une implémentation fonctionnelle sur Colab, accessible sans infrastructure GPU dédiée pour les premiers tests, NVIDIA cible aussi bien les doctorants en physique computationnelle que les équipes R&D industrielles. Le fait que le tutoriel propose des implémentations de secours (fallback) lorsque PhysicsNeMo n'est pas disponible suggère une conception pensée pour la robustesse et l'adoption progressive dans des environnements de production variés.

OutilsTuto
1 source
DustPhotonics : La nouvelle cible prioritaire d’Intel et Nvidia dans l’IA
55Le Big Data 

DustPhotonics : La nouvelle cible prioritaire d’Intel et Nvidia dans l’IA

La start-up israélienne DustPhotonics, fondée en 2017 et spécialisée dans les puces photoniques, serait en négociations avancées pour un rachat estimé à plusieurs centaines de millions de dollars. Intel, Nvidia et Amazon figurent parmi les acheteurs potentiels les plus sérieux, selon des informations publiées le 12 avril 2026 par le média israélien Calcalist. L'entreprise, qui a levé plus de 100 millions de dollars depuis sa création, développe des composants capables de transmettre des données à des vitesses comprises entre 400 Gbit/s et 1,6 Tbit/s en utilisant la lumière plutôt que l'électricité. En 2021, sous l'impulsion de son PDG Ronnen Lovinger, DustPhotonics a opéré un pivot stratégique en abandonnant les émetteurs-récepteurs et câbles pour se concentrer exclusivement sur le développement de puces intégrées, ce qui lui a permis de monter significativement en valeur dans la chaîne technologique. L'enjeu dépasse largement cette seule transaction. Les câbles en cuivre qui relient les processeurs dans les grands centres de données atteignent leurs limites physiques face aux exigences croissantes des clusters d'IA : latence trop élevée, consommation énergétique excessive, bande passante insuffisante. Les goulets d'étranglement ne se situent plus uniquement dans les GPU ou la mémoire, mais dans la circulation de l'information entre les composants. La photonique sur silicium, qui intègre directement des composants optiques dans les puces, s'impose comme une réponse structurelle à ce problème. Pour Nvidia, acquérir DustPhotonics permettrait d'internaliser une technologie critique et de réduire sa dépendance à des fournisseurs externes comme Coherent, avec qui le groupe a déjà contracté des engagements de plusieurs milliards de dollars. Amazon viserait une intégration directe dans ses infrastructures cloud, tandis qu'Intel chercherait à combler son retard dans la course à l'IA. La crédibilité de DustPhotonics repose aussi sur son actionnariat. Son président, Avigdor Willenz, a déjà orchestré deux sorties majeures : la vente de Habana Labs à Intel et celle d'Annapurna Labs à AWS, deux transactions qui ont rapporté plusieurs milliards de dollars. Ce palmarès renforce la probabilité d'un nouvel exit réussi. L'entreprise n'évolue pas seule sur ce marché en effervescence, Ayar Labs et Xscape Photonics développent des approches concurrentes, mais son positionnement sur les puces intégrées à haute vitesse la distingue. La consolidation autour des interconnexions optiques s'accélère à mesure que les géants technologiques cherchent à sécuriser chaque brique critique de leur infrastructure IA, un mouvement qui devrait s'intensifier dans les prochains mois.

InfrastructureOpinion
1 source
NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch
56MarkTechPost 

NVIDIA lance AITune : un outil open source qui identifie automatiquement le backend d'inférence le plus rapide pour tout modèle PyTorch

NVIDIA a lancé AITune, un outil open source destiné à automatiser l'optimisation des modèles PyTorch pour l'inférence sur GPU. Disponible sous licence Apache 2.0 et installable via PyPI, cet outil s'adresse aux équipes qui déploient des modèles de deep learning en production et qui souhaitent éviter le travail d'ingénierie manuel habituellement requis pour choisir et configurer les backends d'optimisation. AITune prend en charge plusieurs frameworks, TensorRT, Torch-TensorRT, TorchAO et Torch Inductor, et les évalue automatiquement sur le matériel cible pour sélectionner le plus performant, sans que le développeur ait à intervenir. Il couvre une large gamme de cas d'usage : vision par ordinateur, traitement du langage naturel, reconnaissance vocale et IA générative. Le résultat de l'optimisation est sérialisé dans un fichier .ait, compilé une seule fois et rechargeable à chaque redéploiement sans temps de chauffe. L'outil répond à un problème concret qui ralentissait les équipes MLOps depuis des années : le fossé entre le modèle entraîné par un chercheur et le modèle réellement efficace en conditions de production. Jusqu'ici, comparer TensorRT, Torch-TensorRT ou TorchAO nécessitait de les configurer et tester séparément, souvent avec du code sur mesure. AITune effondre ce travail en une seule API Python. Il propose deux modes : un mode AOT (ahead-of-time), qui profile tous les backends, valide la correction des sorties et sélectionne le meilleur pour chaque sous-module du modèle ou de la pipeline, et un mode JIT (just-in-time), qui s'active via une variable d'environnement et optimise les modules à la volée sans modifier le code existant. Le mode AOT est le plus puissant : il détecte les axes dynamiques comme la longueur de séquence dans les LLMs, permet de mélanger différents backends dans une même pipeline, et met en cache les artefacts pour éviter de recompiler à chaque redéploiement. Ce lancement s'inscrit dans un effort plus large de NVIDIA pour simplifier le chemin entre la recherche et la production à mesure que la pression sur les coûts d'inférence s'intensifie. Avec la multiplication des modèles déployés à grande échelle, notamment des LLMs et des modèles de vision, le choix du backend d'optimisation est devenu un levier critique de rentabilité. TensorRT existe depuis plus d'une décennie, mais son intégration dans des pipelines PyTorch complexes restait laborieuse. En proposant une abstraction unifiée et automatisée, NVIDIA positionne AITune comme un outil de référence pour les équipes d'ingénierie ML, potentiellement en concurrence directe avec des solutions propriétaires ou des pipelines maison. La disponibilité en open source sous Apache 2.0 devrait favoriser une adoption rapide, notamment dans les entreprises qui cherchent à optimiser leurs coûts GPU sans investir dans des équipes spécialisées en compilation de modèles.

UELes équipes MLOps européennes peuvent adopter immédiatement cet outil open source via PyPI pour réduire leurs coûts d'inférence GPU en production, sans dépendance à des solutions propriétaires.

OutilsOutil
1 source
Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV
57MarkTechPost 

Guide de code complet sur NVIDIA KVPress : inférence LLM à contexte long et compression du cache KV

NVIDIA a publié KVPress, une bibliothèque open source conçue pour compresser le cache clé-valeur (KV cache) des grands modèles de langage et réduire drastiquement leur consommation mémoire lors des inférences sur de longs contextes. Un tutoriel complet publié récemment par des ingénieurs en IA illustre son fonctionnement concret à travers une implémentation pas-à-pas exécutable sur Google Colab. L'exemple s'appuie sur le modèle Qwen2.5-1.5B-Instruct de Qwen, chargé en quantification 4 bits via la bibliothèque BitsAndBytes, et fait appel à la version 0.4.0 de KVPress. Deux stratégies de compression sont comparées : ExpectedAttentionPress, qui estime l'importance des tokens en fonction de l'attention attendue, et KnormPress, qui s'appuie sur la norme des vecteurs K pour éliminer les entrées peu pertinentes. Le pipeline génère un corpus synthétique long, pose des questions ciblées sur ce corpus, puis mesure les écarts de performance et d'empreinte mémoire entre la génération standard et les différentes configurations compressées. L'enjeu est considérable pour l'industrie du traitement du langage naturel. Le KV cache est le principal goulot d'étranglement mémoire lors de l'inférence sur de longs contextes : chaque token généré alimente un cache qui grossit linéairement, rendant les fenêtres de 32 000, 128 000 voire un million de tokens extrêmement coûteuses en VRAM. KVPress permet de ne conserver dans ce cache que les entrées jugées les plus informatives, en supprimant dynamiquement les tokens à faible contribution. Pour les développeurs déployant des applications d'analyse de documents, de recherche d'information ou d'agents conversationnels à mémoire longue, cette compression peut rendre viables des scénarios qui nécessiteraient sinon du matériel de classe A100 ou H100. La possibilité de faire tourner ces expériences sur Colab, avec une simple GPU grand public, illustre bien la baisse de barrière à l'entrée que KVPress ambitionne d'offrir. La gestion du KV cache est devenue l'un des fronts les plus actifs de la recherche en inférence LLM depuis que les fenêtres contextuelles ont explosé en 2023-2024. Des techniques comme Sliding Window Attention, PagedAttention (à la base de vLLM) ou les approches de quantification du cache ont émergé pour répondre à cette pression. NVIDIA, en proposant KVPress comme couche d'abstraction modulaire compatible avec le pipeline Hugging Face Transformers, cherche à standardiser l'accès à ces optimisations pour un public plus large que les seules équipes d'infrastructure. La prochaine étape naturelle sera d'évaluer ces stratégies sur des modèles de plus grande taille et sur des benchmarks de rétention d'information à longue portée, pour quantifier précisément le compromis entre taux de compression et fidélité des réponses dans des cas d'usage de production.

OutilsTuto
1 source
Guide pratique : utiliser le Transformer Engine NVIDIA avec précision mixte, vérifications FP8 et exécution de secours
58MarkTechPost 

Guide pratique : utiliser le Transformer Engine NVIDIA avec précision mixte, vérifications FP8 et exécution de secours

Le Transformer Engine de NVIDIA s'impose progressivement comme un outil de référence pour accélérer l'entraînement des modèles de deep learning en entreprise. Un tutoriel technique publié récemment propose une implémentation complète en Python, couvrant l'installation des composants, la vérification de la compatibilité GPU et CUDA, ainsi que la comparaison directe entre un pipeline PyTorch standard et un pipeline optimisé via le Transformer Engine. La démonstration construit deux réseaux neuronaux (enseignant et élève), les entraîne en parallèle, mesure leurs performances respectives en termes de vitesse d'exécution et de consommation mémoire, et produit des visualisations comparatives. Le tutoriel prend soin de gérer les échecs d'installation silencieusement, de manière à ce que le notebook reste exécutable même lorsque l'extension native ne peut pas être compilée, via un mode de repli automatique. Ce type d'outillage répond à un besoin concret des équipes d'IA cherchant à réduire les coûts d'entraînement sans changer d'architecture. Le Transformer Engine exploite la précision FP8 (8 bits flottants), disponible sur les GPU NVIDIA à partir de l'architecture Hopper (H100), pour effectuer les calculs matriciels les plus lourds avec une empreinte mémoire réduite et un débit augmenté, tout en maintenant la précision finale du modèle grâce à la gestion automatique des facteurs d'échelle. En pratique, cela peut se traduire par des gains de vitesse significatifs sur les passes avant et arrière des transformers, réduisant directement le temps et le coût des runs d'entraînement à grande échelle. L'approche intéresse aussi bien les laboratoires de recherche que les équipes MLOps en production. NVIDIA a développé le Transformer Engine en réponse à la montée en puissance des modèles de langage et de vision nécessitant des milliards de paramètres, pour lesquels la précision FP32 ou même FP16 devient un goulot d'étranglement. Introduit officiellement avec les GPU H100 et le framework TransformerEngine open source, il s'intègre à PyTorch et JAX via des couches drop-in comme te.Linear et te.TransformerLayer. La complexité d'installation, notamment la nécessité d'un compilateur NVCC et des headers cuDNN présents sur la machine, freine encore son adoption hors des environnements cloud spécialisés. Le tutoriel aborde précisément ce point de friction en proposant une détection automatique de l'environnement et un fallback propre, ce qui devrait abaisser la barrière d'entrée pour les équipes souhaitant expérimenter avant de migrer leurs pipelines de production vers cette technologie.

InfrastructureTuto
1 source
Guide pas à pas : pipeline d'optimisation de modèles avec NVIDIA Model Optimizer, élagage FastNAS et affinage
59MarkTechPost 

Guide pas à pas : pipeline d'optimisation de modèles avec NVIDIA Model Optimizer, élagage FastNAS et affinage

NVIDIA a publié un tutoriel complet détaillant comment construire un pipeline d'optimisation de bout en bout à l'aide de son outil NVIDIA Model Optimizer, combinant entraînement, élagage (pruning) et ajustement fin (fine-tuning) d'un réseau de neurones profond, le tout dans Google Colab sans infrastructure dédiée. Le pipeline repose sur l'architecture ResNet appliquée au jeu de données CIFAR-10, et utilise la technique FastNAS pour réduire la complexité computationnelle du modèle sous une contrainte de 60 millions de FLOPs (opérations en virgule flottante). Concrètement, le modèle est d'abord entraîné sur 12 000 exemples pendant 20 époques pour établir une référence, puis soumis à l'élagage structurel FastNAS qui supprime systématiquement les couches et filtres les moins utiles, avant une phase de fine-tuning de 12 époques pour récupérer la précision perdue. Cette approche répond à un besoin pressant dans l'industrie : déployer des modèles d'IA performants sur des matériels contraints, comme les appareils embarqués, les téléphones mobiles ou les serveurs à faible consommation. En réduisant le nombre de FLOPs sans sacrifier significativement la précision, FastNAS permet de rendre un modèle jusqu'à plusieurs fois plus léger et plus rapide à l'inférence. Pour les équipes ML en entreprise, cela se traduit par des coûts de déploiement réduits, une latence moindre et une empreinte énergétique plus faible. Le fait que l'ensemble du pipeline soit reproductible dans Colab, avec gestion des seeds et des sous-ensembles de données, le rend accessible à des équipes sans cluster GPU dédié. NVIDIA développe Model Optimizer dans le cadre de sa stratégie plus large pour contrôler toute la chaîne de valeur de l'IA, de l'entraînement jusqu'au déploiement sur ses propres puces. FastNAS s'inscrit dans une famille de techniques de compression de modèles qui inclut également la quantification et la distillation, toutes intégrées dans l'écosystème NVIDIA TensorRT. Face à la montée en puissance des outils open source comme la bibliothèque PEFT de Hugging Face ou les approches de pruning de PyTorch, NVIDIA positionne Model Optimizer comme une solution intégrée et orientée production. La prochaine étape logique de ce pipeline serait la conversion du modèle élaguévers le format ONNX ou TensorRT pour un déploiement sur GPU NVIDIA, bouclant ainsi la boucle entre recherche et mise en production industrielle.

OutilsTuto
1 source
Nvidia bat des records MLPerf avec 288 GPU pendant qu'AMD et Intel se concentrent sur d'autres fronts
60The Decoder 

Nvidia bat des records MLPerf avec 288 GPU pendant qu'AMD et Intel se concentrent sur d'autres fronts

Nvidia a établi de nouveaux records lors du dernier cycle de MLPerf Inference, le benchmark de référence de l'industrie pour mesurer les performances des systèmes d'inférence IA. L'entreprise a mobilisé jusqu'à 288 GPU pour atteindre ces résultats, se positionnant en tête des classements généraux. Cette édition marque une première : l'introduction de modèles multimodaux et vidéo dans les catégories évaluées, élargissant ainsi le périmètre d'un benchmark jusqu'ici centré sur les modèles texte et image. AMD et Intel ont également participé à ce cycle, mais en mettant en avant des métriques différentes de celles privilégiées par Nvidia, ce qui rend les comparaisons directes particulièrement difficiles. Chaque acteur choisit les indicateurs qui valorisent le mieux ses propres architectures matérielles, une stratégie qui brouille la lecture des résultats pour les entreprises cherchant à choisir leur infrastructure d'inférence. Pour les équipes IA en production, cette divergence méthodologique complique les décisions d'achat et soulève des questions sur la neutralité du benchmark lui-même. MLPerf, géré par MLCommons, est devenu l'étalon industriel incontournable pour comparer les performances des puces et systèmes IA en conditions réelles d'inférence. L'ajout de modèles multimodaux et vidéo reflète l'évolution rapide des cas d'usage en entreprise, où les assistants IA traitent désormais images, vidéos et texte simultanément. La domination persistante de Nvidia sur ces classements renforce sa position sur le marché des infrastructures IA, tandis qu'AMD et Intel cherchent à se différencier sur des segments où leurs architectures offrent un meilleur rapport performance-coût.

UELes équipes IA européennes en charge d'achats d'infrastructure d'inférence doivent composer avec des benchmarks MLPerf dont la lecture est brouillée par des métriques divergentes entre Nvidia, AMD et Intel, rendant les comparaisons objectives difficiles.

InfrastructureActu
1 source
La Corée du Sud investit dans la startup locale qui défie Nvidia avec ses puces IA
61Le Big Data 

La Corée du Sud investit dans la startup locale qui défie Nvidia avec ses puces IA

Le gouvernement sud-coréen a annoncé mardi un investissement de 166 millions de dollars (250 milliards de wons) dans Rebellions, une startup spécialisée dans les puces d'intelligence artificielle fondée en 2020. Cet investissement, validé par la Commission des services financiers et le conseil consultatif des technologies stratégiques, est le premier déblocage concret du « Fonds national de croissance » dans le cadre du programme « K-Nvidia », co-piloté avec le ministère des Sciences et des TIC. Rebellions conçoit des unités de traitement neuronal (NPU) dédiées à l'inférence IA — la phase où les modèles répondent aux requêtes en temps réel. Son architecture, notamment la puce ATOM, se distingue par une consommation énergétique nettement inférieure aux solutions concurrentes. Fonctionnant sur un modèle « fabless », la société sous-traite la fabrication à des fonderies spécialisées. Depuis six mois, elle a levé 650 millions de dollars, portant son total à 850 millions et sa valorisation à plus de 2 milliards de dollars. Cet investissement public s'inscrit dans une stratégie de réduction de la dépendance aux infrastructures américaines, et plus précisément à Nvidia, qui domine aujourd'hui le marché des puces IA avec une emprise quasi monopolistique sur les data centers mondiaux. Cette concentration donne à un seul acteur un pouvoir considérable sur les prix, les délais de livraison et l'accès aux technologies critiques — une vulnérabilité que les États commencent à prendre très au sérieux. Rebellions cible déjà des clients cloud, des opérateurs télécoms et des gouvernements, et s'implante aux États-Unis, au Japon, au Moyen-Orient et à Taïwan, signalant des ambitions clairement internationales. Pour la Corée du Sud, soutenir ce type d'acteur, c'est aussi consolider une filière industrielle cohérente : le pays maîtrise déjà la mémoire vive avec Samsung et SK Hynix, mais reste exposé sur le segment des puces de calcul IA. La décision de Séoul intervient dans un contexte de course mondiale aux semi-conducteurs qui s'emballe. Les géants technologiques américains devraient investir collectivement entre 630 et 700 milliards de dollars en infrastructure IA cette année selon Reuters, tandis que la Chine, malgré les restrictions américaines à l'export, accélère le développement de ses propres filières. Les tensions géopolitiques entre Washington et Pékin ont transformé les semi-conducteurs en outil de pression diplomatique, rendant les chaînes d'approvisionnement imprévisibles. Dans ce contexte, le programme K-Nvidia représente le pari de Séoul de ne pas rater la fenêtre d'opportunité : construire un champion national de la puce IA avant que le marché soit structurellement verrouillé par les acteurs déjà en place.

UELa dépendance européenne aux puces Nvidia étant structurellement similaire à celle de la Corée du Sud, l'émergence de concurrents asiatiques comme Rebellions pourrait à terme diversifier les options d'approvisionnement pour les acteurs européens du cloud et de l'IA.

InfrastructureOpinion
1 source
L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique
62NVIDIA AI Blog 

L'efficacité à grande échelle : NVIDIA et les acteurs de l'énergie accélèrent les centres d'IA flexibles pour renforcer le réseau électrique

NVIDIA et la startup Emerald AI ont présenté lors du CERAWeek — le sommet mondial de l'énergie surnommé le « Davos de l'énergie » — une architecture inédite qui transforme les usines à IA en actifs flexibles pour le réseau électrique. Construite sur la plateforme NVIDIA Vera Rubin DSX et le logiciel Conductor d'Emerald AI, cette approche intègre calcul, gestion de l'énergie et pilotage en temps réel dans une architecture unifiée. Concrètement, une usine à IA peut désormais moduler sa consommation électrique en fonction des conditions du réseau, tout en continuant à produire des tokens. Six grands acteurs de l'énergie — AES, Constellation, Invenergy, NextEra Energy, Nscale Energy & Power et Vistra — se sont engagés à construire des capacités de production compatibles avec cette architecture, notamment via des projets hybrides combinant alimentation locale et connexion au réseau. Du côté de l'efficacité pure, NVIDIA revendique une progression d'un million de fois le nombre de tokens générés pour un même budget énergétique, entre le GPU Kepler de 2012 et la plateforme Vera Rubin lancée cette année. La métrique clé est désormais le « tokens par seconde par watt ». Cet enjeu dépasse la simple optimisation technique : la croissance explosive des infrastructures IA menace de déstabiliser des réseaux électriques déjà sous tension. En rendant les centres de calcul capables de s'adapter en temps réel à l'offre disponible — en réduisant leur consommation lors des pics de demande, par exemple — cette approche évite de dimensionner le réseau pour des pointes qui ne surviennent que rarement. Pour les opérateurs d'énergie, cela représente une nouvelle classe de clients industriels qui, au lieu de fragiliser le réseau, peuvent contribuer à sa stabilité. Pour les entreprises qui déploient l'IA à grande échelle, l'avantage est double : des coûts opérationnels réduits et un accès accéléré à la puissance électrique, souvent le principal goulot d'étranglement dans la construction de nouveaux data centers. Jensen Huang, fondateur et PDG de NVIDIA, décrit l'infrastructure IA comme un « gâteau à cinq couches » — énergie, puces, infrastructure, modèles, applications — dans lequel l'énergie constitue la base fondatrice. C'est dans cette logique que s'inscrit également l'annonce de Maximo, une entreprise de robotique solaire incubée par AES, qui a achevé l'installation autonome d'une ferme solaire de 100 mégawatts sur le site Bellefield d'AES, en utilisant NVIDIA Omniverse et Isaac Sim. TerraPower, en partenariat avec SoftServe, a de son côté présenté une plateforme de jumeau numérique propulsée par Omniverse pour accélérer la conception de réacteurs nucléaires. Ces annonces illustrent une tendance de fond : l'IA ne se contente plus de consommer de l'énergie, elle commence à en accélérer la production.

UENscale, opérateur européen de data centers, figure parmi les six partenaires engagés dans cette architecture, ce qui pourrait influencer la stratégie énergétique des centres de calcul IA en Europe.

InfrastructureActu
1 source
NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle
63MarkTechPost 

NVIDIA AI présente ProRL Agent : une infrastructure d'apprentissage par renforcement pour agents LLM à grande échelle

NVIDIA a présenté ProRL Agent, une infrastructure open source conçue pour entraîner des agents LLM multi-tours par apprentissage par renforcement (RL) à grande échelle. Publiée via un article de recherche (arXiv:2603.18815), cette solution adopte une philosophie « Rollout-as-a-Service » : le service de rollout fonctionne comme un serveur HTTP autonome, totalement découplé de la boucle d'entraînement. Le système s'appuie sur un pipeline asynchrone en trois étapes — initialisation des environnements sandbox, exécution des trajectoires d'agent, évaluation des résultats — chaque étape disposant de son propre pool de workers pour maximiser le débit. Pour la compatibilité avec les clusters HPC sous Slurm, ProRL Agent utilise Singularity plutôt que Docker, permettant une exécution sans droits root. Des optimisations de bas niveau réduisent drastiquement la latence des outils : remplacement de tmux par un terminal pseudo-TTY direct (latence bash réduite de 0,78 s à 0,42 s), connexion directe aux kernels IPython via API in-process, et remplacement du TCP par des sockets Unix pour la communication interne aux conteneurs. Le problème que résout cette architecture est fondamental pour quiconque entraîne des agents LLM modernes : les tâches multi-tours impliquent des interactions répétées avec des environnements externes (dépôts de code, systèmes d'exploitation, outils) qui sont intensives en I/O, tandis que la mise à jour du modèle est intensive en GPU. Les frameworks existants — SkyRL, VeRL-Tool, Agent Lightning, rLLM, GEM — fusionnent ces deux phases dans un même processus, créant des conflits de ressources qui dégradent l'efficacité matérielle et compliquent la maintenance. ProRL Agent élimine ces interférences en rendant le trainer entièrement agnostique à l'infrastructure de rollout, et introduit en prime un mécanisme de réutilisation du cache de préfixes via un load balancer min-heap sur les backends vLLM, accélérant l'inférence sur les longues séquences multi-tours. Autre innovation notable : la communication en token IDs de bout en bout, qui évite les dérives de re-tokenisation entre rollout et training — une source de bugs silencieux dans les pipelines RL existants. Ce travail s'inscrit dans une course industrielle intense pour rendre l'entraînement RL des agents LLM praticable à l'échelle. Depuis les succès de DeepSeek-R1 et des modèles de raisonnement d'OpenAI, le RL appliqué aux LLM est devenu un axe stratégique majeur, mais les infrastructures peinent à suivre la complexité des tâches agentiques longues. NVIDIA, avec ses GPU dominants dans les data centers, a un intérêt direct à proposer des solutions qui maximisent l'utilisation de son matériel. ProRL Agent inclut également une implémentation optimisée de DAPO (Dynamic Advantage Policy Optimization), un algorithme récent qui améliore la stabilité de l'entraînement. La prochaine étape sera de voir si cette infrastructure est adoptée par la communauté de recherche ou si elle reste un outil interne à NVIDIA pour ses propres expérimentations sur les agents autonomes.

RecherchePaper
1 source
Après le trafic de puces IA vers la Chine, Nvidia est à nouveau sous pression
6401net 

Après le trafic de puces IA vers la Chine, Nvidia est à nouveau sous pression

Deux sénateurs américains, Jim Banks (républicain) et Elizabeth Warren (démocrate), ont adressé une demande conjointe à Nvidia pour exiger la suspension immédiate des ventes de puces d'intelligence artificielle avancées vers la Chine et plusieurs pays d'Asie du Sud-Est utilisés comme intermédiaires. Cette prise de position intervient dans le sillage de l'arrestation de trois individus soupçonnés d'avoir organisé un trafic illégal de semi-conducteurs, une affaire qui a remis en lumière les failles dans le contrôle des exportations américaines de composants stratégiques. L'enjeu est de taille : les puces Nvidia — notamment les séries H100 et A100 — sont au cœur de la course mondiale à l'IA, et leur transfert vers des entités chinoises représente un risque géopolitique et militaire direct pour Washington. En passant par des pays tiers comme Singapour, la Malaisie ou les Émirats arabes unis, certains acteurs contournent les restrictions d'exportation imposées depuis 2022. Si Nvidia n'est pas accusée de complicité directe, les sénateurs estiment que l'entreprise doit renforcer ses mécanismes de vérification des acheteurs finaux. Cette pression s'inscrit dans un contexte de durcissement progressif de la politique américaine sur les exportations technologiques vers la Chine, accéléré sous les administrations Biden puis Trump. Nvidia, qui réalisait encore plusieurs milliards de dollars de chiffre d'affaires annuel en Chine avant les premières restrictions, navigue entre obligations réglementaires et intérêts commerciaux. L'affaire illustre la difficulté structurelle à contrôler des chaînes d'approvisionnement mondiales complexes, et pourrait déboucher sur des règles d'exportation encore plus strictes.

UEUn durcissement des contrôles d'exportation américains sur les semi-conducteurs avancés pourrait restreindre l'accès des acteurs européens aux composants stratégiques nécessaires au développement de l'IA.

RégulationReglementation
1 source
« L’AGI est déjà là » : la phrase choc de NVIDIA qui fait l’effet d’un séisme
65Le Big Data 

« L’AGI est déjà là » : la phrase choc de NVIDIA qui fait l’effet d’un séisme

Lors d'un entretien avec Lex Fridman, Jensen Huang (PDG de Nvidia) a déclaré que « l'AGI est déjà là », en adoptant une définition purement économique : une IA capable de générer un milliard de dollars de valeur de manière autonome (influenceur virtuel viral, application à 50 centimes touchant des milliards d'utilisateurs). Cette vision ultra-capitaliste rompt avec le consensus scientifique — Yann LeCun (Meta) rappelle que les modèles actuels n'atteignent pas même l'intelligence d'un chat — mais Huang contourne le débat philosophique pour imposer un critère de performance économique comme nouvelle définition de l'AGI.

LLMsOpinion
1 source
« Je pense qu’on a atteint l’intelligence artificielle générale » : le patron de Nvidia surprend tout le monde avec cette phrase
66Numerama 

« Je pense qu’on a atteint l’intelligence artificielle générale » : le patron de Nvidia surprend tout le monde avec cette phrase

Jensen Huang, patron de Nvidia, a déclaré lors du podcast de Lex Fridman que l'intelligence artificielle générale (AGI) serait déjà atteinte selon lui. Cette affirmation divise, car tout dépend de la définition retenue pour l'AGI, considérée par beaucoup comme la forme ultime de l'IA générative.

UELa définition retenue pour l'AGI alimentera les débats réglementaires européens, notamment l'interprétation de l'AI Act et la classification des systèmes d'IA à haut risque.

LLMsOpinion
1 source
NVIDIA fait don d'un pilote d'allocation dynamique de ressources GPU à la communauté Kubernetes pour faire avancer l'IA open source
67NVIDIA AI Blog 

NVIDIA fait don d'un pilote d'allocation dynamique de ressources GPU à la communauté Kubernetes pour faire avancer l'IA open source

NVIDIA a annoncé lors du KubeCon Europe à Amsterdam le don de son pilote Dynamic Resource Allocation (DRA) pour GPU à la Cloud Native Computing Foundation (CNCF), transférant ainsi la gouvernance du logiciel à la communauté Kubernetes. Ce pilote permet un partage intelligent des ressources GPU, supporte les technologies Multi-Instance GPU et Multi-Node NVLink, et facilite l'entraînement de modèles massifs sur les systèmes Grace Blackwell. NVIDIA introduit également le support GPU pour Kata Containers en collaboration avec la communauté CNCF Confidential Containers, renforçant l'isolation et la sécurité des charges de travail IA.

UEAnnoncé à KubeCon Europe à Amsterdam, ce don à la CNCF bénéficie directement aux équipes cloud européennes qui déploient des charges de travail IA sur Kubernetes avec des GPU.

OutilsActu
1 source
Nvidia : Jensen Huang déclare avoir atteint l'AGI
68The Verge AI 

Nvidia : Jensen Huang déclare avoir atteint l'AGI

Le PDG de Nvidia, Jensen Huang, a déclaré sur le podcast de Lex Fridman : "Je pense que nous avons atteint l'AGI." Cette affirmation relance le débat autour de l'intelligence artificielle générale (AGI), un terme désignant une IA égale ou supérieure à l'intelligence humaine. Alors que certains dirigeants tech tentent de remplacer ce terme jugé trop vague, Huang l'utilise ouvertement, soulignant que les systèmes actuels réussissent des tests qui, il y a cinq ans, auraient été considérés comme la définition même de l'AGI.

LLMsActu
1 source
Comment les agents IA autonomes deviennent sécurisés par conception grâce à NVIDIA OpenShell
69NVIDIA AI Blog 

Comment les agents IA autonomes deviennent sécurisés par conception grâce à NVIDIA OpenShell

NVIDIA lance OpenShell, un runtime open source intégré à l'NVIDIA Agent Toolkit, conçu pour exécuter des agents autonomes dans des sandboxes isolées avec des politiques de sécurité appliquées au niveau système — hors de portée des agents eux-mêmes. Cette architecture empêche les agents de contourner les contraintes, de fuiter des identifiants ou des données sensibles, même en cas de compromission. NVIDIA collabore avec Cisco, CrowdStrike, Google Cloud, Microsoft Security et TrendAI pour aligner la gestion des politiques runtime à l'échelle des entreprises, tandis que NemoClaw fournit une stack de référence open source combinant OpenShell et les modèles Nemotron pour déployer des assistants IA personnels auto-évolutifs.

OutilsActu
1 source
L'NVIDIA RTX PRO 6000 Blackwell Workstation Edition transforme la data science
70IEEE Spectrum AI 

L'NVIDIA RTX PRO 6000 Blackwell Workstation Edition transforme la data science

La NVIDIA RTX PRO 6000 Blackwell Workstation Edition, commercialisée par PNY Technologies, est présentée comme la GPU de bureau la plus puissante jamais construite, conçue pour répondre aux besoins croissants des data scientists face à des volumes de données massifs. Elle supporte jusqu'à quatre GPU en configuration multi-carte pour atteindre des performances équivalentes aux data centers, avec une intégration native dans l'écosystème logiciel NVIDIA (CUDA-X, plus de 100 applications IA). En maintenant les données en local plutôt que dans le cloud, elle offre également un avantage en matière de sécurité et de maîtrise des coûts pour les entreprises.

OutilsActu
1 source
DLSS 5 : date de sortie, cartes compatibles, rendu neuronal… Tout savoir sur la technologie de Nvidia
71Frandroid 

DLSS 5 : date de sortie, cartes compatibles, rendu neuronal… Tout savoir sur la technologie de Nvidia

Nvidia a dévoilé le DLSS 5 lors de la conférence GTC, une nouvelle itération de sa technologie d'upscaling basée sur le rendu neuronal. La présentation répond aux nombreuses critiques récentes entourant cette technologie, en détaillant les cartes graphiques compatibles et la date de sortie prévue.

OutilsOutil
1 source
Ce qui s'est passé au GTC de Nvidia : NemoClaw, le robot Olaf et un pari à 1 000 milliards de dollars
72TechCrunch AI 

Ce qui s'est passé au GTC de Nvidia : NemoClaw, le robot Olaf et un pari à 1 000 milliards de dollars

Jensen Huang a présenté lors de la conférence GTC de Nvidia un discours de deux heures et demie, projetant 1 000 milliards de dollars de ventes de puces IA d'ici 2027. Il a affirmé que toutes les entreprises ont besoin d'une "stratégie OpenClaw" et a conclu avec une démonstration du robot Olaf, dont le micro a dû être coupé. Le message central était clair : Nvidia se positionne comme le pilier incontournable de l'infrastructure IA mondiale.

UELes entreprises européennes dépendantes des puces Nvidia pour leur infrastructure IA devront intégrer la stratégie 'OpenClaw' dans leur feuille de route technologique.

BusinessActu
1 source
Le directeur de la robotique de Nvidia : les agents IA vont provoquer un moment ChatGPT pour la robotique
73The Information AI 

Le directeur de la robotique de Nvidia : les agents IA vont provoquer un moment ChatGPT pour la robotique

Deepu Talla, vice-président de la robotique chez Nvidia, affirme que les agents IA représenteront pour la robotique ce que ChatGPT a été pour l'IA grand public. Un seul agent pourrait coordonner toute une flotte de robots, décomposant un objectif en tâches spécifiques assignées à chaque robot. Nvidia mise sur l'extension de ses systèmes d'IA agentique, d'abord conçus pour le numérique, vers des modèles physiques présentés lors de la conférence GTC à San José.

RobotiqueActu
1 source
Exécutez NVIDIA Nemotron 3 Super sur Amazon Bedrock
74AWS ML Blog 

Exécutez NVIDIA Nemotron 3 Super sur Amazon Bedrock

NVIDIA Nemotron 3 Super est désormais disponible sur Amazon Bedrock en tant que modèle entièrement géré et serverless. Ce modèle hybride Mixture of Experts (MoE) de 120 milliards de paramètres (12B actifs) offre jusqu'à 5x plus d'efficacité de calcul et 2x plus de précision que sa version précédente, avec un contexte allant jusqu'à 256K tokens. Conçu pour les applications multi-agents et les systèmes IA agentiques, il excelle sur des benchmarks clés comme AIME 2025, SWE Bench et RULER, tout en supportant sept langues dont le français.

UELe modèle inclut le français parmi ses sept langues supportées, ce qui peut intéresser les développeurs européens, mais l'impact direct sur la France/UE reste limité.

LLMsActu
1 source
Nvidia DLSS : avantages, fonctionnement, performances… Quand l’IA vient au secours de vos jeux
75Frandroid 

Nvidia DLSS : avantages, fonctionnement, performances… Quand l’IA vient au secours de vos jeux

Le DLSS (Deep Learning Super Sampling) de Nvidia est une technologie d'upscaling basée sur l'IA qui améliore significativement les performances dans les jeux vidéo. L'article explique son fonctionnement, ses réglages et le compare aux solutions concurrentes d'AMD et d'Intel. Il s'adresse aux joueurs souhaitant optimiser leur expérience graphique grâce à l'intelligence artificielle.

OutilsOutil
1 source
IA : NVIDIA et Oracle franchissent un cap décisif dans la vitesse de traitement des données
76ZDNET FR 

IA : NVIDIA et Oracle franchissent un cap décisif dans la vitesse de traitement des données

NVIDIA et Oracle ont annoncé une avancée majeure dans le traitement des données IA, basée sur une technologie d'indexation vectorielle accélérée par GPU. Cette solution vise à lever les obstacles liés à l'exploitation massive de données non structurées et multimodales.

UELes entreprises européennes utilisant Oracle Cloud ou des GPU NVIDIA pour leurs pipelines de données IA pourraient bénéficier de gains de performance significatifs sur le traitement de données non structurées.

OutilsActu
1 source
L'atelier Build-A-Claw de Nvidia
77The Information AI 

L'atelier Build-A-Claw de Nvidia

Lors de la conférence GTC de Nvidia, l'attraction phare était le stand "Build-A-Claw", où les participants pouvaient tester NemoClaw, un logiciel open-source pour créer des agents IA basé sur OpenClaw. NemoClaw introduit des contrôles de confidentialité et de sécurité qui faisaient défaut à OpenClaw, permettant aux utilisateurs de restreindre les fichiers accessibles et les actions réalisables par un agent. Ces nouvelles garanties visent particulièrement les entreprises soucieuses des risques de sécurité liés aux agents IA.

OutilsOutil
1 source
Space-1 Vera Rubin : pourquoi Nvidia déploie ses GPU dans l’espace (et comment ils y survivent)
78Frandroid 

Space-1 Vera Rubin : pourquoi Nvidia déploie ses GPU dans l’espace (et comment ils y survivent)

Nvidia déploie ses GPU dans l'espace avec le projet Space-1, basé sur l'architecture Vera Rubin, offrant jusqu'à 50 pétaflops de puissance de calcul. Ces puces ont été spécialement durcies pour fonctionner en orbite sans air ni refroidissement classique. L'objectif est de transformer les satellites en mini centres de données IA directement en orbite, réduisant la latence liée aux allers-retours avec le sol.

InfrastructureOpinion
1 source
NemoClaw : NVIDIA veut sécuriser OpenClaw, la plateforme d’agents IA qui a conquis la tech
79Blog du Modérateur 

NemoClaw : NVIDIA veut sécuriser OpenClaw, la plateforme d’agents IA qui a conquis la tech

OpenClaw, plateforme de déploiement d'agents IA autonomes en local, a connu une adoption massive début 2026. NVIDIA riposte avec NemoClaw, une solution dédiée à sécuriser cet écosystème. L'initiative vise à encadrer les risques liés à la prolifération d'assistants IA autonomes sur les machines personnelles.

UELes organisations européennes déployant des agents IA en local — notamment pour des raisons de conformité RGPD — sont directement concernées par les risques de sécurité que NemoClaw prétend adresser.

OutilsActu
1 source
NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes
80MarkTechPost 

NVIDIA AI publie 'OpenShell' en open source : un environnement d'exécution sécurisé pour les agents IA autonomes

NVIDIA a mis en open source OpenShell, un environnement d'exécution sécurisé conçu pour les agents IA autonomes, publié sous licence Apache 2.0. Il offre un sandboxing au niveau noyau, un moteur de politiques granulaires (contrôle par binaire, endpoint et méthode API) avec journalisation complète, ainsi qu'un routage d'inférence privé pour éviter les fuites de données. OpenShell est agnostique aux frameworks — compatible avec Claude Code, Codex, LangChain et autres — et s'intègre comme une couche de sécurité sans réécriture du code agent.

UEOpenShell peut être adopté par les développeurs et entreprises européens pour sécuriser leurs agents IA autonomes, en répondant aux exigences de traçabilité et de contrôle imposées par l'AI Act européen.

OutilsOutil
1 source
Nvidia reprend la fabrication pour les ventes du H200 en Chine, selon son PDG
81The Information AI 

Nvidia reprend la fabrication pour les ventes du H200 en Chine, selon son PDG

Nvidia relance la production de ses puces H200 destinées au marché chinois, selon son PDG Jensen Huang. L'entreprise a déjà reçu des commandes de clients chinois, ce qui implique un feu vert du gouvernement chinois pour ces achats.

UELa reprise des exportations de puces Nvidia vers la Chine pourrait réduire la pression sur l'approvisionnement mondial en GPU, bénéficiant indirectement aux entreprises européennes du secteur IA.

BusinessActu
1 source
Le PDG de Nvidia : le risque d'investissement dans les néoclouds est « extrêmement faible »
82The Information AI 

Le PDG de Nvidia : le risque d'investissement dans les néoclouds est « extrêmement faible »

Jensen Huang affirme que les grands fournisseurs cloud traditionnels ne pourront pas satisfaire la demande croissante des développeurs d'IA, poussant Nvidia à investir des milliards dans des fournisseurs cloud émergents ("neoclouds") qui achètent et louent des puces Nvidia. Selon lui, le risque d'investissement dans ces acteurs est "extrêmement faible", car leur succès est quasiment garanti par la demande structurelle du marché de l'IA.

UELes fournisseurs cloud européens pourraient bénéficier d'une opportunité de positionnement face aux hyperscalers américains, mais restent dépendants des puces Nvidia pour toute stratégie IA.

BusinessActu
1 source
GeForce RTX : avec DLSS 5 et son rendu photoréaliste, l’IA de NVIDIA va-t-elle trop loin ?
83Next INpact 

GeForce RTX : avec DLSS 5 et son rendu photoréaliste, l’IA de NVIDIA va-t-elle trop loin ?

NVIDIA annonce DLSS 4.5 avec le Dynamic Multi Frame Generation et un mode 6x (disponible le 31 mars pour les RTX série 50), permettant d'atteindre 240 fps à partir de seulement 40 fps GPU réels. DLSS 5, prévu pour l'automne 2026, promet un rendu photoréaliste dans les jeux, mais suscite une réception mitigée, certains l'accusant d'« AI Slop ». Côté matériel, NVIDIA concentre ses annonces GTC sur les datacenters avec l'architecture Vera Rubin, sans nouvelles GeForce RTX grand public.

OutilsOutil
1 source
Nvidia craque pour OpenClaw
84Ben's Bites 

Nvidia craque pour OpenClaw

Nvidia prévoit de générer plus de 1 000 milliards de dollars de ventes via ses puces IA phares d'ici fin 2027, et a lancé NemoClaw, une stack open source ajoutant des contrôles de confidentialité et sécurité à OpenClaw. OpenAI annonce que Codex dépasse 2 millions d'utilisateurs actifs hebdomadaires et que l'usage de son API a augmenté de 20 % depuis la sortie de GPT-5.4, tandis que Manus (récemment acquis par Meta) a lancé une application desktop concurrente mais avec des résultats décevants lors des tests. La fenêtre de contexte d'un million de tokens de Claude est désormais disponible en général.

UELe lancement de NemoClaw avec contrôles de confidentialité et sécurité pourrait faciliter l'adoption des outils Nvidia dans les entreprises européennes soumises au RGPD.

LLMsActu
1 source
OpenClaw séduit massivement, Nvidia veut désormais le rendre plus sûr
85Siècle Digital 

OpenClaw séduit massivement, Nvidia veut désormais le rendre plus sûr

Nvidia, lors de la conférence GTC 2026 avec Jensen Huang, s'est positionné sur la sécurité des agents IA autonomes en s'appuyant sur OpenClaw. Face à l'essor de ces outils capables d'agir seuls sur un ordinateur, la sécurité reste un défi majeur. Nvidia entend structurer l'avenir de l'IA personnelle autour de ce framework tout en renforçant ses garanties de sûreté.

UEL'adoption d'OpenClaw comme standard pour les agents IA autonomes pourrait influencer les exigences de conformité à l'AI Act européen concernant les systèmes à haut risque.

OutilsActu
1 source
Comment NTT DATA et NVIDIA accélèrent le déploiement de l’IA en entreprise
86Le Big Data 

Comment NTT DATA et NVIDIA accélèrent le déploiement de l’IA en entreprise

NTT DATA et NVIDIA s'associent pour lancer des "usines d'IA" — des plateformes entreprise combinant les GPU NVIDIA avec les logiciels NeMo (création de systèmes multi-agents) et NIM (microservices conteneurisés) pour industrialiser le déploiement de l'IA. L'objectif est de réduire la complexité technique et le temps nécessaire pour passer d'un prototype à une solution opérationnelle, grâce à des prototypes GenAI pré-qualifiés et une gouvernance intégrée. Des cas d'usage concrets existent déjà, notamment dans le médical (analyses radiologiques pour un centre de recherche oncologique) et l'automobile (validation de charges de travail IA chez un équipementier mondial).

UENTT DATA dispose d'une présence significative en Europe, rendant cette offre d'usines IA directement accessible aux DSI européens cherchant à industrialiser leurs déploiements GenAI.

BusinessActu
1 source
Comment Nvidia NemoClaw compte sécuriser les agents OpenClaw ?
87Numerama 

Comment Nvidia NemoClaw compte sécuriser les agents OpenClaw ?

Le 16 mars 2026, Nvidia a lancé NemoClaw, une couche de sécurité et de gouvernance conçue pour s'intégrer au-dessus d'OpenClaw. L'objectif est de rassurer les entreprises sur la compatibilité entre agents IA et exigences de sécurité.

UELes entreprises européennes déployant des agents IA pourront s'appuyer sur NemoClaw pour répondre aux exigences de gouvernance imposées par l'AI Act.

OutilsActu
1 source
BYD et Geely sous perfusion Nvidia : la tech américaine gagne en Chine pour la conduite autonome de niveau 4
88Frandroid 

BYD et Geely sous perfusion Nvidia : la tech américaine gagne en Chine pour la conduite autonome de niveau 4

BYD et Geely, deux géants automobiles chinois, ont choisi les puces Nvidia pour alimenter le cerveau de leurs véhicules autonomes de niveau 4. Cette décision, révélée en marge de la GTC, illustre la domination technologique de Nvidia dans l'IA automobile, malgré les tensions de la guerre commerciale sino-américaine.

UELes constructeurs automobiles européens subissent une pression concurrentielle accrue face à BYD et Geely qui s'équipent de puces IA de pointe pour la conduite autonome de niveau 4.

InfrastructureActu
1 source
Nvidia lance le DLSS 5 : impressionnant, mais déjà sujet aux polémiques
89Numerama 

Nvidia lance le DLSS 5 : impressionnant, mais déjà sujet aux polémiques

Nvidia a dévoilé le DLSS 5, la nouvelle génération de sa technologie d'upscaling par IA. Bien que visuellement impressionnant, il suscite déjà des controverses en raison d'un rendu qui peut altérer l'image originale, notamment au niveau des visages.

OutilsOutil
1 source
Derrière le trillion de dollars attendu pour 2027, NVIDIA étend son emprise sur l’infrastructure de l’IA
90FrenchWeb 

Derrière le trillion de dollars attendu pour 2027, NVIDIA étend son emprise sur l’infrastructure de l’IA

NVIDIA, prévoyant un marché de plus d'un billion de dollars d'ici 2027, élargit son influence dans l'infrastructure de l'IA. Le groupe s'est déplacé au-delà d'un simple fournisseur de puissance de calcul pour concevoir l'architecture complète de cette puissance.

UEL'expansion de NVIDIA sur l'infrastructure IA mondiale renforce la dépendance européenne vis-à-vis des fournisseurs américains de puces, un enjeu stratégique pour la souveraineté numérique de l'UE.

BusinessOpinion
1 source
Avec DLSS 5, l’IA de Nvidia fabrique désormais les images des jeux vidéo
9101net 

Avec DLSS 5, l’IA de Nvidia fabrique désormais les images des jeux vidéo

Avec DLSS 5, Nvidia introduit une avancée majeure dans les technologies d'upscaling pour jeux vidéo. L'IA de Nvidia passe désormais à créer directement les images de rendu graphique, au lieu de simplement les reconstruire. Cette innovation marque une étape significative dans l'amélioration des performances visuelles des jeux vidéo.

OutilsOutil
1 source
Nvidia dévoile une pile OpenClaw plus sécurisée pour les entreprises
92AI Business 

Nvidia dévoile une pile OpenClaw plus sécurisée pour les entreprises

Nvidia a dévoilé OpenClaw, une stack sécurisée destinée aux entreprises souhaitant créer des agents personnels basés sur l'IA. Cette nouvelle infrastructure est conçue pour offrir un environnement plus sûr et contrôlé pour le déploiement d'agents autonomes en contexte professionnel.

UELes entreprises européennes souhaitant déployer des agents IA en contexte professionnel disposent d'une nouvelle option d'infrastructure sécurisée.

OutilsActu
1 source
La version OpenClaw de Nvidia pourrait résoudre son plus grand problème : la sécurité
93TechCrunch AI 

La version OpenClaw de Nvidia pourrait résoudre son plus grand problème : la sécurité

Nvidia a annoncé NemoClaw, une plateforme enterprise open source pour agents IA, basée sur OpenClaw. Cette initiative vise à résoudre le principal défi de Nvidia dans ce domaine : la sécurité des systèmes d'IA agentiques.

UELes entreprises européennes déployant des agents IA pourront s'appuyer sur NemoClaw pour renforcer la sécurité de leurs systèmes, en lien avec les exigences de l'AI Act.

OutilsActu
1 source
Le PDG de Nvidia table sur 1 000 milliards de dollars de revenus en puces d'ici 2027
94The Information AI 

Le PDG de Nvidia table sur 1 000 milliards de dollars de revenus en puces d'ici 2027

Le PDG de Nvidia, Jensen Huang, prévoit 1 000 milliards de dollars de revenus cumulés grâce aux puces IA Blackwell et Rubin entre 2025 et 2027, soit une projection massive comparée aux 216 milliards de dollars enregistrés sur l'exercice clos en janvier. Cette mise à jour révise à la hausse une estimation précédente, confirmant les ambitions colossales de Nvidia dans le secteur de l'intelligence artificielle.

BusinessActu
1 source
AWS et NVIDIA renforcent leur collaboration stratégique pour accélérer le passage de l'IA du pilote à la production
95AWS ML Blog 

AWS et NVIDIA renforcent leur collaboration stratégique pour accélérer le passage de l'IA du pilote à la production

AWS et NVIDIA ont annoncé lors du GTC 2026 un partenariat élargi incluant le déploiement de plus d'un million de GPU NVIDIA (architectures Blackwell et Rubin) dans les régions cloud AWS dès 2026. AWS devient le premier grand fournisseur cloud à supporter les GPU RTX PRO 4500 Blackwell Server Edition sur Amazon EC2, couvrant des usages variés comme l'IA conversationnelle, l'analytique et le rendu vidéo. La collaboration inclut également une accélération de l'inférence LLM via NVIDIA NIXL sur AWS EFA, des performances Apache Spark 3x plus rapides avec Amazon EMR, et un support étendu des modèles NVIDIA Nemotron sur Amazon Bedrock.

UELes entreprises et développeurs européens utilisant AWS pourront accéder aux nouvelles instances GPU Blackwell pour leurs déploiements IA en production.

BusinessActu
1 source
NVIDIA DSX Air accélère le temps de génération des tokens grâce à la simulation pour les usines d'IA
96NVIDIA AI Blog 

NVIDIA DSX Air accélère le temps de génération des tokens grâce à la simulation pour les usines d'IA

NVIDIA a lancé DSX Air lors du GTC 2026 à San Jose, présenté par Jensen Huang : une plateforme SaaS de simulation d'usines IA qui crée des jumeaux numériques haute-fidélité de l'infrastructure NVIDIA (GPU, SuperNICs, DPU, switches) avant même la livraison du matériel. Des entreprises comme CoreWeave l'utilisent déjà pour valider leurs environnements en simulation, réduisant le délai de mise en service de plusieurs semaines ou mois à quelques jours voire quelques heures. La plateforme réunit l'ensemble de l'écosystème — fabricants de serveurs, orchestration, stockage, sécurité — dans un environnement de test unifié via des API ouvertes.

OutilsActu
1 source
Comment regarder le keynote de Jensen Huang à la GTC 2026 de Nvidia — et ce qu'il faut en attendre
97TechCrunch AI 

Comment regarder le keynote de Jensen Huang à la GTC 2026 de Nvidia — et ce qu'il faut en attendre

Le GTC 2026 est l'événement annuel phare de Nvidia, où Jensen Huang présentera les nouveaux produits, partenariats et la vision de l'entreprise pour l'avenir du calcul et de l'IA.

UELe marché européen des infrastructures IA sera indirectement concerné par les annonces de nouveaux produits Nvidia, qui équipent la majorité des datacenters européens.

InfrastructureActu
1 source
NTT DATA et NVIDIA déploient des usines d'IA d'entreprise à grande échelle
98AI News 

NTT DATA et NVIDIA déploient des usines d'IA d'entreprise à grande échelle

NTT DATA et NVIDIA s'associent pour proposer des "AI factories" d'entreprise — des plateformes full-stack intégrant les GPU NVIDIA, NeMo et NIM Microservices — permettant aux organisations de passer rapidement du pilote à la production à grande échelle. L'architecture couvre tout le cycle de vie de l'IA (entraînement, déploiement, gouvernance) dans des environnements cloud et edge. Parmi les premiers déploiements : un hôpital en oncologie pour l'analyse radiologique, un équipementier automobile pour réduire les temps de mise en production, et un fabricant américain utilisant la simulation accélérée pour valider une ligne de production de batteries.

UENTT DATA, présent en Europe, pourrait déployer ces plateformes d'IA industrielles auprès d'entreprises européennes dans les secteurs de la santé et de l'automobile.

OutilsActu
1 source
99MarkTechPost 

NVIDIA lance Nemotron 3 Super : un modèle open source hybride Mamba-Attention MoE de 120 milliards de paramètres offrant un débit 5 fois supérieur pour l'IA agentique

NVIDIA lance Nemotron 3 Super, un modèle open-source de 120 milliards de paramètres combinant architecture hybride Mamba-Attention et Mixture of Experts (MoE), conçu spécifiquement pour les applications multi-agents complexes. Il offre jusqu'à 7x plus de débit et une précision doublée par rapport à la génération précédente, grâce à cinq innovations clés dont la prédiction multi-tokens, une fenêtre de contexte d'un million de tokens et l'intégration de NeMo RL Gym. Ce modèle se positionne entre le Nemotron 3 Nano (30B paramètres) et l'Ultra (500B), attendu plus tard en 2026.

LLMsOutil
1 source
100MarkTechPost 

NVIDIA AI dévoile Nemotron-Terminal : un pipeline systématique d'ingénierie des données pour le passage à l'échelle des agents LLM en terminal

NVIDIA dévoile Nemotron-Terminal, un framework complet pour entraîner des agents IA autonomes en ligne de commande, incluant le pipeline Terminal-Task-Gen et le dataset Terminal-Corpus. La solution adopte une approche "coarse-to-fine" : adaptation de datasets existants (163 000 prompts mathématiques, 35 000 prompts code, 32 000 prompts SWE) combinée à une génération synthétique de tâches basée sur une taxonomie de compétences terminal couvrant 9 domaines (sécurité, data science, administration système, etc.). Ce framework vise à résoudre le manque criant de données d'entraînement pour les agents terminal, un problème qui freinait jusqu'ici des projets comme Claude Code ou Codex CLI.

OutilsPaper
1 source