Dossier Blackwell — page 2

97 articles · page 2 sur 2

Suivi de l'architecture GPU Blackwell de Nvidia : puces, performances, disponibilité et adoption pour l'entraînement et l'inférence des modèles d'IA.

51MarkTechPost LLMsActu

NVIDIA lance Nemotron 3 Embed, une collection d'embeddings ouverts dont le modèle 8B se classe premier sur RTEB

NVIDIA a publié Nemotron 3 Embed, une collection de modèles d'embedding conçue pour la recherche documentaire à grande échelle, le RAG agentique, la recherche de code et la mémoire des agents IA. La collection comprend trois modèles ouverts sous licence OpenMDW 1.1 : Nemotron-3-Embed-8B-BF16, la version privilégiant la précision maximale, Nemotron-3-Embed-1B-BF16, une version compacte au design identique, et Nemotron-3-Embed-1B-NVFP4, une variante quantifiée en 4 bits optimisée pour l'architecture Blackwell. Les trois sont des encodeurs transformer à attention bidirectionnelle, avec une longueur de séquence maximale de 32 768 tokens et une évaluation menée sur 34 langues. Les modèles s'appuient sur les bases Mistral : Ministral-3-8B-Instruct-2512 pour la version 8B, et Ministral-3-3B-Instruct-2512 pour les deux versions 1B. Sur le benchmark RTEB (Retrieval Embedding Benchmark), qui couvre 16 tâches publiques, la version 8B affiche un score NDCG@10 de 78,46, la plaçant en tête de classement au 17 juillet 2026. La version 1B atteint 72,38, tandis que sa déclinaison NVFP4 obtient 72,00, ne perdant que 0,38 point tout en conservant 99,5% de la précision du modèle de référence. Ces performances comptent parce que la qualité des embeddings détermine directement ce qu'un agent IA peut retrouver et exploiter comme information avant même de raisonner dessus. Un gain comme celui du modèle 1B, qui devance de 10,4 points l'ancienne génération llama-nemotron-embed-vl-1b-v2, permet de déployer des systèmes de recherche plus performants sur du matériel plus modeste, un enjeu direct pour les entreprises qui veulent industrialiser le RAG sans multiplier les coûts de calcul. La quasi-absence de perte de précision avec la quantification NVFP4, couplée à un débit jusqu'à deux fois supérieur au format BF16 sur les puces Blackwell selon NVIDIA, ouvre la voie à des déploiements massifs à moindre coût, un argument de poids pour les fournisseurs de cloud et les équipes qui opèrent des infrastructures d'IA agentique à grande échelle. Les gains obtenus sur les petits modèles ne viennent pas d'un entraînement réduit mais d'un pipeline de compression en plusieurs étapes. Le modèle 3B nemotron-3-embed-3b a d'abord été élagué à 2 milliards de paramètres via une recherche d'architecture neuronale (NAS) de NVIDIA ModelOpt, évaluant largeur cachée, taille des couches, nombre de têtes d'attention et profondeur sur un corpus de calibration de 50 000 exemples. Le modèle a ensuite été distillé à partir du modèle 8B, combinant perte de distance cosinus et erreur quadratique moyenne, avant de répéter l'opération pour obtenir la version 1,14 milliard de paramètres finale. Pour la variante NVFP4, la quantification a ciblé les poids et activations des couches linéaires via nvidia-modelopt v0.45.0, suivie d'une distillation adaptée à la quantification (QAD) sur 20 000 exemples pour préserver la précision sur les textes longs, calibrée avec 512 échantillons issus du jeu de données CNN/DailyMail. Les vecteurs de la version 2048 dimensions peuvent aussi être tronqués à 1024 ou 512 dimensions, un choix qui s'inscrit dans la tendance plus large des laboratoires d'IA à optimiser le coût d'inférence sans sacrifier la qualité de récupération.

Aussi sur HuggingFace Blog

52NVIDIA AI Blog

Performance par watt : la métrique clé pour l'efficacité des infrastructures d'IA

Le journal d'électricité disponible détermine désormais combien de tokens une "AI factory" peut générer, et donc son chiffre d'affaires et sa rentabilité. NVIDIA défend l'idée que la performance par watt, une métrique qui ne peut être trafiquée mais seulement gagnée par des résultats réels, devient la mesure de référence pour l'infrastructure IA. Pratiquement tous les modèles de pointe reposent aujourd'hui sur une architecture "mixture-of-experts" (MoE), ce qui exige une conception conjointe de toutes les couches matérielles et logicielles pour servir ces modèles à l'échelle d'un rack. La plateforme Blackwell NVL72 de NVIDIA constitue cette base, avant que la future plateforme Vera Rubin ne la prolonge. Sur les modèles ouverts les plus récents, les systèmes GB300 NVL72 affichent jusqu'à 25 fois plus de performance par watt que la génération Hopper sur DeepSeek V4 Pro, 20 fois sur GLM5.1, et 10 fois sur Kimi K2.6, un modèle conçu pour les tâches agentiques de longue durée, selon les données de SemiAnalysis InferenceX. NVIDIA précise que ces chiffres évoluent encore et publie des courbes de Pareto par modèle plutôt qu'un score unique, avec un outil nommé DynoSim permettant aux équipes de trouver leur point d'équilibre optimal entre latence, débit et coût avant de mobiliser la moindre heure de calcul GPU pour validation. Cette efficacité résulte d'une conception intégrée entre silicium et logiciel. Le commutateur NVLink, désormais dans sa sixième génération avec Vera Rubin, est pensé spécifiquement pour les charges de travail IA, avec des fonctions comme SHARP qui déportent des calculs directement dans le réseau plutôt que sur les GPU. La pile logicielle d'inférence, incluant Dynamo, TensorRT LLM, SGLang et vLLM, combine quantification NVFP4, service désagrégé, parallélisme d'experts à grande échelle et gestion du cache KV. Ces optimisations logicielles continuent de progresser dans le temps : sur DeepSeek V4, la performance par watt s'est améliorée jusqu'à 5 fois en un seul mois, sans changement matériel. L'enjeu dépasse la seule puce : dans les data centers IA actuels, les pertes liées au refroidissement et à l'inefficacité des racks font qu'environ 60% seulement de l'électricité tirée du réseau se transforme en calcul utile. Pour combler cet écart, NVIDIA propose DSX MaxLPS, le logiciel de gestion énergétique de sa plateforme DSX, qui répartit la puissance entre GPU et racks en temps réel et s'appuie sur le refroidissement liquide à eau tiède. L'enjeu, dans un monde où la disponibilité électrique devient la contrainte principale de l'IA, est de déterminer quelles entreprises pourront continuer à faire croître leurs capacités de calcul face à la demande croissante générée par l'IA agentique, et lesquelles se heurteront à un plafond énergétique. Cette course à l'efficacité oppose directement NVIDIA à ses concurrents sur le terrain du coût par token généré, un indicateur qui devient central dans les décisions d'investissement des opérateurs de centres de données à travers le monde.

UELes data centers européens, confrontés aux mêmes contraintes de disponibilité électrique, pourraient bénéficier de ces gains d'efficacité énergétique pour réduire coûts et empreinte carbone, mais aucune entreprise ni réglementation française ou européenne n'est directement concernée.

💬 Cette histoire de watts qui déterminent le chiffre d'affaires, c'est le vrai sujet caché derrière tout le bruit sur les GPU. NVIDIA a raison sur un point : quand 40% de l'électricité part en pertes de refroidissement avant même d'atteindre le calcul utile, la course n'est plus au nombre de puces mais à ce qu'on en tire. Retenez cette phrase : la contrainte électrique va bientôt trier les opérateurs de data centers en deux camps, ceux qui scalent et ceux qui plafonnent, et ce sera un critère d'investissement avant d'être un critère technique.

Dossier Blackwell — page 2

NVIDIA lance Nemotron 3 Embed, une collection d'embeddings ouverts dont le modèle 8B se classe premier sur RTEB

Performance par watt : la métrique clé pour l'efficacité des infrastructures d'IA

Import AI 464 : Fables écrit des noyaux GPU, l'automatisation de l'IA et le calcul analogique

NVIDIA ouvre son informatique IA à grande échelle et invite ses partenaires à soutenir le développement de l'infrastructure IA

NVIDIA et la Corée du Sud s'associent pour construire l'avenir de l'IA

Comment xAI Colossus redéfinit les règles de la course à l’IA

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave

mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU

Anthropic pourrait continuer à fournir Claude à la NSA malgré son signalement comme risque dans la chaîne d'approvisionnement par le Pentagone

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi

LightSeek Foundation publie TokenSpeed, moteur d'inférence LLM open source visant TensorRT-LLM pour agents autonomes

Propulser le siècle américain : Chris Wright et Ian Buck de NVIDIA sur la mission Genesis

HP et l'art de l'IA et des données pour les entreprises

Anthropic en négociation pour acheter des puces IA à une startup britannique

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Cognichip lève 60 M$ pour confier la conception des puces à l’IA

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

NVIDIA fait don d'un pilote d'allocation dynamique de ressources GPU à la communauté Kubernetes pour faire avancer l'IA open source

Le PDG de Nvidia table sur 1 000 milliards de dollars de revenus en puces d'ici 2027

AWS et NVIDIA renforcent leur collaboration stratégique pour accélérer le passage de l'IA du pilote à la production