Blackwell· sujet

102 articlesmis à jour le 20 juillet 2026

Suivi de l'architecture GPU Blackwell de Nvidia : puces, performances, disponibilité et adoption pour l'entraînement et l'inférence des modèles d'IA.

Hub d'actualité sur Blackwell, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Le pouls du sujet · 30 derniers jours

données Le Fil IA

20↓ 49%

articles (vs 30j préc.)

2.4%

de la couverture IA

Souvent associé à

NVIDIAAgenticInférenceMixture-of-ExpertsH100

Mesuré sur notre corpus de 50+ sources, fenêtre glissante de 30 jours. Part de voix = part des articles IA de la période mentionnant Blackwell. Voir le Baromètre IA complet

À retenir · 30 derniers jours

Les modèles Claude d'Anthropic tournent en accès général sur NVIDIA GB300 Blackwell Ultra via Azure et Microsoft Foundry.Les modèles Anthropic tournent désormais…
NVIDIA étend son déploiement chez les hyperscalers: partenariat approfondi avec AWS et contrats GPU signés par SpaceX.NVIDIA et AWS s'associent pour déployer…SpaceX est déjà un fournisseur cloud de…
La demande en GPU IA tend le marché mémoire: Micron vise 50 milliards de dollars, Apple anticipe des pénuries.Micron Technology atteint un chiffre d’a…L’IA assèche le marché de la mémoire : A…

Blackwell, c'est le nom de l'architecture de puces que NVIDIA a conçue pour entraîner et faire tourner les modèles d'IA. Sa position dans le paysage tient moins à une performance ponctuelle qu'à un rôle structurel : la plupart des grands modèles, qu'ils viennent d'OpenAI, d'Anthropic ou d'acteurs européens, sont entraînés sur ce type de matériel. Comprendre Blackwell, c'est comprendre où passe le goulot d'étranglement de toute l'industrie.

L'enjeu n'est pas seulement la carte graphique. NVIDIA assemble autour d'elle un édifice complet : processeurs maison, logiciels de déploiement, briques pour les robots et les usines, partenariats avec les États qui veulent leur «IA souveraine». Pour une entreprise, la question pratique devient : à quel coût accède-t-on à cette puissance, et à quel point dépend-on d'un seul fournisseur ?

C'est là que se joue la durée. Tant que l'alternative crédible (puces concurrentes, modèles moins gourmands, location cloud) reste limitée, Blackwell fixe le tempo et les prix de l'IA.

Dans ce hub, on suit ce qui compte sur le long terme : la disponibilité réelle des puces, le coût d'accès pour les acteurs français, la montée des alternatives, et l'extension de NVIDIA vers la robotique et les usines.

Analyses long-form sur Blackwell

Quand un sujet mérite un format long, c'est ici.

Souveraineté IA : l'Europe veut construire, la France risque de freiner Mistral
Les gigafactories GPU européennes et les 13 800 GPU de Mistral : la demande Blackwell vue d'Europe.

NVIDIA CUDA AMD Moonshot AI OpenAI Anthropic Claude Mythos Claude Fable 5 Claude Opus Claude Code GPT-5.5 GPT-5 Tous les dossiers →

Toute l'actualité Blackwell

Flux automatique. Articles classés par pertinence, agrégés en continu.

1MarkTechPost OutilsOutil

Unsloth, Axolotl, TRL, LLaMA-Factory : comparaison des frameworks de fine-tuning sur vitesse, VRAM et multi-GPU

Quatre projets open source dominent aujourd'hui le fine-tuning des grands modèles de langage : Unsloth, Axolotl, TRL et LLaMA-Factory. Tous s'appuient sur la même base PyTorch et Hugging Face, mais chacun concentre ses efforts d'ingénierie différemment. TRL sert de couche de référence : il fournit les briques SFTTrainer, DPOTrainer, GRPOTrainer, KTOTrainer, RewardTrainer et RLOOTrainer, sur lesquelles s'appuient Axolotl et LLaMA-Factory, avec une version stable actuelle en v1.8.0. Unsloth réécrit une partie du code de modélisation avec des kernels Triton faits main et une rétropropagation dérivée manuellement plutôt que générée par autograd, sans dégradation de précision par rapport au QLoRA standard selon Hugging Face. Sur un GPU NVIDIA B200, Unsloth annonce des gains spectaculaires pour le modèle gpt-oss-20b-BF16 : 712,33 millisecondes par étape à 8 000 tokens de contexte contre 5 226,86 millisecondes pour Transformers v5, soit un facteur 7,3. Ce gain tombe à 4,82 fois à 4 000 tokens et à seulement 1,37 fois à 1 000 tokens. Sur Qwen3-30B-A3B, la tendance s'inverse : l'accélération chute de 1,7 fois à 1,1 fois entre 1 000 et 16 000 tokens, tandis que les économies de mémoire grimpent de 2 à 15 pour cent. Axolotl a intégré ses propres kernels Triton en février 2025, en citant explicitement Unsloth comme source d'inspiration, avec un support SonicMoE LoRA annoncé jusqu'à 1,45 fois plus rapide et 30 pour cent de mémoire économisée sur Qwen3.5-35B-A3B en LoRA 8 bits sur un seul H100 SXM. Ces écarts de performance ont un impact direct sur le coût et la faisabilité des projets de fine-tuning, en particulier pour les équipes disposant de ressources GPU limitées. Un facteur multiplicatif de 7 sur le temps d'entraînement change concrètement ce qu'une petite équipe peut se permettre d'entraîner localement plutôt que de sous-traiter à un cloud coûteux. À l'inverse, le fait que certains gains s'inversent selon la longueur de séquence ou le modèle montre qu'aucun framework n'est universellement supérieur : le choix dépend du matériel disponible, de la taille du modèle et de la longueur de contexte visée, ce qui complique la décision pour les praticiens. Ce paysage s'est construit par emprunts croisés plutôt que par concurrence fermée. LLaMA-Factory, présenté comme démonstration système à la conférence ACL 2024 et doté d'une interface Gradio baptisée LlamaBoard, ne développe pas ses propres kernels mais expose ceux des autres via de simples options de configuration : activer use_unsloth donnerait 170 pour cent de vitesse relative selon son changelog, et le support natif FlashAttention-2 ou Liger Kernel s'active de la même façon. TRL, de son côté, propose une intégration officielle avec Unsloth, ce qui montre que ces outils ne sont pas mutuellement exclusifs mais forment un écosystème où les innovations se propagent rapidement d'un projet à l'autre, au bénéfice final des équipes qui entraînent des modèles avec des budgets de calcul contraints.

Blackwell· sujet

À retenir · 30 derniers jours

Analyses long-form sur Blackwell

Toute l'actualité Blackwell

Unsloth, Axolotl, TRL, LLaMA-Factory : comparaison des frameworks de fine-tuning sur vitesse, VRAM et multi-GPU

L'article valide des benchmarks de service LLM distribué avec NVIDIA srt-slurm, des recettes SLURM, des balayages de paramètres et une analyse de Pareto

NVIDIA Vera Rubin améliore la performance par watt et réduit le coût par token pour ses partenaires dans le monde

IREN : pourquoi la demande en infrastructures IA dépasse déjà les capacités disponibles ?

Le consortium Soofi publie Soofi S 30B-A3B, un modèle hybride Mamba-Transformer MoE ouvert pour l'allemand et l'anglais

« Nemotron Labs 3 Puzzle 75B A9B : un LLM MoE hybride compressé qui multiplie par 2,03 le débit serveur »

NVIDIA lance Nemotron-Labs-3-Puzzle-75B-A9B : un LLM MoE hybride compressé qui double le débit serveur à débit utilisateur égal

Les modèles Anthropic tournent désormais sur NVIDIA GB300 Blackwell Ultra dans Azure

L’IA assèche le marché de la mémoire : APPLE anticipe déjà les prochaines pénuries

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

Micron Technology atteint un chiffre d’affaires record et vise désormais 50 milliards de dollars

DFlash accélère le décodage spéculatif par blocs de tokens en parallèle, jusqu'à 15x plus de débit sur NVIDIA Blackwell

NVIDIA et AWS s'associent pour déployer l'IA en production à grande échelle

SpaceX est déjà un fournisseur cloud de 28 milliards de dollars par an

De la simulation des matériaux à l'astronomie : NVIDIA lance un logiciel d'IA pour la découverte scientifique

NVIDIA et ses partenaires transforment la publicité et le marketing avec l'IA à Cannes Lions

Databricks et Nvidia préparent ensemble l’avenir de l’IA agentique

La France fait progresser l'avenir de l'IA en Europe avec les technologies NVIDIA

Paralléliser le décodage spéculatif avec P-EAGLE sur Amazon SageMaker AI

Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0

NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA

#Nextquick Pourquoi tout le monde se jette encore sur les GPU NVIDIA pour l’IA

DiffusionGemma de Google génère 256 tokens en parallèle et s'autocorrige à la volée

NVIDIA intègre le calcul confidentiel pour renforcer le Private Cloud Compute d'Apple

Comment xAI Colossus redéfinit les règles de la course à l’IA

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

Microsoft Build : MAI-Thinking-1 et la famille de modèles MAI

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud

Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave

Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant

Le prochain chip IA d'Intel sera moins cher et moins énergivore que ceux de Nvidia et AMD

Nvidia présente RTX Spark comme la puce qui rend enfin les agents IA locaux viables sur Windows

NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises

Elon Musk prépare déjà Grok 5, la prochaine IA géante pour les développeurs ?

Test du Nvidia DGX Spark : le mini PC IA 128 Go

La puce Vera de Nvidia, le pari à 200 milliards de dollars que Jensen Huang veut mettre en avant

Cohere maîtrise la quantification sans perte et les citations natives avec Command A+, son premier modèle Apache 2.0

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

L'action Cerebras double presque le premier jour, valorisant le fabricant de puces IA à 100 milliards de dollars

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire

☕️ AMD lance sa Radeon Instinct MI350P : un demi-GPU de MI350X en PCIe 5.0

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B

RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs