Aller au contenu principal

Blackwell· sujet

68 articlesmis à jour le 2026-06-09

Suivi de l'architecture GPU Blackwell de Nvidia : puces, performances, disponibilité et adoption pour l'entraînement et l'inférence des modèles d'IA.

Hub d'actualité sur Blackwell, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Le pouls du sujet · 30 derniers jours

données Le Fil IA
36 89%
articles (vs 30j préc.)
2.8%
de la couverture IA
Souvent associé à
NVIDIAInférenceAgenticOpenAIJensen Huang

Mesuré sur notre corpus de 50+ sources, fenêtre glissante de 30 jours. Part de voix = part des articles IA de la période mentionnant Blackwell. Voir le Baromètre IA complet

À retenir · 30 derniers jours

Blackwell, c'est le nom de l'architecture de puces que NVIDIA a conçue pour entraîner et faire tourner les modèles d'IA. Sa position dans le paysage tient moins à une performance ponctuelle qu'à un rôle structurel : la plupart des grands modèles, qu'ils viennent d'OpenAI, d'Anthropic ou d'acteurs européens, sont entraînés sur ce type de matériel. Comprendre Blackwell, c'est comprendre où passe le goulot d'étranglement de toute l'industrie.

L'enjeu n'est pas seulement la carte graphique. NVIDIA assemble autour d'elle un édifice complet : processeurs maison, logiciels de déploiement, briques pour les robots et les usines, partenariats avec les États qui veulent leur «IA souveraine». Pour une entreprise, la question pratique devient : à quel coût accède-t-on à cette puissance, et à quel point dépend-on d'un seul fournisseur ?

C'est là que se joue la durée. Tant que l'alternative crédible (puces concurrentes, modèles moins gourmands, location cloud) reste limitée, Blackwell fixe le tempo et les prix de l'IA.

Dans ce hub, on suit ce qui compte sur le long terme : la disponibilité réelle des puces, le coût d'accès pour les acteurs français, la montée des alternatives, et l'extension de NVIDIA vers la robotique et les usines.

Toute l'actualité Blackwell

Flux automatique. Articles classés par pertinence, agrégés en continu.

NVIDIA et la Corée du Sud s'associent pour construire l'avenir de l'IA
1NVIDIA AI Blog InfrastructureOpinion

NVIDIA et la Corée du Sud s'associent pour construire l'avenir de l'IA

Jensen Huang, fondateur et PDG de Nvidia, a atterri à Séoul vendredi 4 juin, accueilli par des fans et des journalistes dès sa descente d'avion. Ce déplacement fait suite à la conférence GTC Taipei organisée lors du COMPUTEX, et s'inscrit dans une tournée asiatique chargée. Huang a tenu à préciser l'enjeu central de sa visite : aligner la chaîne d'approvisionnement en IA avant une deuxième partie d'année qui s'annonce intense. Il a confirmé que Grace Blackwell, la plateforme phare de Nvidia, affiche de solides performances commerciales, et que Vera Rubin, la génération suivante, est désormais en pleine production industrielle. "Le premier semestre a déjà été très réussi, et nous allons être très occupés au second semestre", a-t-il déclaré à la presse. La Corée du Sud n'est pas un simple arrêt diplomatique dans l'agenda de Huang : c'est l'un des maillons stratégiques de l'écosystème mondial de l'IA. Le pays abrite des acteurs critiques de la fabrication de mémoires, une communauté gaming parmi les plus actives au monde, et un tissu industriel en robotique en pleine montée en puissance. Huang a explicitement identifié la robotique et l'IA physique comme "le prochain grand secteur" pour la Corée, appelant à des investissements ciblés dans ce domaine. Ce positionnement n'est pas anodin : la robotique incarnée, qui nécessite des puces, des capteurs et des modèles d'inférence rapide, est précisément le terrain où Nvidia cherche à imposer ses architectures comme standard de fait. La visite de Huang à Séoul s'inscrit dans une dynamique plus large de consolidation des alliances industrielles face à la pression géopolitique sur les semi-conducteurs. Alors que les restrictions américaines sur les exportations de puces vers certains marchés asiatiques compliquent le paysage, la Corée du Sud reste un partenaire de premier plan, à la fois client et fournisseur clé via Samsung et SK Hynix. Le programme de la visite inclut des rencontres avec des partenaires locaux dans la mémoire, la robotique et le gaming, avant que Huang ne passe à la table pour du poulet frit et du barbecue coréen, qu'il a jugés, sobrement, "délicieux".

UELes entreprises européennes dépendantes des puces NVIDIA et de la mémoire coréenne (Samsung, SK Hynix) pourraient bénéficier indirectement d'une chaîne d'approvisionnement renforcée, mais l'impact direct sur la France ou l'UE reste limité.

1 source
Comment xAI Colossus redéfinit les règles de la course à l’IA
2Le Big Data 

Comment xAI Colossus redéfinit les règles de la course à l’IA

En mars 2023, Elon Musk fonde xAI pour affronter directement OpenAI, Google et Meta dans la course aux grands modèles de langage. Le premier modèle, Grok, sort fin 2023 avec des résultats prometteurs, mais l'entreprise se heurte rapidement à un obstacle structurel majeur : elle ne possède aucune infrastructure propre et loue sa puissance de calcul auprès de fournisseurs cloud comme Oracle. Pour briser cette dépendance, Musk lance dès le printemps 2024 un chantier d'une rapidité inédite. xAI rachète une ancienne usine Electrolux de 73 000 mètres carrés à Memphis, Tennessee, et y déploie le supercalculateur Colossus. Début 2026, le site concentre environ 555 000 processeurs NVIDIA interconnectés, principalement des H100 et H200 dans le premier bloc (Colossus 1), et la nouvelle architecture Blackwell GB200/GB300 dans le second (Colossus 2), auxquels s'ajoute une extension satellitaire en cours à Southaven. À près de 35 000 dollars l'unité, le seul achat des composants dépasse les 18 milliards de dollars. Cette infrastructure redéfinit les rapports de force dans l'industrie de l'IA. En contrôlant son propre parc de calcul, xAI s'affranchit des délais et des contraintes imposés par les fournisseurs tiers, ce qui lui permet d'accélérer l'entraînement de ses modèles au rythme qu'elle impose. La densité thermique extrême générée par 555 000 puces a nécessité l'abandon du refroidissement par air au profit d'un système à eau intégral en circuit fermé, fourni par Dell et Supermicro, qui capte la chaleur directement sur le silicium et réduit significativement les coûts d'électricité liés à la climatisation. Sur le plan réseau, xAI a fait le choix de rejeter l'InfiniBand, standard dominant mais coûteux et en rupture mondiale, pour déployer la plateforme NVIDIA Spectrum-X Ethernet, avec routage adaptatif et protocole RoCE, afin d'éliminer la latence de queue qui paralyse les clusters lors des échanges massifs de paramètres entre processeurs. Ce projet s'inscrit dans une rivalité technologique et géopolitique qui dépasse largement xAI. La puissance de calcul est devenue la ressource stratégique centrale de l'IA : qui contrôle les clusters contrôle le rythme d'innovation. Microsoft, Google et Amazon ont chacun engagé des dizaines de milliards dans leurs propres datacenters, tandis que la pénurie mondiale de puces NVIDIA maintient une pression constante sur les acteurs moins capitalisés. En construisant Colossus en moins d'un an, là où l'industrie estimait le délai à deux ans minimum, xAI a envoyé un signal clair sur sa capacité d'exécution. La prochaine étape sera de transformer cette puissance brute en avance technologique durable face à des concurrents qui ne restent pas immobiles.

UELa concentration de capacité de calcul chez les acteurs américains creuse l'écart avec les laboratoires et startups européens, renforçant leur dépendance aux infrastructures cloud extérieures à l'UE.

InfrastructureOpinion
1 source
NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions
3MarkTechPost 

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

NVIDIA a publié Cosmos 3, une nouvelle famille de modèles d'IA fondationnels conçus pour les systèmes d'IA physique, robots, véhicules autonomes et systèmes de surveillance industrielle. La particularité de cette version réside dans son architecture dite Mixture-of-Transformers (MoT) à deux tours, qui réunit pour la première fois dans un seul modèle trois capacités jusqu'ici séparées : le raisonnement physique, la génération de monde (vidéo, images, son) et la génération d'actions. NVIDIA a publié en open source les poids, scripts d'entraînement, outils de déploiement et jeux de données. Deux échelles sont disponibles au lancement : Cosmos3-Nano (16 milliards de paramètres, basé sur Qwen3-VL 8B) pour l'inférence sur GPU workstation comme la RTX PRO 6000, et Cosmos3-Super (64 milliards de paramètres, basé sur Qwen3-VL 32B) pour les datacenters équipés de GPU Hopper ou Blackwell. Des variantes spécialisées accompagnent cette sortie, dont Super Text2Image, Super Image2Video et Nano-Policy-DROID. L'unification de ces trois capacités dans un seul modèle représente un changement structurel pour les équipes qui développent des systèmes robotiques ou de conduite autonome. Jusqu'ici, il fallait orchestrer plusieurs modèles distincts, un pour percevoir, un pour prédire, un pour agir, ce qui multipliait la complexité d'intégration et les points de défaillance. Cosmos 3 propose un flux cohérent : la tour "reasoner" (un VLM autorégressif qui comprend images, vidéos et texte) conditionne la tour "generator" (diffusion pour la vidéo et les actions), l'information circulant dans un seul sens. Les équipes de robotique temps réel peuvent faire tourner le Nano sur du matériel de terrain, tandis que les équipes de R&D génèrent des données synthétiques à grande échelle avec le Super. Sur les benchmarks, Cosmos 3 domine VANTAGE-Bench et le leaderboard TAR (Traffic Anomaly Reasoning) dans leurs catégories respectives. Cette sortie s'inscrit dans la stratégie d'NVIDIA visant à s'imposer comme infrastructure logicielle de l'IA physique, au-delà de la simple vente de GPU. Les versions précédentes de Cosmos fragmentaient les capacités ; Cosmos 3 consolide l'approche autour d'un socle commun initialisé depuis les poids Qwen3-VL de l'écosystème open source. Le modèle gère nativement des entrées texte, image, vidéo et tableaux d'actions JSON, et produit des sorties allant jusqu'à 720p à 24 FPS avec son stéréo AAC 48 kHz, pour une durée maximale d'environ 12,5 secondes. Il supporte une gamme d'embodiments robotiques (caméra, véhicule, bras simple ou double, humanoïde), chacun avec des dimensions d'action fixes. Face à la montée en puissance de Google DeepMind, Boston Dynamics et des startups robotiques chinoises, NVIDIA mise sur l'open source et la verticalisation logicielle pour ancrer son écosystème dans les prochaines années de déploiement d'IA physique.

UELes équipes européennes de robotique et de véhicules autonomes peuvent accéder gratuitement à un modèle de fondation unifié pour l'IA physique, réduisant la complexité d'intégration et les coûts de R&D pour les industriels actifs dans l'automatisation et la mobilité autonome.

💬 Orchestrer trois modèles séparés pour percevoir, prédire et agir, c'était le quotidien douloureux des équipes robotique, et Cosmos 3 règle ça proprement. L'open source complet, poids + scripts + datasets, c'est pas de la comm, NVIDIA construit une base logicielle sur laquelle personne ne pourra se passer d'eux dans 3 ans. Reste à voir si le Nano tient en conditions réelles, parce que sur les benchmarks c'est toujours plus joli qu'en prod.

RobotiqueOpinion
1 source
Microsoft Build : MAI-Thinking-1 et la famille de modèles MAI
4Latent Space 

Microsoft Build : MAI-Thinking-1 et la famille de modèles MAI

Lors de la conférence Microsoft Build des 1er et 2 juin 2026, Satya Nadella et Mustafa Suleyman ont annoncé le lancement de sept nouveaux modèles d'intelligence artificielle sous la bannière MAI, la division IA interne de Microsoft. La famille comprend MAI-Thinking-1, le modèle phare de raisonnement, ainsi que MAI-Code-1-Flash pour la génération de code, MAI-Image-2.5 pour la vision, MAI-Transcribe-1.5 pour la transcription vocale et MAI-Voice-2 pour la synthèse vocale. MAI-Thinking-1 est une architecture MoE (Mixture of Experts) de 35 milliards de paramètres actifs, avec une fenêtre de contexte de 256 000 tokens, pré-entraîné sur 30 000 milliards de tokens grâce à 8 192 GPU GB200. Le modèle atteint 97 % sur le benchmark AIME 2025 et 53 % sur SWE-Bench Pro. Microsoft a également publié un rapport technique de 109 pages détaillant son architecture, saluée par la communauté de recherche pour son niveau de transparence inhabituel. Ces annonces marquent une étape significative pour Microsoft, qui se positionne désormais non plus seulement comme plateforme IA mais comme laboratoire de frontier models à part entière. Le fait que MAI-Thinking-1 ait été entraîné sans distillation à partir de modèles tiers, contrairement à de nombreux modèles concurrents, lui confère une crédibilité technique particulière. Des évaluateurs humains indépendants sur la plateforme Surge ont préféré ce modèle à Claude Sonnet 4.6 d'Anthropic dans des tests en aveugle. Pour les entreprises, cette offre ouvre la voie à des fine-tuning spécialisés dans des domaines précis, un créneau que les laboratoires frontier comme OpenAI ou Google ont progressivement abandonné. L'annonce de Web IQ, une nouvelle couche API de recherche et d'ancrage pour agents IA que Microsoft revendique déjà au cœur de "presque tous les agents et chatbots de l'industrie, y compris Copilot et ChatGPT", renforce cette ambition de devenir l'infrastructure invisible de l'IA d'entreprise. Microsoft AI, anciennement connue sous le nom d'Inflection AI après son rachat en 2024, n'existe que depuis deux ans sous cette forme. Le fait qu'elle produise des modèles entraînés de zéro à ce niveau de performance illustre la rapidité de montée en puissance possible avec des ressources computationnelles massives. Build 2026 a également mis en avant GitHub Copilot repositionné comme environnement de développement natif pour agents, une nouvelle Surface RTX Spark Dev Box, et des projets hardware conceptuels comme Solara et Scout. Mustafa Suleyman a décrit Microsoft comme une "machine à escalader des collines", ce qui traduit une stratégie d'amélioration continue et méthodique plutôt que des percées spectaculaires. La prochaine étape sera de voir si MAI-Thinking-1 tient ses promesses dans des déploiements réels, et si Microsoft parvient à convaincre l'écosystème de développeurs de s'appuyer sur ses modèles plutôt que ceux d'OpenAI, dont il reste paradoxalement l'un des principaux investisseurs.

UELes entreprises européennes sur Azure peuvent accéder aux modèles MAI et à l'API Web IQ pour leurs agents IA, réduisant potentiellement leur dépendance aux modèles OpenAI.

💬 MAI-Thinking-1 entraîné de zéro, sans distillation depuis OpenAI ou quiconque, c'est la vraie nouveauté de Build 2026. Ça donne une crédibilité technique que peu s'attendaient à voir en deux ans d'existence. Reste à savoir si les devs vont faire confiance aux MAI plutôt qu'à OpenAI, sachant que Microsoft finance les deux en même temps.

LLMsOpinion
1 source
Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026
5VentureBeat AI 

Perplexity AI présente son système d'inférence hybride local-cloud au Computex 2026

Perplexity AI, la startup de recherche valorisée à 20 milliards de dollars, a présenté lundi soir au salon Computex 2026 ce qu'elle décrit comme le premier orchestrateur d'inférence hybride local-cloud du marché. Le PDG Aravind Srinivas a fait la démonstration en direct aux côtés de Lip-Bu Tan, directeur général d'Intel, lors du keynote de l'entreprise. Sur scène, le système traitait des documents financiers confidentiels en répartissant automatiquement les tâches: les informations sensibles restaient sur l'appareil, équipé d'un processeur Intel Core Ultra Série 3, tandis que les raisonnements complexes étaient envoyés vers des modèles cloud. La nouveauté n'est pas qu'un modèle tourne en local, mais que le système décide lui-même, en temps réel et en cours d'exécution, quelle partie de chaque tâche doit rester sur la machine et laquelle peut rejoindre le cloud. Selon la société, aucun produit n'avait jusqu'ici automatisé cette décision de routage. La fonctionnalité sera disponible dans les prochaines semaines. L'enjeu concret est celui de la confidentialité des données dans un contexte d'agents IA de plus en plus autonomes. En demandant une validation utilisateur avant d'envoyer des éléments sensibles vers le cloud, Perplexity répond directement aux inquiétudes des entreprises sur la gouvernance des données dans les systèmes agentiques. Pour les professionnels manipulant des informations médicales, juridiques ou financières, cette architecture permet de bénéficier de la puissance des grands modèles de langage comme Claude, Gemini ou GPT sans renoncer au contrôle sur les données les plus critiques. C'est un compromis que ni les solutions purement locales ni les agents entièrement cloud ne proposaient jusqu'ici. Cette annonce s'inscrit dans une trajectoire de produit accélérée depuis le début de l'année. Le 25 février, Perplexity lançait Computer, un agent multi-modèles orchestrant 19 modèles d'IA différents, entièrement dans le cloud. En mars, lors de sa conférence développeurs Ask 2026, la startup introduisait Personal Computer, une application Mac hybride capable d'accéder au système de fichiers local dans un environnement sécurisé et auditable. Le système présenté à Computex franchit une étape supplémentaire: l'orchestrateur raisonne désormais sur le lieu d'exécution de chaque fragment de tâche, pas seulement sur le choix du modèle. La démonstration intervient dans un contexte industriel particulièrement favorable, Computex 2026 étant dominé par le thème de l'IA embarquée: quelques heures plus tôt, Jensen Huang avait dévoilé le RTX Spark, une puce Arm Nvidia intégrant un GPU Blackwell avec 6 144 coeurs CUDA, 128 Go de mémoire LPDDR5X et une bande passante de 300 Go/s, conçue pour une nouvelle génération de PC nativement IA.

UELes entreprises européennes soumises au RGPD pourraient bénéficier directement de cette architecture hybride, qui permet de maintenir les données sensibles en local tout en accédant aux grands modèles cloud, répondant aux exigences de souveraineté et de gouvernance des données imposées par la réglementation européenne.

OutilsOpinion
1 source
NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud
6NVIDIA AI Blog 

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

NVIDIA et Microsoft ont dévoilé lors de Microsoft Build un partenariat élargi pour déployer une pile technologique unifiée dédiée à l'IA agentique, couvrant les PC Windows, le cloud Azure et les environnements locaux. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu en direct depuis Taipei aux côtés de Satya Nadella pour présenter les nouvelles initiatives. Au programme : les PC RTX Spark et les stations DGX Station for Windows, l'accélération GPU de Microsoft Fabric, les modèles ouverts NVIDIA sur Microsoft Foundry, et le runtime sécurisé NVIDIA OpenShell intégré à GitHub Copilot. RTX Spark cible les laptops et petits ordinateurs de bureau avec 1 pétaflop de performance IA, jusqu'à 128 Go de mémoire unifiée et une autonomie toute la journée, avec des systèmes attendus cet automne chez Microsoft Surface, ASUS, Dell, HP, Lenovo et MSI. La DGX Station for Windows, propulsée par le superchip NVIDIA GB300 Grace Blackwell Ultra, offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops en FP4, capable de faire tourner des modèles jusqu'à 1 billion de paramètres, avec des livraisons prévues au quatrième trimestre 2026 chez ASUS, Dell, GIGABYTE, HP, MSI et Supermicro. Ce partenariat marque un tournant dans la course à l'IA agentique d'entreprise en proposant, pour la première fois, une chaîne complète allant du matériel personnel à l'infrastructure cloud. Pour les développeurs et les entreprises, cela signifie pouvoir construire, affiner et déployer des agents IA directement sur Windows sans dépendre exclusivement du cloud. Les modèles Claude d'Anthropic tournent désormais nativement sur les systèmes Blackwell Ultra dans Azure, avec une disponibilité annoncée dans les prochaines semaines. Sur Microsoft Foundry, le nouveau NVIDIA Nemotron 3 Ultra, conçu pour le raisonnement de longue durée dans des tâches de codage, de recherche et de workflows d'entreprise, est disponible dès ce mois-ci, accompagné de Nemotron 3.5 ASR pour la reconnaissance vocale et Nemotron 3.5 Content Safety pour la modération de contenu. Ce rapprochement intervient alors que l'ensemble de l'industrie cherche à concrétiser la promesse des agents IA autonomes capables d'exécuter des tâches complexes sur la durée. NVIDIA, dont les GPU sont devenus incontournables dans les data centers, étend son influence jusqu'au bureau et au PC personnel, concurrençant indirectement Apple Silicon et AMD sur le terrain de l'inférence locale. Le runtime OpenShell, sécurisé nativement, répond aux exigences de gouvernance des grandes entreprises qui hésitent encore à confier des tâches autonomes à des agents. L'intégration des bibliothèques CUDA-X comme cuDF, cuOpt et NeMo directement accessibles aux agents ouvre la voie à des workflows scientifiques plus complexes, notamment avec le modèle Cosmos 3 pour la simulation du monde physique et les modèles météo Earth-2 disponibles via Microsoft Planetary Computer Pro.

UELes entreprises européennes utilisant Azure et Windows bénéficieront d'une chaîne de déploiement IA unifiée du PC personnel au cloud, réduisant la dépendance exclusive à l'infrastructure cloud pour les workflows agentiques.

💬 Jensen Huang qui s'invite en hologramme depuis Taipei pendant le keynote de Satya, c'est le genre de mise en scène qui cache souvent un partenariat creux. Là, non : la DGX Station sous Windows avec 748 Go de mémoire cohérente et 20 pétaflops, c'est du concret pour les boîtes qui refusent de tout mettre dans Azure. Reste à voir si les prix seront accessibles à autre chose qu'aux grands comptes, mais l'idée d'une chaîne complète du laptop au datacenter sans changer de stack, ça change vraiment quelque chose pour les équipes qui font tourner des agents en prod.

InfrastructureActu
1 source
Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud
7VentureBeat AI 

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud

Microsoft a dévoilé lundi le Surface RTX Spark Dev Box lors de la conférence Build 2026, un ordinateur de bureau compact destiné aux développeurs de logiciels qui souhaitent faire tourner de grands modèles d'intelligence artificielle en local, sans passer par le cloud. La machine embarque le nouveau processeur RTX Spark d'Nvidia, basé sur l'architecture Blackwell, et dispose de 128 gigaoctets de mémoire unifiée partagée dynamiquement entre le CPU et le GPU. Cette configuration permet d'atteindre un pétaflop de puissance de calcul IA, ce qui autorise l'exécution de modèles dépassant 120 milliards de paramètres sans envoyer la moindre requête vers un serveur distant. Pavan Davuluri, vice-président exécutif de Windows et Devices chez Microsoft, a précisé que la mémoire joue un rôle critique : à 100 000 tokens de contexte, le cache clé-valeur d'un grand modèle peut à lui seul consommer entre 40 et 50 gigaoctets, ce qui explique le choix de ce pool mémoire de 128 Go. L'appareil sera commercialisé exclusivement sur Microsoft.com aux États-Unis d'ici la fin de l'année, sans prix annoncé à ce stade. L'enjeu est directement économique. Les entreprises de toutes tailles font face à des factures cloud GPU qui s'accumulent de façon imprévisible : chaque appel d'inférence, chaque cycle de fine-tuning, chaque workflow agentique qui itère sur un modèle frontier génère des coûts qui s'emballent pour un développeur testant son prototype des dizaines de fois par jour. Andrew Hill, vice-président de Surface, a résumé la promesse dans le billet d'annonce : le Dev Box "change l'équation" en permettant aux équipes de "réserver les appels aux modèles frontier aux vrais problèmes frontier, et de traiter le reste sur leur propre matériel." La proposition n'est pas que le cloud soit dépassé, mais qu'une large partie des tâches actuellement envoyées à des datacenters distants ne justifie pas des modèles de pointe et serait mieux servie par du matériel local à coût fixe et prévisible. Ce lancement marque un tournant stratégique notable pour Microsoft, dont Azure génère plusieurs dizaines de milliards de dollars de revenus annuels. En commercialisant explicitement un appareil qui réduit la dépendance au cloud de ses propres clients, l'entreprise reconnaît une tension structurelle qui monte dans l'industrie depuis l'explosion des coûts d'inférence. Le pari de Redmond est que les développeurs qui prototypent en local déploieront ensuite sur Azure lorsqu'ils auront besoin de passer à l'échelle, et que contrôler les deux extrémités de ce cycle de développement est plus rentable que de n'en posséder qu'une. L'architecture RTX Spark, qui fusionne CPU ARM et GPU Blackwell en un seul chip avec mémoire unifiée, remplace quatre composants distincts d'un PC classique et ouvre la voie à une nouvelle génération de postes de travail IA autonomes.

InfrastructureOpinion
1 source
Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave
8Le Big Data 

Nvidia dévoile son robot humanoïde Isaac GR00T… et il déchire grave

Nvidia a présenté le 1er juin 2026, lors du Computex à Taipei, son robot humanoïde de référence baptisé Isaac GR00T Reference Humanoid Robot. Développé en partenariat avec Unitree, spécialiste chinois de la robotique, et Sharpa, entreprise singapourienne experte en mains robotiques, ce système repose sur le corps humanoïde H2 Plus d'Unitree, 1,80 mètre, 68 kilogrammes, 31 degrés de liberté. Les mains tactiles à cinq doigts de Sharpa ajoutent 22 degrés de liberté chacune, portant le total à 75 points d'articulation sur l'ensemble du corps. Chaque bras peut soulever 7 kilogrammes en continu, avec des pics à 15 kilogrammes. Le cerveau du système est le calculateur Jetson Thor, basé sur l'architecture Blackwell de Nvidia, capable de dépasser 2 000 téraflops dédiés à l'IA. Le robot embarque le modèle GR00T 1.7 dès sa sortie de boîte, et une batterie de 0,972 kWh offrirait environ trois heures d'autonomie, selon des sources non confirmées officiellement par Nvidia. L'enjeu de cette annonce dépasse largement le robot lui-même. Nvidia ne vend pas un produit commercial destiné aux entreprises ou aux particuliers, mais une plateforme de référence pour la recherche. L'idée est de fournir aux laboratoires un socle matériel et logiciel unifié, comparable à ce qu'un PC de référence représente pour l'informatique grand public : éviter que chaque équipe perde des mois à assembler et intégrer ses propres composants, pour se concentrer sur ce qui compte, à savoir développer des algorithmes, des comportements et des capacités cognitives. Stanford Robotics Center, ETH Zurich, Ai2 de Seattle et le laboratoire de robotique de l'UC San Diego figurent parmi les premiers partenaires confirmés. La disponibilité pour les développeurs et laboratoires intéressés est prévue d'ici fin 2026. Cette initiative s'inscrit dans une bataille industrielle et géopolitique de grande ampleur autour de la robotique humanoïde. Des acteurs comme Boston Dynamics, Figure, Tesla avec Optimus, ou encore 1X Technologies investissent massivement dans ce domaine, perçu comme le prochain grand marché de l'IA physique. Nvidia, jusqu'ici positionné comme fournisseur de puissance de calcul, tente avec Isaac GR00T de devenir la couche d'infrastructure incontournable de toute la filière robotique mondiale. L'absence notable d'institutions chinoises parmi les premiers partenaires, alors même qu'Unitree est un acteur chinois central du projet, révèle la tension géopolitique qui traverse ce secteur. En standardisant la plateforme de recherche, Nvidia espère non seulement accélérer les progrès scientifiques, mais aussi s'imposer comme le standard de référence avant que ses concurrents ne définissent les leurs.

UEETH Zurich figure parmi les premiers laboratoires partenaires confirmés, ouvrant aux chercheurs européens un accès potentiel à cette plateforme de référence en robotique humanoïde d'ici fin 2026.

💬 Ce qui m'intéresse, c'est pas le robot, c'est le coup qu'essaie de rejouer Nvidia. Imposer une plateforme de référence à la recherche avant que le marché se structure, c'est exactement comme ça que CUDA est devenu incontournable il y a vingt ans. L'absence des labos chinois dans les premiers partenaires alors qu'Unitree est au coeur du hardware, ça dit tout sur où se joue vraiment la bataille.

RobotiqueOpinion
1 source
Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant
9AWS ML Blog 

Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant

Amazon Web Services vient d'annoncer une combinaison technique qui pourrait transformer le déploiement de grands modèles de langage en production : l'utilisation conjointe d'Amazon FSx for Lustre, de NVIDIA GPUDirect Storage (GDS) et d'une nouvelle technique de quantification appelée TurboQuant. Concrètement, charger un modèle comme Llama 3.1 405B, soit environ 800 gigaoctets de poids en BF16, prend aujourd'hui entre 10 et 20 minutes avec une infrastructure classique. Avec GDS sur les nouvelles instances P6 et P6e d'AWS, propulsées par l'architecture NVIDIA Blackwell, ce délai tombe à quelques secondes. Le flagship P6e UltraServer concentre 72 GPU Blackwell dans un seul domaine NVLink, avec 13,4 téraoctets de mémoire HBM3e et 360 pétaflops de calcul en FP8. Le problème que résout cette approche est fondamental pour l'industrie de l'inférence à grande échelle. Dans le pipeline traditionnel, les poids du modèle transitent séquentiellement depuis le stockage vers la RAM CPU, sont désérialisés, éventuellement quantifiés, puis copiés un par un vers chaque GPU via le bus PCIe. Pendant tout ce temps, parfois vingt minutes, les GPU les plus chers de l'infrastructure restent inactifs. GPUDirect Storage court-circuite entièrement ce chemin : les checkpoints du modèle sont pré-découpés en fragments sur FSx for Lustre, et les huit GPU d'une instance lisent leurs fragments en parallèle directement dans leur mémoire HBM, sans jamais passer par le CPU ni le PCIe. L'impact est immédiat sur trois métriques critiques : la latence au premier token lors d'un démarrage à froid, la réactivité de l'autoscaling lors des pics de charge, et le coût d'infrastructure lié aux GPU qui attendent. Cette annonce s'inscrit dans une course à l'optimisation de l'inférence LLM qui s'est intensifiée depuis l'émergence de modèles à plusieurs centaines de milliards de paramètres. Des frameworks comme vLLM ont certes amélioré le chargement parallèle des poids depuis la version 0.19 et son moteur V1, mais les données continuent d'emprunter le CPU et le bus PCIe, une limitation structurelle que GDS supprime à la racine. AWS introduit simultanément TurboQuant, une technique de mise en cache KV qui permet d'augmenter significativement la taille des fenêtres de contexte disponibles sur ces instances. Ces deux avancées combinées positionnent AWS comme un acteur offensif sur le marché de l'infrastructure d'inférence, face à des concurrents comme Google Cloud et Azure qui développent leurs propres accélérateurs et solutions de stockage haute performance pour répondre aux mêmes contraintes.

UELes entreprises européennes déployant des LLMs à grande échelle sur AWS pourront réduire significativement leurs coûts d'infrastructure liés aux GPU inactifs au démarrage, avec un impact direct sur la compétitivité des services d'inférence en Europe.

InfrastructureOpinion
1 source
Le prochain chip IA d'Intel sera moins cher et moins énergivore que ceux de Nvidia et AMD
10Ars Technica AI 

Le prochain chip IA d'Intel sera moins cher et moins énergivore que ceux de Nvidia et AMD

Intel prévoit de commercialiser d'ici la fin 2026 un nouveau processeur d'IA baptisé "Crescent Island", conçu pour concurrencer directement les puces de Nvidia et AMD sur le marché de l'inférence. Kevork Kechichian, directeur du groupe data center d'Intel, a confié au Financial Times que l'entreprise repart "des bases" en proposant un GPU utilisant une mémoire et un système de refroidissement moins coûteux que ceux des solutions rivales. L'objectif affiché est de capitaliser sur le redressement en cours du fabricant américain de semi-conducteurs. "Crescent Island" se concentre sur l'inférence, soit la phase où un utilisateur soumet une requête à un modèle d'IA déjà entraîné, plutôt que sur l'entraînement lui-même, segment encore verrouillé par Nvidia. En misant sur des composants moins onéreux, Intel cherche à proposer une alternative économiquement attractive aux centres de données et aux entreprises qui déploient massivement des services d'IA, sans recourir aux puces haut de gamme H100 ou Blackwell de Nvidia. Un positionnement prix agressif pourrait ouvrir une brèche réelle dans un marché aujourd'hui très concentré. Intel sort d'une période de profonde restructuration, marquée par des retards technologiques et une pression financière intense qui ont fragilisé sa position face à Nvidia et TSMC. Sur le segment de l'inférence, Nvidia détient une part de marché estimée à plus de 80 %, tandis qu'AMD tente de s'y imposer avec ses puces MI300X. Cibler ce créneau avec une offre plus accessible représente pour Intel un pari stratégique cohérent, mais le succès dépendra de la disponibilité réelle des puces et de leur adoption par les grands opérateurs cloud d'ici la fin de l'année.

UELes centres de données et entreprises européens déployant des services d'IA pourraient bénéficier d'une alternative moins coûteuse aux puces Nvidia pour l'inférence d'ici fin 2026.

InfrastructureOpinion
1 source
Nvidia présente RTX Spark comme la puce qui rend enfin les agents IA locaux viables sur Windows
11The Decoder 

Nvidia présente RTX Spark comme la puce qui rend enfin les agents IA locaux viables sur Windows

Nvidia a présenté le RTX Spark, une puce conçue pour rendre les agents IA locaux véritablement utilisables sur les PC Windows portables. La puce combine un GPU Blackwell avec un processeur Grace basé sur l'architecture Arm, jusqu'à 128 Go de mémoire partagée et une puissance de calcul annoncée à 1 000 TOPS en FP4. Les premiers appareils équipés du RTX Spark seront commercialisés à partir de l'automne 2026 par ASUS, Dell, HP, Lenovo, Microsoft Surface et MSI. Le RTX Spark vise directement les puces Apple Silicon et les processeurs Qualcomm Snapdragon X qui dominent aujourd'hui le segment des PC dits "AI". Disposer de 128 Go de mémoire partagée est un atout décisif : cela permet de faire tourner en local des modèles de langage de grande taille, sans recourir au cloud, avec une latence réduite et une confidentialité des données préservée. Pour les entreprises et les développeurs, cette configuration ouvre la voie à des agents IA autonomes fonctionnant directement sur l'appareil de l'utilisateur, sans dépendance à une connexion Internet. Ce lancement s'inscrit dans la bataille que se livrent les fabricants de puces pour capter le marché des ordinateurs portables à capacités IA embarquées. Apple a pris une avance significative avec ses puces M-series, notamment grâce à leur architecture à mémoire unifiée. Qualcomm a répondu avec les Snapdragon X Elite sur Windows. Nvidia, dont la domination est historiquement liée aux datacenters et aux GPU discrets, cherche à s'imposer dans le segment mobile avec une approche intégrée CPU-GPU inédite sous Windows. L'automne 2026 marquera un test grandeur nature pour cette stratégie face à des concurrents déjà bien installés.

UELes PC équipés du RTX Spark arriveront en Europe à l'automne 2026, offrant aux entreprises françaises et européennes des capacités d'IA locale sans dépendance au cloud, un atout direct en contexte RGPD.

InfrastructureActu
1 source
NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises
12Le Big Data 

NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises

NVIDIA a dévoilé le 1er juin 2026, lors du GTC Taipei, la DGX Station pour Windows, présentée comme le superordinateur IA de bureau le plus puissant au monde. Propulsée par la puce GB300 Grace Blackwell Ultra Desktop Superchip, qui associe un GPU Blackwell Ultra à un processeur Grace de 72 cœurs via l'interconnexion NVLink-C2C, la machine offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops de performances en FP4. Elle peut exécuter localement des modèles d'intelligence artificielle atteignant 1 000 milliards de paramètres, et faire tourner plusieurs centaines d'agents IA simultanément. Commercialisée au quatrième trimestre 2026 par ASUS, Dell Technologies, MSI et Supermicro, la station intègre également une carte réseau ConnectX-8 SuperNIC à 800 Gbit/s, permettant d'interconnecter plusieurs unités entre elles pour des charges de travail encore plus exigeantes. L'enjeu central de cette annonce est de réconcilier la puissance des infrastructures de datacenter avec l'environnement Windows, dans lequel travaillent au quotidien la grande majorité des équipes en entreprise : développeurs, ingénieurs, data scientists, concepteurs 3D. Jusqu'ici, les projets IA les plus ambitieux reposaient quasi exclusivement sur des serveurs Linux hébergés dans le cloud ou dans des centres de données, créant un fossé entre les outils de production IA et les environnements de travail réels. Avec la DGX Station, NVIDIA cible directement ce décalage en permettant le développement, le test et le déploiement d'agents IA autonomes au plus près des applications métier, sans dépendance au cloud. Pour les organisations soucieuses de souveraineté des données, l'exécution locale des modèles permet aussi de limiter les transferts vers des infrastructures externes. Cette machine s'inscrit dans un tournant plus large de l'industrie : les entreprises ne cherchent plus seulement à intégrer des chatbots, mais à déployer des agents capables de raisonner, d'interagir avec plusieurs logiciels et d'automatiser des tâches complexes en continu. NVIDIA répond à cette demande en combinant la plateforme OpenShell, conçue pour construire et exécuter des agents sécurisés sous Windows, avec la densité de calcul de l'architecture Blackwell. La possibilité d'y coupler une carte RTX PRO 6000 Blackwell ajoute des capacités de visualisation et de simulation, élargissant encore le spectre des usages. Cette annonce confirme également la stratégie de NVIDIA de pénétrer l'entreprise non plus seulement par le datacenter, mais directement par le poste de travail, en faisant de la puissance de calcul IA une ressource locale, accessible et intégrée aux flux de travail existants.

UELes organisations européennes soumises au RGPD pourraient bénéficier de la capacité à exécuter localement des modèles d'IA volumineux, réduisant leur dépendance aux infrastructures cloud extra-européennes.

💬 20 pétaflops sur un bureau Windows, ça fait mal aux yeux. NVIDIA joue un coup malin : au lieu de vendre encore du datacenter, ils ramènent la puissance là où les équipes bossent au quotidien, sans passer par le cloud. Bon, la facture va être salée, mais pour une boîte avec des modèles sensibles et une DSI soucieuse du RGPD, c'est le premier argument solide.

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave
13Le Big Data 

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave

Dell a livré à CoreWeave le premier système NVIDIA Vera Rubin NVL72 opérationnel, un rack unique intégrant 72 GPU Rubin et 36 processeurs Vera personnalisés. Cette machine atteint une puissance de calcul de 3,6 exaFLOPS, soit une capacité suffisante pour entraîner et faire tourner des modèles d'intelligence artificielle comptant des milliers de milliards de paramètres. Le système adopte un refroidissement liquide intégral, désormais indispensable pour absorber la chaleur et la consommation énergétique générées par une telle densité de composants. CoreWeave, spécialiste américain du cloud GPU qui alimente déjà de nombreux acteurs de l'IA générative, devient ainsi l'un des premiers opérateurs au monde à déployer cette génération d'infrastructure dans un environnement de production réel. Ce déploiement illustre une tendance de fond qui redessine l'économie du calcul pour l'IA : la densification. Regrouper 72 GPU dans un seul rack ne relève pas de l'exploit pour la galerie, mais répond à une contrainte très concrète. Plus les modèles grossissent, plus les échanges de données entre composants deviennent un goulot d'étranglement. En rapprochant physiquement les GPU, on réduit les latences de communication et on améliore le débit global du système, ce qui se traduit directement par des temps d'inférence plus courts et une capacité d'entraînement plus élevée. Pour les opérateurs cloud qui facturent leurs clients à l'heure de GPU, cette efficacité accrue est un avantage compétitif direct. Pour les laboratoires qui entraînent les prochaines générations de modèles, c'est la condition nécessaire pour rester dans la course. Cette livraison s'inscrit dans un cycle d'escalade technologique qui s'accélère depuis le lancement de ChatGPT fin 2022. NVIDIA enchaîne les générations de puces à un rythme inédit : après les H100, les H200 et les Blackwell, la famille Vera Rubin représente la prochaine marche. Dell, longtemps perçu comme un constructeur de serveurs classiques, a clairement choisi de se repositionner comme intégrateur de référence pour les infrastructures d'IA à très grande échelle. CoreWeave, de son côté, a levé plusieurs milliards de dollars ces dernières années pour construire une alternative aux clouds hyperscalers comme AWS ou Google Cloud, spécifiquement taillée pour les charges de travail GPU intensives. La combinaison des deux acteurs sur ce premier déploiement Vera Rubin n'est pas anodine : elle signale que l'infrastructure d'IA de prochaine génération est prête à sortir des laboratoires pour entrer dans les centres de données commerciaux. À ce rythme, les 72 GPU d'aujourd'hui pourraient paraître modestes dès 2027.

UELa disponibilité commerciale de cette infrastructure GPU de prochaine génération conditionnera indirectement la compétitivité des acteurs européens de l'IA dans la course à l'entraînement de très grands modèles.

InfrastructureOpinion
1 source
mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU
14MarkTechPost 

mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU

Des chercheurs de l'Université de Californie à Berkeley, dans le cadre du projet UCCL, ont publié mKernel, une bibliothèque de noyaux CUDA persistants conçue pour fusionner les communications inter-GPU et le calcul en un seul et même noyau. Le problème qu'ils adressent est chiffré avec précision : dans les charges de travail d'IA en production, les communications peuvent absorber jusqu'à 43,6 % du temps de passe avant (forward pass) et 32 % du temps d'entraînement de bout en bout. Sur les modèles Mixture-of-Experts (MoE), cette proportion grimpe à 47 % du temps d'exécution total. mKernel propose cinq noyaux fusionnés couvrant les opérations les plus courantes : AllGather + GEMM, GEMM + AllReduce, dispatch MoE + GEMM, Ring Attention et GEMM + ReduceScatter. Chaque noyau fusionne simultanément les communications NVLink intra-nœud, le RDMA inter-nœud et le calcul dense, le tout orchestré directement par le GPU sans passer par le processeur central. Le gain fondamental de cette approche réside dans l'élimination du goulet d'étranglement lié au pilotage par le CPU. Dans le modèle classique, le processeur central contrôle les flux d'exécution et appelle des bibliothèques comme NCCL ou NVSHMEM pour déclencher les opérations collectives. Or, à l'échelle des infrastructures modernes, un rack GB300 NVL72 intègre 72 GPU Blackwell Ultra, livrant 720 PFLOPS en FP8 et 130 To/s de bande passante NVLink, les latences microsecondes introduites par chaque appel CPU créent des bulles visibles dans le pipeline. mKernel supprime ce niveau d'indirection : le GPU lui-même initie les transferts RDMA via libibverbs, sans dépendance à NCCL ou NVSHMEM. À l'intérieur du noyau, les blocs de threads (CTAs) se spécialisent automatiquement en rôles distincts, calcul, communication intra-nœud, envoi et réduction inter-nœud, avec un nombre de SMs alloués à chaque rôle ajustable selon la forme des tenseurs. Ce travail s'inscrit dans une tendance de fond qui voit la communauté de recherche en systèmes distribués chercher à repousser les limites du parallélisme à très grande échelle. Les architectures MoE, popularisées notamment par les modèles de DeepSeek et Mixtral, amplifient les besoins de communication car chaque token doit être routé dynamiquement vers des experts potentiellement situés sur des nœuds différents. Les bibliothèques existantes comme Flux ou DeepEP avaient déjà exploré la fusion de noyaux, mais restaient généralement confinées à un seul nœud ou un seul GPU. mKernel, évalué sur deux clusters de 2 nœuds à 8 GPU H200 chacun, étend ce paradigme au cas multi-nœud, ouvrant la voie à des entraînements et inférences distribués où la communication cesse d'être un frein structurel à la scalabilité.

UELes laboratoires et entreprises européens entraînant des modèles distribués à grande échelle (notamment MoE) pourraient bénéficier indirectement de cette bibliothèque open-source pour réduire leur overhead de communication inter-GPU.

RecherchePaper
1 source
Elon Musk prépare déjà Grok 5, la prochaine IA géante pour les développeurs ?
15Le Big Data 

Elon Musk prépare déjà Grok 5, la prochaine IA géante pour les développeurs ?

Elon Musk a annoncé le 25 mai 2026 la fin de l'entraînement du modèle Grok V9-Medium chez xAI, un système massif de 1,5 trillion de paramètres qui devrait être commercialisé sous le nom de Grok 4.5 ou Grok 5 d'ici deux à trois semaines. Ce chiffre représente trois fois la taille de la version actuelle V8-small utilisée pour le trafic quotidien de Grok. Le modèle entre désormais dans une phase de réglage fin supervisé, avec le lancement de l'apprentissage par renforcement prévu dans les prochains jours. Parmi les éléments notables de cet entraînement, xAI a intégré un volume important de données issues de Cursor, l'assistant de code alimenté par IA qui s'est imposé comme un outil de référence dans les workflows des développeurs professionnels. L'architecture a également été optimisée pour les GPU NVIDIA Blackwell afin d'améliorer l'efficacité de calcul et de réduire les coûts d'inférence. Ce qui distingue ce nouveau modèle des précédentes versions de Grok, c'est son orientation délibérée vers la programmation et l'ingénierie logicielle. En intégrant massivement des données réelles issues des habitudes des développeurs via Cursor, xAI cherche à construire un assistant capable de comprendre le code en profondeur, de corriger des bugs et de conduire un raisonnement logique complexe, plutôt que de simplement générer des extraits de code à la demande. Pour les entreprises tech et les équipes de développement, cela signifie un concurrent sérieux face à des outils comme GitHub Copilot, Claude ou GPT-4o dans le segment des assistants de codage, un marché en croissance rapide où la différenciation se joue désormais sur la spécialisation et la précision technique plutôt que sur les capacités généralistes. xAI s'inscrit dans une dynamique de course aux paramètres qui s'emballe depuis plusieurs mois dans l'industrie de l'IA, avec des annonces de modèles toujours plus massifs de la part d'OpenAI, Google DeepMind et Anthropic. Pour Musk, ce lancement représente également une opportunité de valoriser l'infrastructure du supercalculateur Colossus de xAI, dont la société cherche à prouver qu'elle peut rivaliser avec les centres de données des géants établis. La réduction des coûts d'inférence grâce à l'optimisation Blackwell est un enjeu stratégique concret : faire tourner un modèle de 1,5 trillion de paramètres à grande échelle représente des dépenses considérables, et la viabilité commerciale du produit dépendra autant de cette efficacité opérationnelle que de ses performances brutes sur les benchmarks. La sortie publique attendue courant juin 2026 constituera un test grandeur nature.

💬 1,5 trillion de paramètres, c'est soit impressionnant soit du flan selon comment tu arrives à le faire tourner à coût raisonnable. Ce qui m'intéresse vraiment, c'est les données Cursor : entraîner sur des vrais workflows de devs, pas juste du code GitHub, c'est une idée qui tient la route. Reste à voir si ça se traduit en gain réel ou juste en benchmark flatteur.

LLMsOpinion
1 source
☕️ Les agences de renseignement américaines à court de puissance de calcul pour leurs IA
16Next INpact 

☕️ Les agences de renseignement américaines à court de puissance de calcul pour leurs IA

La Maison Blanche aurait approuvé une enveloppe de 9 milliards de dollars destinée à doter les agences de renseignement américaines en puces IA de dernière génération, selon des informations rapportées par le New York Times. Ce financement, qui doit encore passer par le Congrès, vise à permettre à la CIA, la NSA et leurs homologues de faire tourner les modèles d'intelligence artificielle les plus récents sur des infrastructures à la hauteur. L'administration Trump aurait par ailleurs déjà redirigé 800 millions de dollars pour accélérer des achats de capacités de calcul en urgence. Parallèlement, la Maison Blanche aurait autorisé la NSA à continuer d'exploiter Mythos, le modèle le plus avancé d'Anthropic, dans le cadre d'un contrat classifié en préparation qui inclurait des restrictions sur le traitement de données concernant des citoyens américains. Les agences américaines se retrouvent dans la même situation que n'importe quel acteur privé : les infrastructures capables d'accueillir les grands modèles d'OpenAI, d'Anthropic ou de Google affichent complet, et les composants les plus puissants, comme les puces Grace Blackwell de NVIDIA, exigent des centres de données dotés de systèmes d'alimentation massifs. Or les réseaux infonuagiques classifiés du gouvernement, dont ceux opérés par AWS, ne peuvent pas être modernisés rapidement. Les agences n'auraient tout simplement pas anticipé les besoins en calcul de ces modèles, et les délais de déploiement restent incompressibles même avec de l'argent disponible. Résultat : les 800 millions déjà mobilisés représentent une goutte d'eau face à l'ampleur des besoins réels, et les 9 milliards supplémentaires n'arriveraient pas immédiatement sur le terrain. Cette situation s'inscrit dans une séquence de tensions entre Washington et les labos d'IA. Le Pentagone avait exigé un accès très large aux modèles avancés d'Anthropic pour ses opérations classifiées, ce qu'Anthropic a refusé, une affaire encore devant les tribunaux. Le DoD a finalement constitué un cercle de fournisseurs IA pour ses opérations secret défense, retenant OpenAI, Google, Microsoft et AWS, mais laissant Anthropic à l'écart, du moins officiellement. Le Pentagone qualifiait même l'entreprise de "risque" pour la chaîne d'approvisionnement et la sécurité nationale, ce qui rend d'autant plus notable la décision d'autoriser la NSA à continuer d'utiliser Mythos. Cette contradiction illustre la difficulté pour les institutions américaines de concilier impératifs de souveraineté numérique, besoins opérationnels croissants en IA, et dépendance inévitable envers quelques entreprises privées qui contrôlent les modèles les plus performants.

UELe retard des agences de renseignement américaines illustre les risques de dépendance envers quelques fournisseurs privés d'IA, un avertissement indirect pour les institutions européennes engagées dans des démarches de souveraineté numérique.

💬 9 milliards pour rattraper un retard que tout le monde voyait venir. Ce qui me frappe, c'est la contradiction : le Pentagone liste officiellement Anthropic comme un "risque sécurité" pour la chaîne d'approvisionnement, et pendant ce temps la NSA continue d'utiliser Mythos via un contrat classifié. Ça dit tout sur ce que vaut la "souveraineté numérique" quand les seuls modèles utilisables sont dans les mains de trois boîtes privées.

InfrastructureOpinion
1 source
Anthropic pourrait continuer à fournir Claude à la NSA malgré son signalement comme risque dans la chaîne d'approvisionnement par le Pentagone
17The Decoder 

Anthropic pourrait continuer à fournir Claude à la NSA malgré son signalement comme risque dans la chaîne d'approvisionnement par le Pentagone

Anthropic s'apprête à maintenir sa collaboration avec la NSA (National Security Agency) pour la fourniture de ses modèles d'intelligence artificielle, et ce malgré une désignation officielle de "risque dans la chaîne d'approvisionnement" émise par le Pentagone. Le contrat en cours de finalisation porte sur le déploiement du modèle "Mythos", une version de Claude conçue pour fonctionner sur du matériel plus ancien, ce qui correspond précisément aux infrastructures actuelles des agences de renseignement américaines, qui ne disposent pas encore des dernières puces Nvidia Grace Blackwell. Ce maintien du partenariat représente un signal fort pour l'adoption de l'IA dans les milieux militaires et du renseignement. La NSA, comme d'autres agences fédérales, cherche à intégrer des outils d'IA avancés sans attendre une modernisation complète de son parc matériel. Le fait qu'Anthropic accepte ces contraintes techniques montre que les acteurs de l'IA commerciale sont prêts à adapter leurs offres pour conquérir le lucratif marché gouvernemental américain, estimé à plusieurs milliards de dollars. Des négociations précédentes entre Anthropic et des entités gouvernementales avaient achoppé sur une clause controversée autorisant "tout usage légal" des modèles, jugée trop permissive. Cette clause a été retirée du nouvel accord, ce qui a permis de débloquer les discussions. La désignation de "risque d'approvisionnement" par le Pentagone, inhabituelle pour une entreprise américaine, illustre les tensions croissantes autour de la gouvernance de l'IA dans les secteurs sensibles, à l'heure où Washington cherche à encadrer plus strictement ses fournisseurs technologiques.

UECe débat sur la gouvernance de l'IA dans les secteurs de défense et du renseignement américains pourrait influencer indirectement les discussions européennes sur l'encadrement des fournisseurs d'IA critiques dans les secteurs sensibles.

💬 Être désigné "risque d'approvisionnement" par le Pentagone et signer quand même avec la NSA, le paradoxe est beau. Le vrai sujet, c'est ce modèle "Mythos" optimisé pour du matériel vieillissant: Anthropic a pigé que les agences de renseignement n'attendront pas dix ans pour renouveler leur parc de serveurs. La clause "tout usage légal" retirée du contrat, c'est quand même la seule vraie bonne nouvelle ici.

RégulationReglementation
1 source
Test du Nvidia DGX Spark : le mini PC IA 128 Go
18Frandroid 

Test du Nvidia DGX Spark : le mini PC IA 128 Go

Nvidia a lancé le DGX Spark, un mini PC dédié à l'intelligence artificielle locale, testé ici dans sa version assemblée par Dell sous le label Pro Max. Au cœur de la machine se trouve la puce maison GB10 Grace Blackwell Superchip, couplée à 128 Go de mémoire unifiée partagée entre le CPU et le GPU. Le tout tient dans un boîtier compact comparable à un Mac Mini, pour un tarif qui démarre autour de 3 000 dollars selon les configurations. Ce facteur de forme cache une puissance de calcul jusqu'ici réservée aux serveurs de datacenter : le DGX Spark est capable de faire tourner des modèles de langage de 70 milliards de paramètres et plus directement en local, sans dépendre du cloud. Pour les chercheurs, développeurs et entreprises soucieuses de confidentialité ou de latence, c'est un changement de paradigme concret. La mémoire unifiée de 128 Go élimine le goulot d'étranglement qui rendait ces modèles inaccessibles sur du matériel grand public. Le DGX Spark s'inscrit dans une offensive plus large de Nvidia pour étendre son emprise au-delà des grands clusters GPU, face à la montée en puissance des puces Apple Silicon M4 Ultra qui misent sur la même architecture de mémoire unifiée. Annoncé au CES 2025, le Spark cible une clientèle professionnelle et académique qui veut l'autonomie du local sans sacrifier la performance. Nvidia le positionne également comme point d'entrée vers son écosystème DGX, dont les versions rack coûtent des centaines de milliers de dollars.

UELes professionnels et chercheurs français et européens peuvent désormais faire tourner des modèles de 70 milliards de paramètres en local pour environ 3 000 dollars, réduisant la dépendance au cloud pour les cas d'usage sensibles en matière de confidentialité.

💬 128 Go de mémoire unifiée pour faire tourner un 70B en local, c'est le verrou qui saute. Nvidia a regardé ce qu'Apple faisait avec le M-Series et a poussé le même concept bien plus loin, sur une puce qui cible les workloads sérieux. 3 000 dollars c'est pas donné, mais pour une boîte qui veut garder ses données chez elle sans louer du GPU à la journée, le calcul se fait vite.

InfrastructureOpinion
1 source
La puce Vera de Nvidia, le pari à 200 milliards de dollars que Jensen Huang veut mettre en avant
19AI News 

La puce Vera de Nvidia, le pari à 200 milliards de dollars que Jensen Huang veut mettre en avant

Nvidia a publié mercredi ses résultats du premier trimestre fiscal avec un chiffre d'affaires de 81,62 milliards de dollars, dépassant les 78,86 milliards attendus par les analystes. La guidance pour le deuxième trimestre est fixée à 91 milliards, là encore au-dessus des 86,84 milliards anticipés par Wall Street. Mais lors de la conférence avec les analystes, le PDG Jensen Huang a mis en avant un élément stratégique souvent éclipsé par les chiffres trimestriels : le processeur Vera. Huang estime que cette puce CPU ouvre un marché adressable de 200 milliards de dollars, entièrement distinct du marché d'un billion de dollars déjà projeté pour les GPU Blackwell et Rubin entre 2025 et 2027. Il prévoit que les revenus issus de Vera atteindront 20 milliards de dollars d'ici la fin de l'exercice fiscal en cours, ce qui en ferait le deuxième poste de revenus de l'entreprise. La plateforme complète Vera Rubin, combinant le CPU Vera avec les GPU Rubin, doit être lancée plus tard cette année. La mise sur Vera répond à une menace structurelle sur le segment de l'inférence. Google, Amazon et Microsoft devraient investir collectivement plus de 700 milliards de dollars dans l'infrastructure IA cette année, contre environ 400 milliards en 2025, mais développent simultanément leurs propres puces maison pour faire tourner les modèles d'IA à grande échelle. Les TPU de Google, Trainium d'Amazon, ainsi que les offres d'Intel et AMD positionnent désormais sérieusement leurs processeurs sur l'inférence, le maillon où la domination GPU de Nvidia est la plus exposée. Entraîner de grands modèles reste le terrain de chasse exclusif de Nvidia, mais générer des réponses en temps réel et à l'échelle, c'est là que la concurrence fait son chemin. La puce Vera a été développée en partie grâce à une technologie issue de Groq, une startup spécialisée dans l'inférence, dans le cadre d'un accord de licence estimé à environ 17 milliards de dollars. L'enjeu immédiat reste l'approvisionnement. Huang a reconnu sans détour que Nvidia sera probablement en tension sur les stocks durant toute la durée de vie de la plateforme Vera Rubin. Pour anticiper, les engagements d'approvisionnement de l'entreprise ont bondi à 119 milliards de dollars au premier trimestre, contre 95,2 milliards le trimestre précédent. Nvidia a également annoncé un programme de rachat d'actions de 80 milliards de dollars et relevé son dividende trimestriel de 1 centime à 25 cents par action. Malgré ces signaux de confiance, le titre a reculé de 1,6 % en after-hours : les analystes estiment que les performances record sont désormais intégrées dans le cours. La vraie question est de savoir si Nvidia peut convaincre que la dynamique de dépenses en IA restera solide jusqu'en 2027 et 2028, dans un contexte où les géants du cloud bâtissent activement des alternatives à ses GPU.

UELes entreprises européennes et data centers qui dépendent des GPU Nvidia pour leurs infrastructures IA pourraient être confrontés à des tensions d'approvisionnement prolongées sur la plateforme Vera Rubin, avec un impact potentiel sur les coûts et délais de déploiement.

💬 Le chiffre qui compte vraiment, c'est pas les 81 milliards de revenus. C'est que Google, Amazon et Microsoft vont dépenser 700 milliards en infra IA cette année, en bonne partie pour construire leurs propres puces et sortir de la dépendance Nvidia sur l'inférence. Vera, c'est Jensen qui joue défensif avant que les dégâts arrivent, et c'est ça que les résultats record font oublier.

Cohere maîtrise la quantification sans perte et les citations natives avec Command A+, son premier modèle Apache 2.0
20VentureBeat AI 

Cohere maîtrise la quantification sans perte et les citations natives avec Command A+, son premier modèle Apache 2.0

Le laboratoire canadien d'intelligence artificielle Cohere a dévoilé Command A+, un modèle de langage de 218 milliards de paramètres conçu pour le raisonnement complexe, le traitement de documents multimodaux et les workflows agentiques. La particularité de cette annonce réside dans sa licence : pour la première fois de son histoire, Cohere publie ses poids sous licence Apache 2.0, une des licences open source les plus permissives, disponibles gratuitement sur Hugging Face. Le modèle repose sur une architecture Sparse Mixture-of-Experts (MoE) : seulement 25 milliards de paramètres sur les 218 sont activés lors de chaque génération. Cette efficacité architecturale est renforcée par une quantification poussée. Command A+ est disponible en format 4-bit (W4A4), ce qui lui permet de tourner sur un seul GPU NVIDIA Blackwell B200 ou deux NVIDIA H100, tout en atteignant 375 tokens par seconde avec une latence de 113 millisecondes au premier token, soit 63 % plus rapide et 17 % moins de latence que son prédécesseur Command A Reasoning. Un tokeniseur entièrement repensé assure par ailleurs un support natif de 48 langues, avec une meilleure efficacité pour les langues non européennes. Ce lancement marque une percée technique sur la quantification sans perte, un problème qui freinait jusqu'ici l'adoption des grands modèles en production. En ne quantifiant à 4 bits que les réseaux d'experts MoE tout en conservant la pleine précision sur les couches d'attention, et en appliquant une technique appelée Quantization-Aware Distillation, Cohere parvient à comprimer massivement le modèle sans dégrader ses capacités de raisonnement. Pour les entreprises, cela signifie concrètement qu'un modèle de niveau frontier peut désormais s'exécuter en interne, sur leur propre infrastructure, sans dépendre d'API tierces ni exposer leurs données sensibles à des tiers. C'est une rupture nette avec les modèles propriétaires de OpenAI ou Anthropic, estimés à plusieurs milliers de milliards de paramètres et uniquement accessibles via le cloud. Ce pari s'inscrit dans la stratégie dite d'IA souveraine défendue par Aidan Gomez, cofondateur de Cohere et ancien chercheur chez Google, l'un des auteurs du célèbre article « Attention Is All You Need » qui a posé les bases des transformers modernes. L'idée est de permettre aux gouvernements, grandes entreprises et développeurs de déployer des modèles de niveau frontier entièrement sous leur contrôle. Cette publication intervient peu après l'annonce d'une fusion entre Cohere et le laboratoire allemand Aleph Alpha, deux acteurs qui misent sur la souveraineté numérique face à la domination américaine. Avec Command A+, Cohere ne s'attaque pas seulement au marché des API cloud : il repositionne l'open source comme une réponse crédible aux géants propriétaires, au moment où les exigences réglementaires et la sensibilité aux données poussent de plus en plus d'organisations à reprendre la main sur leur infrastructure IA.

UELa fusion Cohere–Aleph Alpha et la licence Apache 2.0 de Command A+ permettent aux organisations européennes de déployer un modèle frontier en interne sur leur propre infrastructure, renforçant la souveraineté numérique face aux plateformes cloud américaines et facilitant la conformité à l'AI Act.

💬 Deux H100 pour un modèle de 218 milliards de paramètres sans perte de qualité, c'est pas rien. La technique qui quantifie uniquement les couches MoE tout en gardant la pleine précision sur l'attention, c'est une vraie trouvaille, pas juste de la compression agressive qui dégrade en douce. Et Cohere qui ouvre ses poids en Apache 2.0 pour la première fois de son histoire, ça c'est le signal fort pour toutes les orgas européennes qui voulaient du souverain sans se faire distancer techniquement.

LLMsOpinion
1 source
NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA
21NVIDIA AI Blog 

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

À l'occasion de Google I/O 2026, NVIDIA et Google Cloud ont annoncé une série de nouvelles ressources pour leur communauté de développeurs commune, qui regroupe désormais plus de 100 000 membres. Lancée lors de Google I/O l'année précédente, cette communauté réunit développeurs, data scientists et ingénieurs en machine learning autour de l'écosystème NVIDIA sur Google Cloud. Parmi les nouveautés dévoilées cette année : un parcours d'apprentissage dédié à la bibliothèque JAX sur GPU NVIDIA, un codelab centré sur NVIDIA Dynamo pour l'optimisation de l'inférence, ainsi que des livestreams mensuels. Les développeurs peuvent désormais déployer des applications multi-agents en combinant les modèles ouverts Gemma 4 de Google DeepMind, les modèles NVIDIA Nemotron et le Google Agent Development Kit, sur des machines virtuelles G4 de Google Cloud équipées de GPU NVIDIA RTX PRO 6000 Blackwell, via Google Cloud Run ou des instances spot. Le nouveau parcours JAX et le codelab NVIDIA Dynamo sur GKE seront disponibles le mois prochain pour les membres de la communauté. Ces annonces ont un impact direct pour les équipes techniques qui cherchent à passer du prototype à la production rapidement. En combinant des modèles ouverts, des bibliothèques accélérées comme cuDF dans Google Colab Enterprise ou Dataproc, et une infrastructure GPU de dernière génération, les développeurs disposent d'un pipeline complet pour construire des applications d'IA prêtes pour la production : des systèmes RAG (retrieval-augmented generation) sur GKE aux pipelines de données d'entreprise en passant par l'analyse sportive. La collaboration sur JAX, framework de calcul numérique utilisé notamment par Google DeepMind pour l'entraînement de grands modèles, étend ces optimisations jusqu'à la plateforme Google Cloud AI Hypercomputer et au framework MaxText, permettant de passer d'expériences sur un seul GPU à des déploiements multi-rack avec une expérience cohérente. L'un des volets les plus significatifs du partenariat concerne l'IA responsable : NVIDIA est le premier partenaire industriel à avoir collaboré avec Google DeepMind sur SynthID, une technologie de tatouage numérique qui intègre des filigranes robustes directement dans les contenus générés par l'IA. Cette technologie est appliquée aux modèles Cosmos de NVIDIA, des modèles de fondation dédiés à la perception 3D et à la simulation pour robots et systèmes autonomes, disponibles sur build.nvidia.com. Dans un contexte où les agents IA combinent de plus en plus modèles propriétaires et open source pour raisonner et agir de manière autonome, cette couche de transparence devient un enjeu central pour la confiance des organisations qui déploient ces systèmes à grande échelle.

UELa technologie SynthID de filigrane numérique, développée avec Google DeepMind et intégrée aux modèles NVIDIA, répond directement aux obligations de transparence de l'AI Act européen sur les contenus générés par IA (Article 50).

OutilsOutil
1 source
Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle
22NVIDIA AI Blog 

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

Lors du Dell Technologies World, Jensen Huang, PDG de NVIDIA, a rejoint sur scène Michael Dell pour présenter une nouvelle génération d'infrastructures dédiées à l'IA agentique. Les deux dirigeants ont annoncé plusieurs serveurs inédits, dont le Dell PowerEdge XE9812, construit autour de la puce NVIDIA Vera Rubin NVL72, qui affiche un coût par token jusqu'à dix fois inférieur à celui de l'architecture Blackwell pour les déploiements d'inférence à grande échelle. À ses côtés, les serveurs PowerEdge XE9880L, XE9885L et XE9882L s'appuient sur les modules NVIDIA HGX Rubin NVL8, premiers systèmes Dell à adopter cette architecture, supportant jusqu'à 144 GPU par rack, avec des noeuds de calcul entièrement refroidis par liquide et des performances jusqu'à 5,5 fois supérieures au HGX B200. Du côté des processeurs, les PowerEdge M9822 et R9822 intègrent le CPU NVIDIA Vera, doté d'une bande passante mémoire de 1,2 To/s, capable d'exécuter des charges agentiques 50 % plus rapidement que les processeurs x86. Dell a également dévoilé le PowerRack, un système entièrement intégré, ainsi qu'une mise à jour de son AI Data Platform incluant le moteur Starburst, qui offre un débit SQL jusqu'à trois fois supérieur sur CPU Vera. Cinq mille entreprises, dont Lilly, Samsung et Honeywell, exploitent déjà des charges de travail IA sur des Dell AI Factories avec NVIDIA. Ces annonces s'inscrivent dans un contexte de demande explosive. Michael Dell a rappelé que les dépenses mondiales en infrastructure IA pourraient atteindre entre 3 000 et 4 000 milliards de dollars d'ici 2030, avec une consommation de tokens projetée en hausse de 3 400 % sur la même période. Jensen Huang a résumé la situation sans détour : "Nous sommes entrés dans l'ère de l'IA utile, c'est pourquoi la demande est parabolique, absolument parabolique." Pour les entreprises, l'enjeu est direct : réduire le coût de l'inférence pour rendre les agents autonomes économiquement viables en production, et non plus seulement dans des environnements pilotes. La vitesse sur les bases de données est particulièrement stratégique, car les agents IA interrogent en continu ces systèmes pour accomplir leurs tâches, rendant la performance CPU aussi critique que celle des GPU. Cette conférence marque une accélération nette dans la course aux infrastructures IA d'entreprise. NVIDIA et Dell s'inscrivent dans une compétition directe avec les géants du cloud -- Amazon, Google, Microsoft -- qui proposent leurs propres puces et services managés. L'argument central de Dell est de permettre aux entreprises de faire tourner leurs modèles frontières et leurs agents autonomes dans leur propre périmètre sécurisé, sans dépendre d'un fournisseur cloud. La génération Rubin succède à Blackwell, lancée en 2024, et la cadence s'accélère : NVIDIA a maintenu un rythme d'une nouvelle architecture tous les un à deux ans. Pour des groupes comme Honeywell ou Lilly, dont les données sont sensibles et les contraintes réglementaires fortes, la promesse d'une IA souveraine et haute performance constitue un argument de poids face aux offres cloud publiques.

UELes entreprises européennes soumises aux contraintes RGPD pourraient tirer parti de l'offre d'IA souveraine on-premise Dell/NVIDIA pour réduire leur dépendance aux clouds publics américains.

InfrastructureActu
1 source
NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres
23MarkTechPost 

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

Des chercheurs de NVIDIA ont publié une méthodologie complète pour préentraîner des grands modèles de langage en précision 4 bits, en s'appuyant sur un format maison baptisé NVFP4, conçu pour les cœurs tensoriels Blackwell des GPU GB200 et GB300. Pour valider l'approche, l'équipe a préentraîné un modèle hybride Mamba-Transformer de 12 milliards de paramètres sur 10 000 milliards de tokens, ce que NVIDIA décrit comme la durée d'entraînement la plus longue jamais documentée publiquement en précision 4 bits. Les résultats sont frappants par leur proximité avec la référence FP8 : le modèle NVFP4 atteint 62,58 % sur le benchmark MMLU-Pro en configuration 5-shot, contre 62,62 % pour son équivalent FP8, soit un écart de seulement 0,04 point de pourcentage. Sur le plan matériel, les calculs matriciels en FP4 atteignent un débit 4 fois supérieur au BF16 sur le GB200 et 6 fois sur le GB300, ce qui se traduit par des gains de vitesse réels d'environ 2x et 3x par rapport au FP8, avec une empreinte mémoire réduite de moitié. Ce résultat ouvre une perspective concrète pour l'industrie : entraîner des modèles de la taille de 12 milliards de paramètres, et potentiellement bien plus grands, à un coût de calcul significativement inférieur, sans sacrifier la qualité mesurable. Pour les laboratoires et les entreprises qui dépensent des dizaines ou des centaines de millions de dollars en clusters GPU, réduire la consommation mémoire de moitié et doubler voire tripler le débit effectif représente des économies substantielles sur l'ensemble du cycle d'entraînement. La prise en charge est intégrée directement dans le Transformer Engine de NVIDIA, ce qui signifie que l'adoption ne nécessite pas de réingénierie complète des pipelines existants. Le passage de FP8 à FP4 pour l'entraînement, et non seulement pour l'inférence, est un problème ouvert depuis plusieurs années. Les formats 4 bits compriment la plage dynamique de représentation et amplifient les erreurs de quantification sur de longues séquences de tokens, rendant les entraînements instables. NVFP4 répond à ces problèmes par trois innovations structurelles par rapport au standard MXFP4 : une taille de bloc réduite de 32 à 16 éléments, des facteurs d'échelle par bloc stockés en E4M3 plutôt qu'en UE8M0 (gagnant en précision de mantisse), et un second niveau d'échelle par tenseur en FP32. La méthodologie d'entraînement repose ensuite sur quatre composantes complémentaires : le maintien en BF16 des couches linéaires dans les deux premiers et les huit derniers blocs du réseau (soit environ 16 % des couches au total), l'application de transformées de Hadamard aléatoires sur les gradients de poids pour lisser les valeurs aberrantes, un ajustement adaptatif des facteurs d'échelle, et une technique de delayed scaling similaire à celle déjà utilisée en FP8. Les expériences d'ablation montrent que chacun de ces éléments est indispensable à la convergence stable sur 10 000 milliards de tokens.

UELes laboratoires et entreprises européens investissant dans l'entraînement de grands modèles pourraient réduire significativement leurs coûts de calcul si cette méthode est adoptée sur du matériel Blackwell, mais sans impact réglementaire direct sur la France ou l'UE.

💬 Ça fait des années qu'on cherche à entraîner en FP4 sans que ça parte en vrille au bout de quelques milliards de tokens, et là NVIDIA montre que c'est faisable avec 0,04 point d'écart sur MMLU-Pro. Réduire la mémoire de moitié et doubler le débit réel, c'est pas du flan, c'est des économies qui changent l'équation pour ceux qui entraînent à grande échelle. Bon, faut du GB200 ou GB300, donc si tu n'as pas Blackwell, c'est pas pour toi tout de suite.

InfrastructurePaper
1 source
L'action Cerebras double presque le premier jour, valorisant le fabricant de puces IA à 100 milliards de dollars
24VentureBeat AI 

L'action Cerebras double presque le premier jour, valorisant le fabricant de puces IA à 100 milliards de dollars

Cerebras Systems, le fabricant de puces basé dans la Silicon Valley, a fait une entrée fracassante au Nasdaq le 14 mai 2026 : l'action a ouvert à 350 dollars, soit presque le double du prix d'introduction fixé à 185 dollars, propulsant la capitalisation boursière de la société au-delà des 100 milliards de dollars dès les premières heures de cotation. L'entreprise a levé 5,55 milliards de dollars en vendant 30 millions d'actions, ce qui en fait la plus grande introduction en bourse technologique américaine depuis Uber en 2019. La demande des investisseurs a littéralement submergé les attentes initiales : Cerebras avait d'abord fixé une fourchette cible de 115 à 125 dollars, l'avait relevée à 150-160 dollars face à l'engouement, avant de fixer le prix final encore au-dessus de cette bande révisée. La société, dont le chiffre d'affaires a progressé de 76 % pour atteindre 510 millions de dollars en 2025, a annoncé son intention d'investir ces nouveaux capitaux dans l'expansion de son infrastructure cloud d'inférence. Ce succès boursier repose sur une architecture radicalement différente de celle de Nvidia. Le Wafer-Scale Engine WSE-3 de Cerebras est un processeur unique qui occupe un wafer de silicium entier, le disque de la taille d'une assiette à partir duquel sont normalement découpées des dizaines de puces classiques. Avec 4 000 milliards de transistors, 900 000 cœurs de calcul et 44 gigaoctets de mémoire embarquée, il est 58 fois plus grand que le B200 de Nvidia et offre 2 625 fois plus de bande passante mémoire. Cet avantage est décisif pour l'inférence d'IA, le processus qui consiste à faire tourner un modèle entraîné pour générer des réponses : chaque token produit nécessite de déplacer l'intégralité des poids du modèle entre mémoire et calcul, une opération strictement séquentielle où la bande passante est le facteur limitant. Cerebras revendique des vitesses d'inférence jusqu'à 15 fois supérieures aux solutions GPU concurrentes sur modèles open source, un chiffre confirmé par le cabinet d'analyse indépendant Artificial Analysis. Le parcours de Cerebras jusqu'à cette cotation a été tout sauf linéaire. Fondée en 2015 sur le pari que les charges de travail de l'IA seraient fondamentalement contraintes par les communications entre mémoire et calcul, la société a passé des années à résoudre un problème que l'industrie des semi-conducteurs avait tenté et abandonné à plusieurs reprises sur 75 ans d'histoire. Cerebras avait une première fois déposé son dossier d'introduction en bourse en septembre 2024, avant de se retirer face aux questions des régulateurs sur sa dépendance quasi totale à un seul client aux Émirats arabes unis. Le redépôt d'avril 2026 présentait un profil radicalement différent : des partenariats avec OpenAI et Amazon Web Services, un service d'inférence cloud en forte croissance, et une base de revenus diversifiée. La capitalisation atteinte dès le premier jour place désormais Cerebras parmi les fabricants de semi-conducteurs les plus valorisés au monde, dans un secteur où Nvidia règne encore en maître incontesté.

💬 100 milliards le premier jour, le marché n'attendait visiblement que ça. Ce qui m'intéresse plus que le chiffre boursier, c'est que leur pari de 2015 (l'inférence est bornée par la bande passante mémoire, pas par le compute) était juste, là où l'industrie avait abandonné ce problème depuis 75 ans. Les 15x sur l'inférence sont validés par des labos indépendants, c'est pas du marketing.

InfrastructureActu
1 source
Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres
25MarkTechPost 

Nous Research publie une méthode d'entraînement par superposition de tokens qui accélère le pré-entraînement des LLM jusqu'à 2,5x pour des modèles de 270M à 10B paramètres

Nous Research vient de publier Token Superposition Training (TST), une méthode qui réduit significativement le temps de pré-entraînement des grands modèles de langage sans toucher à leur architecture, leur optimiseur, leur tokenizer ni leur stratégie de parallélisme. Les gains mesurés sont substantiels : à l'échelle d'un modèle MoE (mixture d'experts) de 10 milliards de paramètres avec 1 milliard actifs, TST atteint une perte d'entraînement finale inférieure à celle d'une baseline équivalente en FLOPs, tout en consommant 4 768 heures-GPU B200 contre 12 311 pour la baseline, soit une réduction d'environ 2,5x du temps total. La méthode a été validée à quatre échelles : 270 millions et 600 millions de paramètres denses, 3 milliards (architecture SmolLM3), et le MoE 10B-A1B de la famille Qwen3. Toutes les expériences ont été conduites sur 64 GPU NVIDIA B200 via TorchTitan, en utilisant les jeux de données DCLM et FineWeb-Edu. TST fonctionne en deux phases séquentielles. Durant la première phase dite de superposition, qui représente entre 20 % et 40 % du total des étapes d'entraînement, le modèle ne traite pas des tokens individuels mais des groupes de tokens contigus. Dans la couche d'embedding, chaque groupe de s tokens est fusionné en un unique vecteur latent par moyennage des embeddings, permettant au transformer de traiter une séquence s fois plus courte et d'ingérer ainsi s fois plus de texte par unité de calcul. Une fonction de perte spécifique, la multi-hot cross-entropy, remplace la cross-entropy standard pour prédire simultanément le groupe de tokens suivant, et peut s'implémenter avec les noyaux de calcul déjà présents dans les bibliothèques d'entraînement existantes, sans écrire de code CUDA personnalisé. Dans la seconde phase de récupération, l'entraînement reprend avec la prédiction classique token par token. Un pic de perte transitoire de 1 à 2 nats apparaît à la transition mais se résorbe en quelques milliers de pas. Le modèle produit est architecturalement identique à un modèle entraîné de façon conventionnelle. L'enjeu derrière cette publication est considérable : le pré-entraînement des LLMs représente l'un des postes de coût les plus lourds de l'industrie, et les régimes actuels poussent déjà bien au-delà des estimations compute-optimales. Réduire ce coût d'un facteur 2,5 sans dégrader la qualité finale du modèle ouvre des perspectives importantes, notamment pour les laboratoires aux ressources limitées. TST s'inscrit dans une tendance plus large visant à améliorer le débit de données par FLOP dépensé, dans la lignée des tokenizers sous-mots BPE qui compressent déjà les séquences. Nous Research, connu pour ses modèles Hermes et ses travaux sur l'alignement et le fine-tuning, signe ici une contribution orientée fondations, avec une implémentation conçue pour s'intégrer directement dans les pipelines de pré-entraînement existants. Le papier accompagnant la publication est disponible sur arXiv (2605.06546).

UELes laboratoires et startups européens qui réalisent du pré-entraînement LLM à grande échelle pourraient bénéficier de cette réduction de coût de 2,5x, mais aucun acteur français ou européen n'est impliqué dans ces travaux.

RecherchePaper
1 source
Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire
26Frandroid 

Nvidia franchit les 5 500 milliards en Bourse, du jamais-vu dans l’histoire

Nvidia a franchi ce mercredi 13 mai 2026 le seuil des 5 500 milliards de dollars de capitalisation boursière, un record absolu dans l'histoire des marchés financiers. Jamais aucune entreprise n'avait atteint une telle valorisation. Pour mettre ce chiffre en perspective, Nvidia pèse désormais plus d'une fois et demie le PIB annuel de la France, qui s'établit autour de 3 200 milliards de dollars. Le groupe californien, fondé par Jensen Huang, s'est imposé comme le fournisseur incontournable de puces GPU utilisées pour entraîner et faire tourner les modèles d'intelligence artificielle. Cette valorisation record illustre l'appétit insatiable des marchés pour tout ce qui touche à l'IA générative. Nvidia capte une part écrasante des dépenses d'infrastructure des géants technologiques, Microsoft, Google, Amazon, Meta, qui investissent des centaines de milliards de dollars dans leurs datacenters. Ses puces H100, H200 et Blackwell sont en rupture chronique depuis deux ans, ce qui confère à l'entreprise un pouvoir de fixation des prix exceptionnel et des marges brutes dépassant 70 %. Nvidia a profité d'une longueur d'avance stratégique grâce à CUDA, son écosystème logiciel développé depuis 2006, qui a rendu ses GPU quasi indétrônables dans la recherche et l'industrie IA. Ses concurrents, AMD et Intel côté puces, ou les solutions maison de Google (TPU) et Amazon (Trainium), peinent encore à rogner sa domination. La question qui se pose désormais est de savoir si cette croissance est soutenable, ou si un ralentissement des investissements en IA pourrait provoquer une correction aussi spectaculaire que l'ascension.

UELes startups et entreprises européennes développant des solutions IA restent structurellement dépendantes des puces Nvidia, dont les prix élevés et la pénurie chronique renchérissent le coût d'accès à l'infrastructure IA sur le marché européen.

InfrastructureOpinion
1 source
NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement
27NVIDIA AI Blog 

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

NVIDIA et Ineffable Intelligence, le laboratoire d'IA londonien fondé par David Silver, l'architecte d'AlphaGo, ont annoncé un partenariat technique approfondi pour concevoir l'infrastructure nécessaire à l'apprentissage par renforcement à grande échelle. Des ingénieurs des deux sociétés travaillent conjointement sur la construction d'un pipeline d'entraînement optimisé, en démarrant sur la plateforme NVIDIA Grace Blackwell et en préparant l'intégration de la prochaine architecture Vera Rubin, encore inédite. Jensen Huang, fondateur et PDG de NVIDIA, a qualifié les systèmes d'apprentissage continu par expérience de "prochaine frontière de l'IA", tandis que Silver, sorti du mode furtif la semaine dernière seulement avec Ineffable Intelligence, entend pousser ce paradigme bien au-delà de ses applications actuelles. L'enjeu technique est significatif. Contrairement au pré-entraînement classique, qui consomme un jeu de données fixe de textes et d'images humaines, l'apprentissage par renforcement génère ses propres données en temps réel : l'agent agit, observe les résultats, évalue et se met à jour en boucle serrée. Ce mode de fonctionnement impose des contraintes très différentes sur les interconnexions, la bande passante mémoire et l'inférence. S'y ajoutent des formes d'expérience potentiellement étrangères au langage humain, ce qui pourrait nécessiter des architectures de modèles et des algorithmes d'entraînement entièrement nouveaux. Résoudre ces contraintes à l'échelle est ce que visent conjointement les deux équipes. David Silver est l'une des figures centrales de l'apprentissage par renforcement depuis des décennies : il a co-développé DQN chez DeepMind avant de concevoir AlphaGo, le premier programme à battre un champion du monde de go en 2016. Son raisonnement est direct : les chercheurs ont "largement résolu le problème facile de l'IA", soit apprendre à partir de ce que les humains savent déjà, mais le vrai défi reste de construire des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. Ce virage, de la donnée humaine vers la simulation et l'expérience autonome, est au coeur de la mission d'Ineffable Intelligence. Si le partenariat tient ses promesses, il pourrait débloquer une nouvelle génération d'agents capables de progresser dans des environnements complexes sans plafond de données humaines, ouvrant potentiellement des découvertes dans des domaines allant de la recherche scientifique à la robotique.

RecherchePaper
1 source
La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi
28Ars Technica AI 

La nouvelle idée portée par l'essor de l'IA : héberger un mini data center chez soi

La startup californienne SPAN, basée à San Francisco, a annoncé un projet inédit : installer de mini-centres de données directement chez des particuliers, sous forme de boîtiers compacts baptisés XFRA nodes. Ces appareils embarquent des GPU Nvidia RTX Pro 6000 Blackwell Server Edition refroidis par liquide, conçus pour fonctionner en silence. En échange de l'espace et de l'électricité, les propriétaires recevraient en contrepartie un accès Internet subventionné, une réduction sur leur facture d'électricité et des batteries de secours. SPAN a déjà commencé des tests pilotes et prévoit un déploiement auprès de 100 foyers d'ici la fin de l'année 2026. L'enjeu est de taille pour l'industrie de l'IA : la demande en puissance de calcul explose, mais construire de nouveaux datacenters classiques prend des années et se heurte à des obstacles réglementaires, fonciers et énergétiques considérables. En distribuant cette infrastructure dans les foyers américains, SPAN espère mobiliser rapidement des capacités de calcul dormantes sans les coûts et délais habituels. Pour les ménages, le modèle ressemble à celui des contrats d'effacement électrique ou des panneaux solaires avec revente de surplus : on cède une ressource inutilisée contre un avantage financier tangible. Chris Lander, vice-président de la division XFRA chez SPAN, résume la promesse ainsi : là où les datacenters traditionnels sont bruyants, disgracieux et font monter les prix de l'électricité dans les quartiers, l'XFRA node serait discret et rendrait l'énergie moins chère pour le foyer et la communauté. Ce type d'approche décentralisée n'est pas sans précédent, des projets comme Filecoin ou Helium ont tenté de monétiser la bande passante ou le stockage résidentiel avec des résultats mitigés. La différence ici réside dans la puissance matérielle déployée et dans l'appétit sans précédent des acteurs de l'IA pour du calcul supplémentaire. Reste à voir si les contraintes pratiques, consommation électrique résiduelle, gestion thermique, responsabilité légale des hôtes, seront surmontées à grande échelle, et si les régulateurs américains valideront ce modèle hybride entre infrastructure industrielle et usage résidentiel.

InfrastructureOpinion
1 source
Propulser le siècle américain : Chris Wright et Ian Buck de NVIDIA sur la mission Genesis
29NVIDIA AI Blog 

Propulser le siècle américain : Chris Wright et Ian Buck de NVIDIA sur la mission Genesis

Le secrétaire américain à l'Énergie Chris Wright et Ian Buck, vice-président d'NVIDIA chargé du HPC et de l'hyperscale, se sont exprimés jeudi lors de l'AI+ Expo organisée par le SCSP à Washington. Leur message central : la compétitivité américaine dans l'intelligence artificielle passe par la maîtrise de l'énergie. Au coeur du dispositif figure la Genesis Mission, programme du Département de l'Énergie (DOE) visant à appliquer l'IA à la découverte scientifique. NVIDIA en est l'un des partenaires industriels clés, fort selon Buck de vingt ans de collaboration avec les laboratoires nationaux américains. Concrètement, NVIDIA et le DOE construisent ensemble deux supercalculateurs à l'Argonne National Laboratory : le premier, baptisé Equinox, est actuellement en cours d'installation avec 10 000 GPU Grace Blackwell ; le second, Solstice, mobilisera 100 000 GPU de la prochaine génération Vera Rubin, pour une puissance de 5 000 exaflops, soit cinq fois la capacité cumulée de l'ensemble du classement TOP500 des supercalculateurs mondiaux. NVIDIA a également entraîné un modèle open source sur 1,5 million d'articles de physique, puis affiné sur 100 000 publications dédiées à la fusion nucléaire, pour produire un agent IA interrogeable par les chercheurs du DOE. L'enjeu est double : accélérer la recherche scientifique fondamentale et résoudre, par la même occasion, le problème énergétique que l'IA elle-même crée. Wright a souligné que si les États-Unis ont triplé leur production pétrolière et doublé leur production de gaz naturel au cours des vingt dernières années, la production d'électricité, elle, a à peine progressé. Or l'électricité est précisément le vecteur énergétique dont dépend l'IA. Sans une infrastructure électrique capable de croître rapidement, ce sont les progrès de l'IA eux-mêmes qui pourraient être freinés, a prévenu le secrétaire. Pour répondre à cette contrainte, le DOE s'appuie sur les trois piliers du réseau électrique américain : gaz naturel, nucléaire et charbon. Wright a annoncé que trois petits réacteurs modulaires (SMR) entreront en service avant le 4 juillet prochain, avec de nouveaux grands réacteurs et des SMR supplémentaires attendus dans la foulée. Un bureau stratégique dédié à la fusion nucléaire a également été créé au sein du département, avec des programmes de recherche que Wright décrit comme "hyperchargés" grâce aux capacités de calcul que l'IA apporte désormais. Jensen Huang, PDG de NVIDIA, a lui résumé la chaîne de valeur de l'IA comme un gâteau à cinq couches, dont l'énergie constitue la base. La Genesis Mission incarne cette logique de boucle vertueuse : l'IA finance et accélère les sciences de l'énergie, qui à leur tour alimentent l'infrastructure dont l'IA a besoin pour continuer à progresser.

InfrastructureActu
1 source
☕️ AMD lance sa Radeon Instinct MI350P : un demi-GPU de MI350X en PCIe 5.0
30Next INpact 

☕️ AMD lance sa Radeon Instinct MI350P : un demi-GPU de MI350X en PCIe 5.0

AMD a officiellement présenté l'Instinct MI350P, un nouveau GPU d'intelligence artificielle destiné aux serveurs standards. Cette carte se distingue de ses aînées MI350X et MI355X par son format PCIe 5.0, qui lui permet d'être installée directement dans un serveur ou un ordinateur classique, sans infrastructure spécialisée. Elle repose sur la même architecture CDNA4 que le reste de la famille MI350, mais avec des caractéristiques exactement divisées par deux : 144 Go de mémoire HBM3E contre 288 Go pour la MI350X, une bande passante mémoire de 4 To/s contre 8 To/s, et 8 192 processeurs de flux pour 4,6 PFLOPS en précision MXFP4, là où la MI350X atteint 9,2 PFLOPS avec ses 16 384 processeurs. Le TDP est plafonné à 600 watts, la fréquence reste à 2,2 GHz, et la carte occupe deux emplacements. Le prix n'a pas encore été communiqué. Cette MI350P cible en priorité les charges d'inférence, c'est-à-dire l'exécution de modèles d'IA déjà entraînés, plutôt que leur apprentissage. Son format PCIe standard ouvre le marché des IA aux opérateurs disposant de parcs de serveurs classiques, qui n'ont pas les moyens ou la nécessité d'investir dans des infrastructures haute densité avec refroidissement liquide. Pour les entreprises cherchant à déployer des modèles de taille intermédiaire à moindre coût d'intégration, la MI350P représente une alternative sérieuse face aux offres concurrentes de NVIDIA sur ce segment. Cette annonce s'inscrit dans une stratégie AMD clairement articulée : couvrir l'ensemble du spectre de performance avec des variantes adaptées à chaque usage. Après avoir lancé la MI350X pour les supercalculateurs et la MI355X avec refroidissement liquide pour les déploiements à très haute densité, AMD comble le segment des serveurs polyvalents avec la MI350P. La pression de NVIDIA reste intense, notamment avec la famille Blackwell, mais AMD cherche à convaincre les grands hyperscalers et les entreprises cloud de diversifier leurs approvisionnements. La prochaine étape sera la communication des tarifs, un signal décisif pour évaluer la compétitivité réelle de cette carte sur le marché de l'inférence IA.

UELes entreprises européennes exploitant des parcs de serveurs classiques pourraient déployer de l'inférence IA à moindre coût d'intégration grâce au format PCIe 5.0, sans investissement en infrastructure haute densité.

InfrastructureActu
1 source
NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC
31NVIDIA AI Blog 

NVIDIA Spectrum-X, le réseau Ethernet ouvert conçu pour l'IA, s'impose comme référence à grande échelle, avec MRC

NVIDIA a annoncé que son infrastructure réseau Spectrum-X Ethernet intègre désormais le protocole MRC (Multipath Reliable Connection), une innovation développée conjointement avec OpenAI et Microsoft, et désormais publiée en spécification ouverte via l'Open Compute Project. MRC est un protocole de transport RDMA qui permet à une seule connexion réseau de distribuer le trafic sur plusieurs chemins simultanément, améliorant le débit, l'équilibrage de charge et la disponibilité des infrastructures d'entraînement IA à grande échelle. Parmi les premiers déploiements en production figurent le datacenter Fairwater de Microsoft et le datacenter Abilene d'Oracle Cloud Infrastructure, deux des plus grandes usines IA au monde dédiées à l'entraînement de modèles de pointe. OpenAI a notamment intégré MRC dans sa génération Blackwell : Sachin Katti, responsable du calcul industriel chez OpenAI, a confirmé que le protocole a permis d'éviter la majorité des ralentissements réseau habituels lors des runs d'entraînement frontier à grande échelle. L'enjeu est directement économique et computationnel : dans un cluster d'entraînement réunissant des milliers de GPU, la moindre interruption réseau peut bloquer l'intégralité d'un job d'entraînement, laissant des GPU à l'arrêt et brûlant des millions de dollars en temps de calcul inutilisé. MRC répond à ce problème en détectant les pannes réseau en quelques microsecondes et en reroutant automatiquement le trafic dans le matériel lui-même, sans intervention logicielle. Le protocole maintient également une bande passante élevée sous congestion en évitant dynamiquement les chemins surchargés en temps réel, et minimise l'impact des pertes de paquets grâce à une retransmission intelligente et ciblée. Les administrateurs gagnent par ailleurs une visibilité granulaire sur les chemins de trafic, ce qui simplifie considérablement les opérations à très grande échelle. Cette annonce s'inscrit dans une course mondiale à la construction d'infrastructures réseau capables de suivre l'explosion des besoins en calcul IA. Jusqu'ici, InfiniBand de Mellanox, aussi propriété de NVIDIA, dominait les clusters HPC et IA haute performance, tandis qu'Ethernet était perçu comme moins adapté aux charges de travail intensives. Spectrum-X représente la tentative de NVIDIA de rendre Ethernet compétitif sur ce terrain en y ajoutant une couche matérielle et protocolaire dédiée à l'IA. La publication de MRC comme spécification ouverte via l'Open Compute Project est un signal stratégique fort : en permettant à d'autres acteurs d'implémenter le protocole, NVIDIA cherche à imposer Spectrum-X comme standard de facto du réseau Ethernet pour l'IA, face aux alternatives comme Ultra Ethernet Consortium poussé par AMD, Intel et d'autres. La prochaine étape sera de voir si d'autres fournisseurs cloud et constructeurs de clusters adoptent MRC à leur tour.

UELa publication de MRC comme spécification ouverte via l'Open Compute Project pourrait à terme bénéficier aux centres de données européens qui développent des infrastructures d'entraînement IA, mais aucune entreprise ou institution européenne n'est directement impliquée dans cette annonce.

InfrastructureOpinion
1 source
Google TPU v8 : la puce IA qui défie NVIDIA Blackwell
32Le Big Data 

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion
1 source
Anthropic en négociation pour acheter des puces IA à une startup britannique
33The Information AI 

Anthropic en négociation pour acheter des puces IA à une startup britannique

Anthropic est en discussions avec la startup londonienne Fractile pour acquérir des puces d'inférence destinées à faire tourner ses modèles d'IA. Selon deux sources proches des dirigeants de Fractile, les pourparlers portent sur un approvisionnement qui deviendrait effectif l'année prochaine, une fois les puces disponibles. Anthropic, qui commercialise les modèles Claude, s'appuie aujourd'hui sur trois fournisseurs principaux : Google, Amazon et Nvidia. Ce potentiel contrat avec Fractile constituerait donc une quatrième source d'approvisionnement en matériel. L'enjeu est stratégique : les ventes d'Anthropic connaissent une croissance explosive qui met sous pression les serveurs existants, et les dépenses de la société en infrastructure sont projetées à plusieurs dizaines de milliards de dollars par an. En diversifiant ses fournisseurs, Anthropic se dote d'un levier de négociation face à des géants comme Nvidia, dont les puces restent en forte demande. Les puces d'inférence de Fractile sont conçues pour faire tourner des modèles d'IA de manière plus efficiente, ce qui peut réduire les coûts opérationnels à grande échelle. Cette démarche s'inscrit dans une tendance de fond : les grands laboratoires d'IA cherchent à réduire leur dépendance à Nvidia, dont les GPU H100 et Blackwell sont devenus un goulot d'étranglement mondial. Des acteurs comme Google avec ses TPU, ou Amazon avec ses puces Trainium, développent déjà leurs alternatives en interne. Fractile, startup britannique encore confidentielle, tente de s'imposer sur ce marché émergent des puces d'inférence spécialisées, où la compétition s'intensifie rapidement.

UEL'émergence de Fractile, startup londonienne, comme fournisseur potentiel d'Anthropic illustre la capacité des entreprises européennes à s'imposer dans le marché stratégique des puces d'inférence IA, même si l'impact direct sur la France et l'UE reste indirect à ce stade.

💬 Anthropic n'achète pas des puces, il achète du pouvoir de négociation face à Nvidia. Avoir un quatrième fournisseur dans la poche, c'est surtout une façon de ne plus être otage des GPU H100 qui manquent à tout le monde. Reste à voir si Fractile peut vraiment tenir la cadence quand Anthropic va en avoir besoin.

InfrastructureActu
1 source
NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B
34MarkTechPost 

NVIDIA : le décodage spéculatif dans NeMo RL accélère la génération de 1,8× à 8B et vise 2,5× à 235B

Des chercheurs de NVIDIA ont publié une étude intégrée à NeMo RL v0.6.0 qui accélère significativement la phase d'entraînement par renforcement des grands modèles de langage grâce au décodage spéculatif. Le principe repose sur un petit modèle dit "brouillon" qui propose plusieurs tokens en avance, tandis que le modèle principal, celui qu'on entraîne réellement, les vérifie via un mécanisme de rejet statistique. Sur 32 GPU GB200 (8 nœuds NVL72), cette approche réduit la latence de génération de 100 secondes à 56,6 secondes sur la tâche RL-Zero, soit un gain de 1,8× sur la génération. À l'échelle d'un modèle de 235 milliards de paramètres, les projections donnent un gain de bout en bout de 2,5×. Le framework EAGLE-3 est utilisé comme moteur de brouillon, compatible avec n'importe quel modèle pré-entraîné sans nécessiter de tête de prédiction multi-token native. Ce résultat est particulièrement précieux parce qu'il ne sacrifie rien à la fidélité d'entraînement. La génération par rollout représente entre 65 et 72 % du temps total d'une étape RL, mesure faite sur Qwen3-8B dans deux configurations, RL-Think et RL-Zero. C'est donc le seul goulet d'étranglement qui vaille la peine d'être attaqué. Or les méthodes habituelles d'accélération, exécution asynchrone, replay hors-politique, précision réduite, introduisent toutes un décalage de distribution qui contamine le signal d'entraînement. Le décodage spéculatif, lui, garantit mathématiquement que la distribution de sortie du modèle cible reste identique à ce qu'elle aurait été sans brouillon. Aucune correction hors-politique, aucun biais introduit dans la récompense. L'intégration dans une boucle d'entraînement par renforcement posait néanmoins un défi d'ingénierie non trivial : à chaque mise à jour des poids de la politique, le modèle brouillon doit rester aligné avec cette politique en évolution. NVIDIA a résolu cela avec une architecture à deux chemins dans NeMo RL, un chemin général via EAGLE-3 et un chemin natif pour les modèles disposant de têtes MTP intégrées. Lorsque l'adaptation en ligne du brouillon est activée, les états cachés et log-probabilités issus du passage avant du vérificateur MegatronLM sont réutilisés pour superviser la tête brouillon via un gradient détaché, de sorte que l'entraînement du brouillon n'interfère jamais avec le gradient de politique. Cette fonctionnalité est désormais disponible en production dans NeMo RL v0.6.0, aux côtés du backend SGLang, de l'optimiseur Muon et de l'entraînement long contexte YaRN.

💬 Le vrai problème du RLHF à grande échelle, c'est que 70% du temps tu le passes juste à générer des rollouts. NVIDIA s'y attaque proprement avec le décodage spéculatif dans NeMo : un modèle brouillon qui anticipe, un modèle principal qui valide, et la garantie mathématique que la distribution reste intacte, pas de biais hors-politique introduit en douce. 1,8× sur 8B, 2,5× visé sur 235B, c'est le genre d'optimisation qu'on attendait depuis qu'on fait du RL sérieusement.

LLMsPaper
1 source
RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs
35VentureBeat AI 

RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs

RunPod, la plateforme cloud spécialisée dans les GPU haute performance pour le développement IA, a lancé ce jeudi un nouvel outil open source baptisé RunPod Flash. Distribué sous licence MIT, cet outil Python vise à supprimer une contrainte jusqu'ici incontournable dans le développement serverless sur GPU : la conteneurisation Docker. Dans le cycle de développement traditionnel, un développeur devait écrire un Dockerfile, construire une image, la pousser vers un registre, puis attendre que l'environnement se déploie avant qu'une seule ligne de code puisse s'exécuter sur un GPU distant. Flash remplace ce processus par un moteur de build multiplateforme qui génère automatiquement un artefact Linux x86_64 depuis un Mac M-series, détecte la version Python locale, force les wheels binaires, et monte les dépendances directement à l'exécution sur la flotte serverless de RunPod. Le nouveau décorateur @Endpoint, pièce centrale de cette version GA, centralise la configuration de ce pipeline en un seul appel de fonction. L'impact concret est double. Pour les équipes de recherche, la suppression de ce que RunPod appelle la "taxe de packaging" réduit drastiquement les cycles d'itération : plus besoin de rebuilder et repousser une image à chaque modification de code. Pour les applications en production, Flash embarque des fonctionnalités de niveau entreprise, API HTTP avec load balancing basse latence, traitement par lots en file d'attente, stockage persistant multi-datacenter. L'outil permet également de construire des pipelines dits "polyglots" : un endpoint CPU bon marché peut prendre en charge le prétraitement des données avant de router automatiquement vers un GPU NVIDIA H100 ou B200 pour l'inférence. Cette architecture réduit aussi les "cold starts", ces délais à froid qui pénalisent les environnements serverless, en évitant d'initialiser de lourdes images conteneurisées à chaque requête. Derrière Flash se trouve une infrastructure réseau propriétaire SDN/CDN que RunPod a construite pour résoudre ce que son CTO Brennen Smith décrit comme le vrai problème du GPU cloud : non pas les processeurs eux-mêmes, mais le réseau et le stockage qui les relient. L'outil est explicitement conçu pour servir de substrat aux agents IA et assistants de code, Claude Code, Cursor, Cline sont cités nommément, leur permettant d'orchestrer et déployer du matériel distant de façon autonome. "Tout le monde parle d'IA agentique, mais il faut une colle solide pour que ces agents puissent réellement fonctionner", a déclaré Smith à VentureBeat. RunPod entre ainsi en compétition directe avec AWS Lambda et Modal sur le segment du serverless GPU, en pariant que la suppression de la friction de déploiement sera le facteur décisif pour les labs et équipes produit qui multiplient les expérimentations IA.

OutilsActu
1 source
GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API
36AI News 

GPT-5.5 : le modèle à base d'agents le plus puissant d'OpenAI, à deux fois le prix de l'API

OpenAI a lancé GPT-5.5 le 23 avril 2026, présenté comme son modèle d'intelligence artificielle agentique le plus capable à ce jour. Conçu dès la base pour planifier, utiliser des outils, vérifier ses propres résultats et exécuter des tâches de façon autonome, il s'agit du premier modèle de base ré-entraîné depuis GPT-4.5, développé en coopération avec les systèmes rack NVIDIA GB200 et GB300 NVL72. Le déploiement a commencé pour les abonnés Plus, Pro, Business et Enterprise dans ChatGPT et Codex, avec un accès API ouvert dès le 24 avril. Sur Terminal-Bench 2.0, un benchmark mesurant les workflows en ligne de commande, GPT-5.5 atteint 82,7 % contre 75,1 % pour GPT-5.4 et 69,4 % pour Claude Opus 4.7. Sur SWE-Bench Pro, qui évalue la résolution de tickets GitHub, il plafonne à 58,6 %, et sur MRCR v2 à un million de tokens, il grimpe à 74,0 % contre seulement 36,6 % pour son prédécesseur. L'API est facturée 5 dollars par million de tokens en entrée et 30 dollars en sortie, soit exactement le double de GPT-5.4. La version Pro, réservée aux abonnements payants, monte à 30 dollars en entrée et 180 dollars en sortie. Ce doublement tarifaire est le principal point de friction, mais OpenAI avance un argument concret : GPT-5.5 accomplit les mêmes tâches Codex avec moins de tokens que son prédécesseur, ce qui ramène le surcoût réel à environ 20 % selon le laboratoire indépendant Artificial Analysis. Pour les entreprises qui déploient des agents automatisés traitant des volumes importants, la différence n'est donc pas nécessairement linéaire avec le prix affiché. En interne, OpenAI affirme que plus de 85 % de ses employés utilisent Codex chaque semaine, y compris les équipes marketing, qui ont notamment utilisé GPT-5.5 pour analyser six mois de demandes de prises de parole et construire un cadre de scoring automatisant les approbations à faible risque. GPT-5.5 s'inscrit dans une course à l'agentique qui structure désormais toute la compétition entre les grands labos d'IA. Le co-fondateur Greg Brockman y voit "un vrai pas vers le type de calcul qu'on attend pour le futur", tandis que le chief scientist Jakub Pachocki concède que les deux dernières années de progrès avaient semblé "étonnamment lentes". Un point reste ouvert : sur MCP Atlas, le benchmark de Scale AI mesurant l'utilisation d'outils via le Model Context Protocol, Claude Opus 4.7 d'Anthropic mène avec 79,1 % et GPT-5.5 n'affiche aucun score, ce qu'OpenAI a néanmoins inclus dans son propre tableau comparatif. Pour les équipes qui construisent des pipelines agentiques en production, les prochaines semaines permettront de déterminer si les performances en benchmark se traduisent en gains réels, notamment pour les agents terminaux non supervisés et l'automatisation DevOps.

UELes développeurs et entreprises européens utilisant l'API OpenAI devront arbitrer entre le gain de performance agentique de GPT-5.5 et son coût doublé (5 $/M tokens en entrée, 30 $ en sortie) pour leurs pipelines en production.

💬 Le doublement affiché fait frémir, mais si le coût réel en prod tourne à +20% grâce à l'efficience sur les tokens, l'arbitrage change du tout au tout. Ce qui accroche plus, c'est que GPT-5.5 n'a aucun score sur MCP Atlas et qu'OpenAI l'a quand même glissé dans son tableau comparatif avec une case vide. Avant de migrer des pipelines agentiques vers GPT-5.5, c'est ce trou-là qu'il faut creuser, pas les benchmarks terminal.

LLMsOpinion
1 source
GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA
37Le Big Data 

GPT-5.5 : OpenAI et NVIDIA scellent un partenariat pour la prochaine vague d’IA

OpenAI et NVIDIA ont officialisé en avril 2026 un partenariat approfondi autour de GPT-5.5, le dernier grand modèle d'OpenAI déployé sur les infrastructures GB200 NVL72 de NVIDIA. Dès le lancement, plus de 10 000 employés de NVIDIA utilisent GPT-5.5 au quotidien, notamment via Codex, l'agent de développement logiciel d'OpenAI capable de transformer des instructions en langage naturel en actions concrètes sur des bases de code complexes. Les chiffres avancés sont frappants : un gain de débit multiplié par 50 et une réduction des coûts par jeton de l'ordre de 35 fois par rapport aux configurations précédentes. Chez NVIDIA, les cycles de débogage qui prenaient plusieurs jours se ramènent désormais à quelques heures, et des expérimentations autrefois longues de plusieurs semaines aboutissent maintenant en une seule nuit. Ces résultats illustrent un tournant dans l'adoption de l'IA générative en entreprise : la question n'est plus uniquement celle des capacités du modèle, mais de sa viabilité économique et opérationnelle à grande échelle. La réduction drastique des coûts d'inférence rend envisageable le déploiement d'agents IA sur l'ensemble des équipes techniques, et non plus seulement dans des projets pilotes isolés. L'impact dépasse le seul développement logiciel : les agents pilotés par GPT-5.5 interviennent désormais dans l'analyse, la résolution de problèmes et la génération d'idées, touchant le travail intellectuel dans sa globalité. Pour les directions techniques comme pour les décideurs métiers, c'est le signe que ces outils ont franchi le seuil de la maturité industrielle. Ce partenariat s'inscrit dans une relation qui remonte à 2016, lorsque NVIDIA avait livré à OpenAI l'un de ses premiers supercalculateurs DGX-1. Depuis dix ans, les deux entreprises co-construisent une partie essentielle de la chaîne de valeur de l'IA, OpenAI apportant les modèles et NVIDIA l'infrastructure d'inférence. Sur la question de la sécurité, longtemps présentée comme le principal frein à l'adoption en entreprise, le déploiement de Codex intègre des réponses architecturales concrètes : chaque agent opère dans un environnement isolé via des machines virtuelles sécurisées, les accès aux systèmes critiques sont limités en lecture seule, et une politique stricte de non-rétention des données est appliquée. Jensen Huang, PDG de NVIDIA, résume l'ambition commune en affirmant qu'on entre « pleinement dans l'ère de l'IA », une formulation qui traduit moins un effet d'annonce qu'un constat opérationnel : pour des milliers d'ingénieurs, l'IA agentique est déjà une réalité quotidienne.

UELa réduction des coûts d'inférence liée aux nouvelles générations de hardware IA pourrait faciliter l'adoption d'agents IA à grande échelle dans les entreprises européennes, sans impact réglementaire ou institutionnel direct.

LLMsActu
1 source
GPT-5.5 et la super-application OpenAI Codex
38Latent Space 

GPT-5.5 et la super-application OpenAI Codex

OpenAI a lancé GPT-5.5 le 22 avril 2026, une semaine après la sortie de Claude Opus 4.7 par Anthropic. Le modèle est présenté comme "une nouvelle classe d'intelligence pour le travail réel" et déployé progressivement sur ChatGPT et Codex, l'accès API étant temporairement limité en attendant des vérifications de sécurité supplémentaires. Les benchmarks publiés sont impressionnants : 82,7% sur Terminal-Bench 2.0, 58,6% sur SWE-Bench Pro, 84,9% sur GDPval, 78,7% sur OSWorld-Verified et 84,4% sur BrowseComp. Le tarif API est fixé à 5$/30$ par million de tokens en entrée/sortie pour la version standard, et 30$/180$ pour la version Pro. Selon Artificial Analysis, GPT-5.5 en configuration medium atteint le même niveau que Claude Opus 4.7 au maximum sur leur Intelligence Index, mais à un quart du coût : environ 1 200 dollars contre 4 800. La fenêtre de contexte atteint 1 million de tokens en API, et Sam Altman souligne que le modèle consomme moins de tokens par tâche que son prédécesseur GPT-5.4. Ce lancement ne se résume pas à une simple mise à jour de modèle. GPT-5.5 marque un pivot stratégique d'OpenAI vers l'inférence agentique longue durée et l'efficacité économique, deux dimensions qui comptent davantage pour les entreprises que les scores bruts sur benchmarks académiques. La capacité à exécuter des tâches complexes avec moins d'interventions humaines change concrètement la proposition de valeur pour les développeurs et les équipes techniques. En parallèle, OpenAI a profondément étendu Codex : contrôle du navigateur, intégration avec Google Sheets, Slides, Docs et PDFs, dictée à l'échelle du système d'exploitation, et un mode de revue automatique reposant sur un agent secondaire dit "gardien" qui réduit le nombre de validations nécessaires sur les tâches longues. Codex n'est plus un outil de coding assisté : il devient un agent capable de naviguer dans des interfaces web, capturer des captures d'écran, itérer jusqu'à complétion, et traiter des flux de travail qui couvrent l'assurance qualité, la bureautique et la construction d'applications. Ce lancement s'inscrit dans une course frontale entre OpenAI, Anthropic et Google, dont Gemini 3.1 Pro Preview atteint un niveau comparable à GPT-5.5 à environ 900 dollars selon Artificial Analysis. OpenAI a co-conçu le modèle avec les systèmes NVIDIA GB200/300, et affirme que GPT-5.5 a contribué à améliorer sa propre infrastructure d'inférence, une affirmation qui illustre la direction que prend la compagnie. Sam Altman positionne désormais explicitement OpenAI comme une "entreprise d'inférence IA", signalant que la compétition ne se joue plus seulement sur la qualité des modèles mais sur leur coût d'exploitation à l'échelle. La décision d'absorber Prism et de faire de Codex la base d'une stratégie de superapp unifiée suggère qu'OpenAI cherche à verrouiller les workflows professionnels dans son écosystème, bien au-delà du simple chat.

UELes développeurs et entreprises européens bénéficient d'un modèle agentique de niveau SOTA à coût sensiblement réduit, ce qui modifie concrètement les arbitrages de déploiement IA à grande échelle sur le marché européen.

💬 Le ratio coût/perf, c'est là que ça se joue. GPT-5.5 medium au niveau d'Opus 4.7 max pour un quart du prix, les équipes qui hésitaient vont trancher vite. Et ce pivot vers une superapp avec Codex en moteur, c'est plus ambitieux qu'il n'y paraît : si l'agent gardien tient vraiment sur des tâches longues, OpenAI verrouille les workflows pro bien plus efficacement qu'avec n'importe quel score sur un benchmark.

LLMsOpinion
1 source
Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne
39NVIDIA AI Blog 

Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne

OpenAI a déployé GPT-5.5, son dernier modèle frontier, au coeur de Codex, son application de codage agentique. Ce modèle tourne sur les systèmes rack-scale NVIDIA GB200 NVL72, capables de délivrer un coût 35 fois inférieur par million de tokens et un débit 50 fois supérieur par seconde et par mégawatt par rapport à la génération précédente. Plus de 10 000 employés de NVIDIA, répartis dans tous les départements, ingénierie, juridique, marketing, finance, RH, ventes et opérations, utilisent déjà Codex propulsé par GPT-5.5 depuis quelques semaines. Les résultats sont concrets et mesurables : des cycles de débogage qui prenaient des jours se bouclent désormais en quelques heures, et des expérimentations qui nécessitaient des semaines aboutissent en une nuit sur des bases de code complexes et multi-fichiers. Des équipes livrent des fonctionnalités complètes à partir de simples instructions en langage naturel. L'impact dépasse le simple gain de productivité individuel. En rendant l'inférence de modèles frontier économiquement viable à l'échelle de l'entreprise, cette infrastructure change la donne pour toute organisation souhaitant intégrer des agents IA dans ses processus métier. Pour sécuriser ce déploiement, NVIDIA a doté chaque employé d'une machine virtuelle cloud dédiée connectée via SSH, dans laquelle l'agent Codex opère en sandbox avec une politique de rétention zéro donnée. Les agents n'accèdent aux systèmes de production qu'en lecture seule, garantissant auditabilité complète sans exposition des données internes. Jensen Huang, PDG et fondateur de NVIDIA, a incité l'ensemble de ses équipes à adopter l'outil dans un email interne : "Passons à la vitesse de la lumière. Bienvenue dans l'ère de l'IA." Ce lancement s'inscrit dans plus de dix ans de collaboration entre NVIDIA et OpenAI, une relation qui remonte à 2016 lorsque Jensen Huang avait livré en mains propres le premier supercalculateur DGX-1 au siège d'OpenAI à San Francisco. Depuis, les deux entreprises co-développent l'ensemble de la pile IA : NVIDIA était partenaire dès le premier jour pour le lancement du modèle open-weight gpt-oss d'OpenAI, en optimisant les poids du modèle pour TensorRT-LLM et des frameworks comme vLLM et Ollama. OpenAI s'est engagé à déployer plus de 10 gigawatts de systèmes NVIDIA pour sa prochaine infrastructure, mobilisant des millions de GPU pour l'entraînement et l'inférence dans les années à venir. Les deux sociétés sont également partenaires en co-conception matérielle, OpenAI contribuant au roadmap hardware de NVIDIA en échange d'un accès anticipé aux nouvelles architectures, ce qui a abouti à la mise en service commune du premier cluster de 100 000 GPU GB200 NVL72.

LLMsActu
1 source
GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0
40VentureBeat AI 

GPT-5.5 est arrivé et il ne rigole pas : devance légèrement Claude Mythos Preview sur Terminal-Bench 2.0

OpenAI a dévoilé GPT-5.5 ce 23 avril 2026, le modèle le plus puissant de l'entreprise à ce jour, connu en interne sous le nom de code "Spud". Présenté lors d'un appel avec des journalistes, le modèle a été décrit par Amelia Glaese, vice-présidente de la recherche chez OpenAI, comme "le modèle le plus solide que nous ayons jamais produit sur le codage, à la fois selon les benchmarks et selon les retours de nos partenaires de confiance". Greg Brockman, cofondateur et président d'OpenAI, a insisté sur sa capacité à travailler de manière autonome : "C'est bien plus intuitif à utiliser. Il peut regarder un problème peu défini et déterminer lui-même ce qui doit se passer ensuite." Sur le plan technique, GPT-5.5 tourne sur les systèmes NVIDIA GB200 et GB300 NVL72, avec des algorithmes heuristiques personnalisés rédigés par l'IA elle-même pour optimiser la répartition des calculs sur les cœurs GPU, ce qui a augmenté la vitesse de génération de tokens de plus de 20%. Le modèle égale la latence par token de son prédécesseur GPT-5.4, tout en offrant un niveau d'intelligence supérieur. GPT-5.4 reste disponible pour les utilisateurs et entreprises à la moitié du coût API du nouveau modèle. Ce qui distingue fondamentalement GPT-5.5 de ses prédécesseurs, c'est son orientation vers la performance dite "agentique" : le modèle est conçu pour gérer des tâches complexes et fragmentées de façon autonome, sans besoin d'instructions pas à pas. Il excelle en codage, en recherche scientifique et en "computer use", c'est-à-dire l'interaction directe avec des systèmes d'exploitation et des logiciels professionnels. Un mode "GPT-5.5 Thinking" a également été introduit dans ChatGPT pour les raisonnements à forts enjeux : il laisse au modèle davantage de temps de calcul interne pour vérifier ses hypothèses avant de répondre. Sur le benchmark interne "Expert-SWE", mesurant des tâches de codage longues dont le temps de complétion médian est de 20 heures pour un humain, GPT-5.5 surpasse GPT-5.4 tout en utilisant significativement moins de tokens. La course aux grands modèles de langage entre OpenAI, Anthropic et Google n'a jamais été aussi serrée. Il y a exactement une semaine, Anthropic avait lancé Claude Opus 4.7, qui avait temporairement pris la tête du classement sur le plus grand nombre de benchmarks tiers. GPT-5.5 reprend aujourd'hui cet avantage sur les modèles publiquement disponibles, et dépasse même Opus 4.7 sur la quasi-totalité des tests de référence. Seul le modèle Claude Mythos Preview d'Anthropic, non disponible au grand public et fortement restreint, résiste encore sur Terminal-Bench 2.0, où il devance GPT-5.5 dans une marge si étroite qu'elle s'apparente à une égalité statistique. Cette dynamique illustre à quel point la frontière technologique entre les trois acteurs dominants s'est réduite, chaque nouveau modèle détrônant le précédent en l'espace de quelques semaines.

UELes développeurs et entreprises français et européens utilisant les API OpenAI pourront évaluer GPT-5.5 pour leurs usages en codage et tâches agentiques, sans impact réglementaire ou institutionnel spécifique à la France ou à l'UE.

💬 Une semaine après Opus 4.7, OpenAI reprend la tête. Le seul modèle qui résiste encore à GPT-5.5, c'est Mythos Preview d'Anthropic, sauf qu'il n'est pas disponible au grand public, donc dans la vraie vie des développeurs, OpenAI est devant. C'est le genre de course où chaque sortie rend la précédente obsolète avant qu'on ait fini de l'évaluer.

LLMsActu
1 source
NVIDIA et Google réduisent les coûts d'inférence en IA
41AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents
42NVIDIA AI Blog 

NVIDIA et Google Cloud s'associent pour faire avancer l'IA physique et à base d'agents

NVIDIA et Google Cloud ont annoncé cette semaine, lors de la conférence Google Cloud Next à Las Vegas, une nouvelle étape majeure dans leur partenariat vieux de plus de dix ans. Au cœur de l'annonce : le lancement des instances bare-metal A5X, alimentées par les systèmes rack NVIDIA Vera Rubin NVL72, qui promettent un coût d'inférence jusqu'à dix fois inférieur et un débit de tokens dix fois plus élevé par mégawatt par rapport à la génération précédente. Ces infrastructures s'appuient sur les interconnexions NVIDIA ConnectX-9 SuperNICs couplées au réseau Google Virgo de nouvelle génération, permettant de déployer des clusters allant jusqu'à 80 000 GPU Rubin sur un site unique, et jusqu'à 960 000 GPU dans une configuration multisite. Par ailleurs, Google Cloud met en préversion les modèles Gemini sur Google Distributed Cloud avec les GPU NVIDIA Blackwell et Blackwell Ultra, ainsi que des machines virtuelles confidentielles garantissant le chiffrement des données en cours d'utilisation. Des acteurs comme OpenAI et Thinking Machines Lab utilisent déjà ces infrastructures pour des charges d'inférence massives, notamment pour faire tourner ChatGPT. Ces annonces représentent un saut qualitatif significatif pour les entreprises qui cherchent à industrialiser l'IA agentique et l'IA physique, c'est-à-dire les systèmes capables d'agir de manière autonome dans des environnements réels, comme les robots ou les jumeaux numériques en usine. La réduction drastique des coûts d'inférence change concrètement l'équation économique pour les développeurs d'applications IA à grande échelle. La possibilité de déployer les modèles Gemini en environnement souverain, sur des données sensibles restant chiffrées y compris pendant leur traitement, répond à une exigence croissante des entreprises et des gouvernements en matière de conformité et de confidentialité. L'intégration de modèles ouverts NVIDIA Nemotron dans la plateforme Gemini Enterprise Agent Platform élargit également les options des équipes techniques qui souhaitent combiner modèles propriétaires et open source. Ce partenariat s'inscrit dans une compétition intense entre les grands fournisseurs de cloud pour capter les budgets d'infrastructure IA, qui se chiffrent désormais en dizaines de milliards de dollars annuellement. Google Cloud cherche à rattraper son retard sur AWS et Microsoft Azure, qui ont pris de l'avance sur l'hébergement des charges d'entraînement et d'inférence des grands modèles de langage. En s'associant étroitement à NVIDIA, dont les GPU dominent encore largement le marché de l'accélération IA, Google se positionne comme une plateforme de référence pour la prochaine vague, celle des agents autonomes et de la robotique industrielle. La feuille de route annoncée, avec la transition de Blackwell vers Vera Rubin, suggère que la cadence d'innovation s'accélère et que les entreprises devront adapter leur infrastructure régulièrement pour rester compétitives.

UELe déploiement souverain de Gemini sur Google Distributed Cloud avec chiffrement des données en cours d'utilisation répond aux exigences RGPD des entreprises européennes traitant des données sensibles.

InfrastructureOpinion
1 source
Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027
43Le Big Data 

Nvidia Rubin Ultra : le GPU qui transformera les AI Factories en 2027

Nvidia a officiellement confirmé le lancement de son prochain GPU phare, le Rubin Ultra, prévu pour 2027. Successeur du Blackwell Ultra, cette puce repose sur une architecture en chiplets de type MCM (Multi-Chip Module) assemblant quatre dies gravés en nœud N2 chez TSMC, pour un total d'environ 336 milliards de transistors. Elle s'intègre dans la plateforme Vera, un écosystème complet où le GPU collabore avec le processeur Vera, doté de 88 cœurs, via une interconnexion NVLink-C2C sans latence. Le tout est relié par le nouveau commutateur NVLink 6, conçu pour des vitesses de transfert inédites à l'échelle des racks de serveurs. La mémoire intégrée atteint 1 To de HBM4e répartis sur 12 stacks, avec une bande passante annoncée à 22 To/s, soit un bond considérable par rapport aux générations précédentes. Ce niveau de performance change concrètement la donne pour les entreprises qui entraînent ou déploient des grands modèles de langage. Avec 1 To de mémoire embarquée sur une seule puce, il devient possible de charger des modèles entiers sans recourir à des échanges lents entre composants, l'un des goulots d'étranglement structurels des infrastructures actuelles. L'architecture en chiplets apporte par ailleurs une modularité absente des puces monolithiques : la montée en charge des clusters de serveurs devient plus fluide, et chaque unité de calcul peut fonctionner en coordination étroite avec les autres. Pour les opérateurs de data centers et les hyperscalers, le Rubin Ultra ne représente pas un simple upgrade de performance, mais une refonte de ce que l'on appelle désormais les "AI Factories", ces infrastructures entièrement conçues autour des besoins du calcul IA. Nvidia accélère son calendrier de manière visible : le Rubin Ultra arrivera en 2027, mais son architecture est déjà documentée et ses partenariats hardware (TSMC N2, HBM4e) sont scellés, signalant une volonté de garder plusieurs générations d'avance sur ses concurrents AMD et Intel, ainsi que sur les puces maison développées par Google (TPU), Amazon (Trainium) et Microsoft (Maia). La transition vers les chiplets, longtemps réservée aux CPU, marque un tournant pour les GPU de datacenter. L'intégration verticale de la plateforme Vera, qui lie hardware et software de façon indissociable, rappelle la stratégie d'Apple avec ses puces M, mais appliquée à l'échelle des supercalculateurs industriels. Les entreprises qui visent ces infrastructures devront consentir des investissements massifs, mais la dépendance à l'écosystème Nvidia, déjà forte via CUDA, ne fera que s'approfondir avec cette nouvelle génération.

UELes opérateurs européens de data centers et les hyperscalers devront planifier dès maintenant des investissements massifs pour 2027, tout en s'enfermant davantage dans l'écosystème Nvidia via CUDA et la plateforme Vera.

InfrastructureOpinion
1 source
44AWS ML Blog 

Amazon SageMaker AI accélère l'inférence d'IA générative avec les instances G7e

Amazon Web Services a annoncé la disponibilité des instances G7e sur Amazon SageMaker AI, une nouvelle génération de serveurs d'inférence propulsés par les GPU NVIDIA RTX PRO 6000 Blackwell Server Edition. Ces instances sont disponibles en configurations de 1, 2, 4 et 8 GPU, chaque carte offrant 96 Go de mémoire GDDR7. Concrètement, une instance G7e.2xlarge à GPU unique peut désormais héberger des modèles open source de 35 milliards de paramètres comme Qwen3.5-35B ou GPT-OSS-120B, tandis qu'une configuration à 8 GPU (G7e.48xlarge) atteint 768 Go de mémoire GPU totale et peut faire tourner des modèles de 300 milliards de paramètres sur un nœud unique. La bande passante réseau grimpe à 1 600 Gbps via EFA, soit quatre fois plus que la génération G6e et seize fois plus que les G5. Ces chiffres ont une implication directe pour les équipes d'ingénierie : des modèles qui nécessitaient auparavant plusieurs machines interconnectées peuvent désormais s'exécuter sur un seul nœud, supprimant la latence inter-nœuds et la complexité opérationnelle associée. Les performances d'inférence sont jusqu'à 2,3 fois supérieures à celles des G6e. Pour les applications temps réel comme les chatbots, les pipelines RAG ou les workflows agentiques, cette densité mémoire combinée à une bande passante CPU-GPU quatre fois plus élevée se traduit par des temps de réponse plus courts sous charge élevée. Les modèles multimodaux et de génération d'images, souvent limités par des erreurs de mémoire insuffisante sur les générations précédentes, bénéficient également directement de ce doublement de la capacité par GPU. Cette annonce s'inscrit dans une course aux accélérateurs cloud que se livrent AWS, Google et Microsoft, chacun cherchant à proposer les GPU les plus récents de NVIDIA au plus vite après leur lancement. Les puces Blackwell de NVIDIA, dont la RTX PRO 6000 Server Edition fait partie, représentent la cinquième génération de Tensor Cores avec support natif de la précision FP4, permettant de réduire encore la consommation mémoire pour les grands modèles. Le support de NVIDIA GPUDirect RDMA via EFAv4 ouvre également la voie à des scénarios d'inférence multi-nœuds à faible latence, jusqu'ici peu pratiques sur les instances G-series. À mesure que les modèles de langage et les systèmes agentiques continuent de grossir en taille et en complexité, la capacité à les déployer efficacement sur infrastructure managée comme SageMaker devient un avantage concurrentiel décisif pour les entreprises qui cherchent à maîtriser leurs coûts d'exploitation tout en montant en puissance.

UELes équipes techniques européennes utilisant Amazon SageMaker dans les régions AWS EU peuvent désormais déployer des modèles jusqu'à 300 milliards de paramètres sur un seul nœud, réduisant la complexité opérationnelle et les coûts d'inférence pour les applications temps réel.

InfrastructureActu
1 source
45Le Big Data 

NVIDIA Vera : quand le CPU devient le cerveau de l’IA autonome

Le 16 mars 2026, lors de la conférence GTC 2026, Jensen Huang a présenté le processeur CPU Vera, une puce conçue spécifiquement pour l'intelligence artificielle agentique. Architecturé autour de la plateforme Olympus, Vera embarque 88 cœurs personnalisés basés sur la technologie ARM Neoverse, une mémoire SOCAMM en LPDDR6 atteignant une bande passante de 1,2 To/s, et une conception monolithique qui réduit la latence interne au minimum physiquement possible. Contrairement aux GPU Blackwell et Rubin qui gèrent le traitement parallèle massif, Vera prend en charge l'exécution séquentielle et logique : la planification, la vérification, l'enchaînement de décisions. Sa capacité à manipuler des contextes de plusieurs millions de tokens en temps réel en fait un composant radicalement différent des processeurs x86 traditionnels, jugés trop lents pour les exigences actuelles de l'IA. L'enjeu est fondamental pour toute entreprise qui cherche à déployer des agents IA dans des workflows réels. Jusqu'ici, les systèmes d'IA buttaient sur le goulot d'étranglement du raisonnement séquentiel : générer du texte rapidement ne suffit pas pour gérer du code complexe, de la logistique ou de la prise de décision multi-étapes. Vera permet à l'IA de passer d'un outil passif à un collaborateur capable d'orchestrer des tâches sur la durée, de corriger ses propres erreurs et d'enchaîner des raisonnements structurés sans latence perceptible. Pour les développeurs et les entreprises, cela ouvre concrètement la voie à des agents autonomes opérationnels dans des environnements de production exigeants, là où les solutions actuelles restent trop fragiles ou trop lentes. Cette annonce s'inscrit dans une accélération que NVIDIA pilote depuis plusieurs années en construisant une pile matérielle complète pour l'IA. Après avoir dominé l'entraînement des modèles avec ses GPU, puis l'inférence avec la gamme Blackwell, l'entreprise complète aujourd'hui l'architecture avec un CPU qui lui est propre, réduisant sa dépendance aux processeurs Intel et AMD pour les charges de travail IA. Le concept rappelle la distinction cognitive entre Système 1 (rapide, instinctif) et Système 2 (analytique, délibéré) : les GPU couvrent le premier, Vera prend en charge le second. Si l'adoption suit, NVIDIA pourrait imposer une architecture propriétaire de bout en bout pour les data centers orientés agents, ce qui renforcerait encore davantage sa position dominante dans l'infrastructure de l'IA mondiale au moment où la course aux systèmes autonomes s'intensifie chez Google, Microsoft et Meta.

UELes opérateurs de data centers européens déployant des agents IA devront évaluer une migration vers cette architecture propriétaire NVIDIA pour contourner les goulots d'étranglement du raisonnement séquentiel.

💬 Le goulot d'étranglement du raisonnement séquentiel, c'est le truc qui fait ramer les agents en prod depuis 2 ans, et Vera s'attaque frontalement à ça. La distinction Système 1/Système 2 appliquée au silicium, c'est bien vu, pas juste du marketing. Le revers, c'est que si t'as besoin de Vera pour que tes agents tournent vraiment, t'achètes le stack NVIDIA complet, de bout en bout, et ils le savent.

InfrastructureOpinion
1 source
Meta parie 21 milliards sur CoreWeave : La nouvelle référence de la valorisation IA ?
46Le Big Data 

Meta parie 21 milliards sur CoreWeave : La nouvelle référence de la valorisation IA ?

Meta a annoncé le 9 avril 2026 un nouvel accord de 21 milliards de dollars avec CoreWeave, portant l'engagement total du groupe envers ce fournisseur de cloud GPU à plus de 35 milliards de dollars. Cet accord court jusqu'en décembre 2032 et couvre principalement des capacités de calcul dédiées à l'inférence, c'est-à-dire le traitement en temps réel des requêtes IA dans les applications grand public. L'action CoreWeave ($CRWV) a bondi d'environ 8 % à l'annonce de la nouvelle. Le partenariat inclut également un accès anticipé à la plateforme NVIDIA Vera Rubin, la prochaine génération de puces IA qui succède à l'architecture Blackwell, déployée sur plusieurs sites avant sa disponibilité commerciale large. Cet accord illustre un changement de paradigme dans la compétition en intelligence artificielle : l'infrastructure compute est désormais aussi stratégique que les modèles eux-mêmes. Les modèles Llama de Meta sont intégrés dans Facebook, Instagram, WhatsApp et Messenger, soit plusieurs milliards d'utilisateurs actifs. À cette échelle, chaque requête mobilise de la puissance de calcul, et la latence comme les coûts deviennent des variables critiques. CoreWeave, spécialisé dans les clusters GPU haute densité, peut déployer des capacités beaucoup plus rapidement qu'un hyperscaler classique en phase de construction, ce qui en fait un relais opérationnel immédiatement exploitable. L'accès anticipé aux puces Vera Rubin donne par ailleurs à Meta un avantage compétitif concret : optimiser ses modèles sur une architecture plus performante avant que ses concurrents ne puissent faire de même. Meta n'abandonne pas pour autant ses investissements internes. Le groupe prévoit entre 115 et 135 milliards de dollars de dépenses d'investissement pour 2026, dont un centre de données estimé à 10 milliards de dollars au Texas. Mais ces infrastructures propres prennent des années à construire, et l'urgence concurrentielle ne permet pas d'attendre. La stratégie adoptée est donc hybride : construire en interne pour le long terme, louer chez CoreWeave pour répondre aux besoins immédiats. Mike Intrator, PDG de CoreWeave, a résumé cette logique en évoquant un risque opérationnel trop élevé pour dépendre d'une seule approche. Ce modèle de redondance computing, mi-propriétaire mi-externalisé, pourrait rapidement devenir la norme dans l'industrie, à mesure que Google, Microsoft et Amazon font face aux mêmes tensions sur les GPU et aux mêmes exigences de rapidité d'exécution.

UECet accord renforce la concentration des ressources GPU chez les acteurs américains, réduisant indirectement la capacité des entreprises européennes à accéder à des infrastructures IA compétitives à coût et délai raisonnables.

InfrastructureOpinion
1 source
47Le Big Data 

Nvidia vs Meta : qui contrôle vraiment l’IA en 2026 ?

En 2026, deux géants se livrent une bataille ouverte pour le contrôle de l'infrastructure de l'intelligence artificielle mondiale. D'un côté, Nvidia capte entre 80 et 90 % du marché des GPU pour centres de données, enchaînant les trimestres records grâce à une demande pour ses puces Blackwell qui dépasse toutes les prévisions. De l'autre, Meta, dirigé par Mark Zuckerberg, a décidé de rompre sa dépendance à ce fournisseur unique en annonçant jusqu'à 135 milliards de dollars d'investissements en capital pour 2026, dont un contrat historique de 6 gigawatts de puces AMD. Le marché mondial de l'IA générative devrait franchir 100 milliards de dollars d'ici fin 2026, porté par une adoption professionnelle massive : près de 80 % des entreprises prévoient d'intégrer des API d'IA ou de déployer des modèles personnalisés dans leurs processus. Les revenus issus des applications mobiles boostées à l'IA devraient doubler entre 2024 et 2026, avec une répartition géographique marquée : 37,3 milliards de dollars pour les États-Unis (+60 %), 14,7 milliards pour la Chine (+72 %), et une projection de 20 milliards pour la France à horizon 2030. L'enjeu dépasse la simple guerre commerciale entre deux entreprises. Ce que Meta cherche à construire, c'est une souveraineté technologique sur sa propre pile IA, de l'infrastructure physique jusqu'aux modèles. Tant que Nvidia reste le passage obligé pour tout acteur sérieux de l'IA, le géant de Menlo Park reste exposé à des pénuries, des hausses de prix et des délais de livraison qu'il ne contrôle pas. La diversification vers AMD n'est pas un choix technique anodin : c'est un signal politique adressé à toute l'industrie. En parallèle, les joueurs grand public risquent de subir les conséquences de cette course aux serveurs IA, Nvidia orientant clairement sa production vers les centres de données au détriment du segment gaming. La véritable forteresse de Nvidia ne réside pas dans ses puces mais dans son écosystème logiciel CUDA, standard industriel dominant depuis plus de quinze ans, que la concurrence peine à détrôner malgré des investissements considérables. L'architecture Rubin, attendue en succession des Blackwell, devrait creuser encore l'écart en termes de performances brutes. Meta n'est pas seul dans cette tentative de diversification : Google avec ses TPU, Amazon avec ses Trainium, et Microsoft via ses investissements dans OpenAI cherchent tous à réduire leur exposition à un seul fournisseur. La question qui structure désormais toute la filière est celle des infrastructures : les réseaux électriques, les capacités de refroidissement et les chaînes d'approvisionnement en semi-conducteurs peuvent-ils absorber une demande qui double tous les dix-huit mois ? C'est sur ce terrain physique, autant que logiciel, que se jouera la prochaine phase de la course à l'IA.

UELes entreprises européennes restent structurellement dépendantes de l'écosystème Nvidia/CUDA pour leurs projets IA, rendant leur accès à l'infrastructure coûteux et soumis aux arbitrages de production d'acteurs hors UE.

InfrastructureOpinion
1 source
Gemma 4 dépasse les 2 millions de téléchargements
48Latent Space 

Gemma 4 dépasse les 2 millions de téléchargements

Gemma 4, le modèle open source de Google DeepMind, a franchi les 2 millions de téléchargements en moins d'une semaine après son lancement, selon les données compilées par AINews pour la période du 4 au 6 avril 2026. Ce rythme d'adoption est remarquable : à titre de comparaison, Gemma 3 avait totalisé 6,7 millions de téléchargements sur l'ensemble de l'année écoulée, et Gemma 2 avait atteint 1,4 million depuis son lancement en juin 2024. Seul Qwen 3.5, avec environ 27 millions de téléchargements cumulés depuis le lancement de son modèle phare 397B-A17B, dépasse largement ces chiffres. Google a par ailleurs annoncé une keynote dédiée à Gemma 4 depuis Londres dans les prochains jours. Sur le terrain, les signaux d'adoption sont concrets : le modèle Gemma 4 E2B tourne sur iPhone 17 Pro à environ 40 tokens par seconde via MLX, Red Hat a publié des versions quantifiées du modèle 31B en formats NVFP4 et FP8-block, et Ollama a déployé Gemma 4 sur son cloud, adossé aux GPU NVIDIA Blackwell. Ce qui distingue Gemma 4 des précédentes sorties open source, c'est moins sa performance sur les benchmarks que sa capacité à fonctionner directement sur du matériel grand public, en particulier les puces Apple Silicon. Cette dynamique "local-first" crée une pression réelle sur les abonnements payants aux services cloud d'IA : plusieurs observateurs ont souligné que Gemma 4 en local comble suffisamment l'écart de qualité pour rendre un abonnement Claude moins indispensable pour certains usages. HuggingFace héberge gratuitement le modèle, ce qui ouvre la voie à son intégration dans des workflows d'agents sans coût d'inférence. L'ensemble des signaux pointe vers un déplacement structurel : les modèles ouverts ne sont plus seulement des alternatives pour les développeurs expérimentés, ils deviennent des références pour l'inférence en bordure de réseau. Le succès de Gemma 4 illustre également un phénomène plus large : la réussite d'un modèle open source repose désormais autant sur la coordination écosystémique que sur la qualité des poids eux-mêmes. Le lancement a été accompagné d'un soutien simultané de HuggingFace, vLLM, llama.cpp, Ollama, NVIDIA, Unsloth, SGLang, Docker et Cloudflare, une mobilisation rarement vue à cette échelle. En parallèle, Hermes Agent de Nous Research a capté l'attention de la communauté des développeurs d'agents, notamment grâce à sa boucle d'auto-amélioration combinant mémoire persistante et génération autonome de compétences -- une approche qui se distingue d'OpenClaw par son architecture plus opinionée et des compétences définies par les auteurs humains plutôt que générées à la volée. Ces deux dynamiques -- l'essor du local et la maturation des frameworks d'agents open source -- dessinent les contours d'un écosystème IA de plus en plus décentralisé.

UEHuggingFace, entreprise d'origine française, héberge gratuitement Gemma 4, facilitant son intégration dans les workflows européens sans coût d'inférence.

LLMsOpinion
1 source
Cognichip lève 60 M$ pour confier la conception des puces à l’IA
49Le Big Data 

Cognichip lève 60 M$ pour confier la conception des puces à l’IA

La startup américaine Cognichip a annoncé avoir levé 60 millions de dollars pour développer une intelligence artificielle capable de concevoir des puces électroniques. Ce tour de table, mené par Seligman Ventures, porte le total des fonds levés par l'entreprise à 93 millions de dollars depuis sa fondation en 2024. Parmi les nouveaux investisseurs figure Lip-Bu Tan, PDG d'Intel, qui rejoint le conseil d'administration aux côtés d'Umesh Padval, associé-gérant chez Seligman. Fondée par Faraj Aalaei, Cognichip développe un modèle d'apprentissage profond spécialisé dans la conception de semi-conducteurs, avec l'ambition affichée de réduire les coûts de développement de plus de 75 % et de diviser par deux les délais de mise sur le marché. L'enjeu est considérable : concevoir une puce moderne prend entre trois et cinq ans, dont deux ans rien que pour la phase de conception, avant même que la fabrication ne démarre. Avec des composants comme le GPU Blackwell de Nvidia intégrant 104 milliards de transistors, la complexité atteint des niveaux qui rendent ce calendrier difficilement tenable. Faraj Aalaei pointe un risque structurel : le marché évolue parfois plus vite que les puces elles-mêmes, rendant un produit potentiellement obsolète avant sa sortie. L'approche de Cognichip consiste à transposer dans le monde du silicium ce que l'IA fait déjà pour les développeurs logiciels, en automatisant les tâches répétitives et en accélérant les itérations de conception. Si les promesses se concrétisent, c'est tout le calendrier de l'industrie des semi-conducteurs qui pourrait être revu. Cognichip opère dans un secteur où les données sont rares et jalousement gardées : contrairement aux développeurs logiciels qui partagent leur code en open source, les concepteurs de puces protègent leurs travaux avec soin. Pour contourner cet obstacle, la startup a constitué ses propres jeux de données en combinant données synthétiques et contenus sous licence, tout en proposant aux fabricants des mécanismes permettant d'entraîner les modèles sur leurs données internes sans les exposer. Elle s'appuie aussi sur des standards ouverts comme l'architecture RISC-V, qu'elle a utilisée lors d'un hackathon avec des étudiants de l'Université d'État de San José. La startup reste cependant discrète sur ses avancées concrètes : aucune puce conçue avec son système n'a encore été présentée publiquement, et ses clients demeurent confidentiels. Elle devra surtout convaincre face aux géants établis du secteur, Synopsys et Cadence Design Systems, qui couvrent déjà l'intégralité du cycle de vie d'un composant avec leurs propres outils d'automatisation.

InfrastructureActu
1 source
Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser
50VentureBeat AI 

Arcee lance Trinity-Large-Thinking, un modèle d'IA open source américain puissant que les entreprises peuvent télécharger et personnaliser

Arcee AI, un laboratoire de San Francisco fondé il y a quelques années et fort d'une équipe de seulement 30 personnes, a lancé cette semaine Trinity-Large-Thinking, un modèle de raisonnement textuel à 399 milliards de paramètres publié sous licence Apache 2.0 — l'une des licences open source les plus permissives qui soit, autorisant toute modification et usage commercial. Le modèle est disponible en téléchargement sur Hugging Face. Pour le construire, Arcee a engagé 20 millions de dollars, soit près de la moitié de ses fonds totaux (un peu moins de 50 millions, dont 24 millions levés lors d'une Serie A menée par Emergence Capital en 2024), dans une unique session d'entraînement de 33 jours sur un cluster de 2 048 GPU NVIDIA B300 Blackwell — deux fois plus rapides que la génération Hopper précédente. Ce lancement intervient à un moment charnière pour l'IA open source. Depuis l'apparition de ChatGPT fin 2022, le flambeau des modèles ouverts a successivement été porté par Meta avec sa famille Llama, puis par des laboratoires chinois comme Qwen ou DeepSeek. Mais ces acteurs chinois amorcent aujourd'hui un retour vers des modèles propriétaires, laissant un vide stratégique que des entreprises américaines cherchent à combler. Pour les entreprises occidentales, dépendre d'architectures chinoises pour des infrastructures critiques devient politiquement et opérationnellement risqué. Trinity-Large-Thinking se positionne explicitement comme une alternative souveraine, ce que Clément Delangue, cofondateur et PDG de Hugging Face, résume ainsi : « La force des États-Unis a toujours été ses startups — peut-être que ce sont eux sur qui il faut compter pour mener l'open source en IA. Arcee prouve que c'est possible. » Sur le plan technique, Trinity-Large-Thinking repose sur une architecture Mixture-of-Experts (MoE) d'une rareté extrême : sur ses 400 milliards de paramètres totaux, seuls 1,56 % — soit 13 milliards — sont activés pour chaque token traité. Résultat : le modèle dispose de la profondeur de connaissance d'un très grand système tout en fonctionnant deux à trois fois plus vite que ses concurrents sur le même matériel. Pour stabiliser l'entraînement de cette architecture sparse, l'équipe a développé une technique maison appelée SMEBU (Soft-clamped Momentum Expert Bias Updates), qui évite que certains experts monopolisent les calculs tandis que d'autres restent inutilisés. Le corpus d'entraînement atteint 20 trillions de tokens, moitié données web curées via un partenariat avec DatologyAI, moitié données synthétiques de raisonnement. Trinity-Large-Thinking illustre qu'avec une ingénierie rigoureuse et des contraintes budgétaires serrées, un petit laboratoire américain peut aujourd'hui rivaliser avec les géants — et potentiellement redéfinir qui contrôle la prochaine génération de modèles ouverts.

UELes entreprises européennes peuvent adopter Trinity-Large-Thinking comme alternative open source souveraine aux modèles chinois pour leurs infrastructures critiques, disponible immédiatement sous licence Apache 2.0.

LLMsOpinion
1 source

Suivre Blackwell en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour