Aller au contenu principal

Infrastructure — page 2

346 articles · page 2 sur 7

Infrastructure IA : data centers, puces GPU/TPU, cloud computing, énergie et hardware.

Les parts de marché de Nvidia dans les puces d'inférence IA semblent progresser
51The Information AI InfrastructureOpinion

Les parts de marché de Nvidia dans les puces d'inférence IA semblent progresser

Nvidia a vu sa part de marché dans les puces d'inférence IA grimper à 74%, contre 66% il y a un an, selon des estimations de The Information fondées sur les déclarations financières de Nvidia et de ses concurrents, ainsi que sur des entretiens avec des analystes spécialisés. Ce bond de huit points s'est produit alors même que plusieurs développeurs d'IA et grands fournisseurs cloud avaient lancé leurs propres puces serveur dans le but explicite de réduire leur dépendance vis-à-vis du géant des semi-conducteurs. Ce résultat contredit les prévisions de nombreux analystes et dirigeants qui anticipaient une érosion progressive de la domination de Nvidia. Les puces alternatives, qu'elles soient conçues par Google, Amazon, Microsoft ou des startups spécialisées, n'ont pas réussi à mordre significativement sur le segment de l'inférence, c'est-à-dire l'exécution des modèles déjà entraînés pour répondre aux requêtes des utilisateurs. C'est pourtant ce segment qui représente l'essentiel de la consommation de calcul en production. La montée en puissance de l'inférence comme principal cas d'usage de l'IA en entreprise place Nvidia dans une position encore plus stratégique qu'elle ne l'était lors du boom de l'entraînement des modèles. Malgré des investissements massifs dans des solutions alternatives, les écosystèmes logiciels de Nvidia, notamment CUDA, continuent de constituer une barrière à l'entrée difficile à franchir. La question n'est plus de savoir si Nvidia peut être délogé, mais à quelle vitesse ses concurrents pourront combler l'écart technologique et logiciel.

UELa domination croissante de Nvidia sur les puces d'inférence renforce la dépendance des acteurs européens du cloud et de l'IA vis-à-vis d'un fournisseur américain, soulevant des enjeux de souveraineté numérique pour l'Europe.

1 source
La stratégie audacieuse de Broadcom pour stimuler la demande de ses puces
52The Information AI 

La stratégie audacieuse de Broadcom pour stimuler la demande de ses puces

Broadcom a annoncé la semaine dernière un accord de financement en partenariat avec les fonds d'investissement Apollo et Blackstone pour couvrir le coût d'un gigawatt de capacité de calcul destiné à Anthropic. Ce que le communiqué officiel a tu, c'est le rôle central que joue Broadcom dans cette opération : le fabricant de semi-conducteurs agit en réalité comme garant financier d'une commande de puces estimée à 35 milliards de dollars. En coulisses, c'est donc l'entreprise elle-même qui porte le risque financier pour stimuler la demande de ses propres composants. Cette approche n'est pas sans précédent : Nvidia recourt depuis plusieurs années à des techniques similaires de financement fournisseur pour accélérer ses ventes. Mais la comparaison s'arrête là. Broadcom ne dispose pas des réserves financières de son concurrent, ce qui rend le pari nettement plus risqué. En s'engageant sur un contrat d'une telle ampleur, la société mise sur une demande soutenue en infrastructure IA pour rentabiliser son exposition, une stratégie qui pourrait coûter très cher si le marché ralentit ou si Anthropic ne consomme pas les capacités prévues. Broadcom occupe une position singulière dans l'écosystème des puces pour l'IA : la société conçoit des accélérateurs sur mesure pour des géants comme Google, se positionnant comme une alternative aux GPU de Nvidia. L'accord avec Anthropic, startup soutenue notamment par Amazon et Google, illustre une tendance plus large : fabricants de puces, fonds de capital-investissement et laboratoires d'IA concluent des montages financiers inédits pour sécuriser l'accès à une infrastructure informatique désormais considérée comme stratégique.

InfrastructureOpinion
1 source
AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement
53Le Big Data 

AMD : ce mini PC fait tourner des IA géantes… sans cloud ni abonnement

Lors de la conférence Computex 2026, Lisa Su, PDG d'AMD, a pris la scène avec un mini PC pas plus grand qu'un livre épais pour y faire tourner en direct un modèle d'intelligence artificielle de 235 milliards de paramètres, sans datacenter, sans cloud, sans carte graphique dédiée externe. La machine utilisée est équipée du processeur Ryzen AI Max+ 395 (nom de code Strix Halo), intégré notamment dans le GMKtec EVO-X2. Sa particularité tient à son architecture de mémoire unifiée : jusqu'à 128 Go de RAM partagée, dont 96 Go peuvent être alloués au GPU intégré en guise de VRAM. C'est précisément ce volume qui permet de charger des modèles d'une taille normalement réservée aux serveurs professionnels. Le tout s'exécute via des outils open source gratuits comme Ollama, sans abonnement ni limite d'usage imposée par un tiers. Ce qui change concrètement, c'est la barrière d'accès à l'inférence locale de très grands modèles. Jusqu'ici, faire tourner un LLM de plusieurs dizaines de milliards de paramètres exigeait soit une carte graphique haut de gamme à plusieurs milliers d'euros avec ses limitations de VRAM, soit la location de GPU dans le cloud, une facture récurrente qui peut vite peser sur les marges d'un indépendant ou d'une petite structure. AMD montre ici qu'un mini PC compact peut absorber ces charges de travail localement. Pour les entreprises manipulant des données sensibles, cabinets juridiques, services de santé, bureaux d'études, la promesse est double : confidentialité totale des documents traités et réduction significative des coûts d'infrastructure IA. Un consultant cité dans la démonstration affirme avoir remplacé ses locations de GPU par cette configuration, avec un impact positif sur la rentabilité de son activité. AMD ne part pas de zéro dans cette course, mais accuse encore du retard sur Nvidia. Son écosystème logiciel ROCm, équivalent maison du CUDA de Nvidia, progresse rapidement en compatibilité mais n'a pas encore atteint la maturité de son concurrent, ce qui peut freiner certains workflows spécialisés. Face à une RTX 5090, les performances de ce Ryzen AI Max+ 395 restent inférieures sur les modèles les plus exigeants. La démonstration d'AMD s'inscrit néanmoins dans une tendance de fond : la décentralisation de l'IA vers le matériel personnel, portée aussi bien par Apple Silicon que par les puces NPU embarquées dans les PC Copilot+. Le marché de l'IA embarquée représente un enjeu stratégique majeur pour les prochaines années, et cette annonce positionne AMD comme un acteur sérieux de l'inférence locale, aux côtés d'un Nvidia dont la domination sur le segment serveur reste, pour l'instant, intacte.

UELes entreprises européennes soumises au RGPD, cabinets juridiques, services de santé, bureaux d'études, disposent d'une option d'inférence IA locale à coût réduit, garantissant la confidentialité des données sans dépendance à des services cloud tiers.

💬 235 milliards de paramètres dans un boîtier format livre, c'est le genre de démo Computex qu'on met de côté... sauf que là, ça repose sur quelque chose de réel : la mémoire unifiée qui résout enfin le problème de VRAM qui nous bloquait depuis des années. Pour les cabinets, les services de santé, toutes les structures qui ne peuvent pas balancer leurs données sur le cloud, c'est une vraie porte qui s'ouvre. ROCm n'est pas encore CUDA, attention, mais pour de l'inférence locale avec Ollama, ça passe.

InfrastructureOpinion
1 source
MCP a résolu l'appel d'outils, A2A la coordination. Et le transport ?
54VentureBeat AI 

MCP a résolu l'appel d'outils, A2A la coordination. Et le transport ?

En l'espace de dix-huit mois, l'écosystème des agents IA a produit quatre protocoles de communication majeurs qui redessinent en profondeur la façon dont les systèmes d'intelligence artificielle interagissent. Anthropic a lancé le Model Context Protocol (MCP) fin 2024, IBM Research a publié l'Agent Communication Protocol (ACP) en mars 2025, Google a dévoilé Agent2Agent (A2A) en avril 2025, et un groupe de travail indépendant a proposé l'Agent Network Protocol (ANP). En avril 2026, MCP comptait déjà plus de 10 000 serveurs publics actifs et 164 millions de téléchargements mensuels du SDK Python, confirmant sa domination sur la couche d'appel d'outils. Google a cédé A2A à la Linux Foundation en juin 2025. Parallèlement, le W3C a ouvert un groupe communautaire dédié aux protocoles d'agents IA, et l'IETF reçoit des propositions de standards pour le transport entre agents. Ce qui semblait chaotique révèle en réalité une logique de pile : chaque protocole adresse une couche distincte. MCP est un contrat RPC typé entre un client-modèle et un serveur d'outils, il gère la découverte de fonctions et leur invocation via HTTP. A2A comble ce que MCP laisse ouvert : la coordination de tâches entre agents, avec des "Agent Cards" pour déclarer les capacités, des états de cycle de vie et trois modes d'interaction (synchrone, streaming, asynchrone). ACP, lui, est une enveloppe de message légère et sans état, utile quand la sémantique complète d'A2A serait excessive. ANP apporte identité décentralisée via des DID et descriptions de capacités en JSON-LD, posant les bases de marketplaces d'agents sans registre central. Ces couches se complètent, elles ne se concurrencent pas. La question non résolue est celle du transport. Tous ces protocoles tournent sur HTTP, un choix qui reflète l'origine de leurs concepteurs : équipes de recherche, fournisseurs d'API, éditeurs enterprise pour qui HTTP est une évidence. Mais HTTP a été conçu pour des échanges requête-réponse entre humains et serveurs, pas pour des flux de tâches longue durée entre agents autonomes. L'histoire des protocoles distribués montre un schéma invariable : prolifération d'abord, consolidation ensuite. CORBA, DCOM, RMI et SOAP se sont battus pour l'intégration enterprise dans les années 1990 avant que REST ne gagne en étant plus simple et natif HTTP. XMPP, IRC et des dizaines de protocoles propriétaires ont fragmenté la messagerie temps réel avant que MQTT et WebSockets ne s'imposent dans leurs niches respectives. L'écosystème IA est aujourd'hui en phase de prolifération. La convergence viendra lorsque l'interopérabilité deviendra une nécessité économique, mais les décisions d'architecture prises maintenant définiront quels protocoles survivront à cette consolidation.

UELa participation des instances européennes aux groupes W3C et IETF sur les protocoles d'agents IA offre une opportunité d'influencer des standards architecturaux qui conditionneront l'écosystème agent pour les années à venir.

💬 La pile MCP/A2A commence à avoir de la gueule : chaque protocole couvre sa couche, sans se marcher dessus. Ce qui reste ouvert, c'est le transport, et c'est pas un détail, parce qu'HTTP n'a pas été conçu pour des tâches autonomes qui durent des heures. La consolidation finira par arriver, comme après SOAP, mais les archi posées maintenant, c'est celles qui resteront.

InfrastructureOpinion
1 source
NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA
55NVIDIA AI Blog 

NVIDIA Blackwell domine le premier benchmark d'infrastructure pour agents autonomes d'IA

Artificial Analysis a publié AgentPerf, le premier benchmark sectoriel conçu spécifiquement pour évaluer les infrastructures d'IA agentique. Dans ce premier tour de résultats, la plateforme NVIDIA GB300 NVL72, basée sur l'architecture Blackwell Ultra, s'impose comme le système le plus performant : elle peut faire tourner jusqu'à 20 fois plus d'agents par mégawatt que l'ancienne génération HGX H200 (Hopper), quel que soit le seuil de qualité de service retenu (20 ou 60 tokens par seconde par agent). Le modèle de référence utilisé pour ce test est DeepSeek V4 Pro, un grand modèle de type mixture-of-experts représentatif des LLM qui propulsent aujourd'hui les agents les plus capables. La distinction entre IA conversationnelle et IA agentique est au coeur de cette initiative. Un chatbot classique réalise un seul appel LLM par échange : c'est un sprint. Un agent, lui, enchaîne des dizaines voire des centaines d'appels LLM entrelacés d'appels à des outils externes, compilation de code, recherche en base de données, navigation web, en transmettant à chaque étape un contexte de plus en plus long. La complexité n'est pas additive, elle est multiplicative. Les benchmarks d'inférence existants ne mesuraient qu'un seul appel LLM isolé et n'avaient pas été conçus pour capturer cette réalité. Pour une entreprise qui déploie des agents à grande échelle, les métriques pertinentes sont la réactivité des agents, le nombre d'instances simultanées supportées, et surtout le volume de travail utile produit par dollar et par watt investis. La performance du GB300 NVL72 repose sur une co-conception poussée de l'ensemble de la pile logicielle et matérielle. Le système interconnecte 72 GPU en une seule unité rack, ce qui permet aux grands modèles MoE comme DeepSeek V4 Pro de distribuer leur exécution efficacement. Les noyaux CUDA chevauchent communication et calcul pour absorber la latence de coordination entre experts. TensorRT-LLM sépare le traitement des entrées de la génération des sorties afin d'optimiser chaque phase indépendamment. AgentPerf lui-même est construit à partir de trajectoires réelles d'agents de codage opérant sur des dépôts publics couvrant plus de 12 langages de programmation, avec des longueurs de séquences, des délais d'appels d'outils et des patterns représentatifs de la production. Ce benchmark arrive à un moment où l'industrie bascule massivement vers des architectures agentiques, et où le choix d'infrastructure devient un avantage concurrentiel direct pour quiconque déploie ces systèmes à l'échelle.

UELes entreprises et cloud providers européens déployant des agents IA à grande échelle peuvent utiliser ce benchmark pour orienter leurs décisions d'achat de matériel.

💬 Vingt fois plus d'agents par mégawatt, c'est pas anodin. Ce qui m'intéresse surtout dans ce benchmark, c'est qu'il mesure enfin ce qui compte vraiment : pas un seul appel LLM en isolation, mais des chaînes complètes avec des dizaines d'appels et du contexte qui s'accumule à chaque étape. Reste à voir si ça se confirme sur des tâches moins lisses que du code sur des dépôts publics.

InfrastructureActu
1 source
Consommation d'eau totale : les datacenters IA ne représentent qu'une goutte dans l'océan
56Ars Technica AI 

Consommation d'eau totale : les datacenters IA ne représentent qu'une goutte dans l'océan

Amazon a publié jeudi un billet de blog affirmant que ses centres de données ont prélevé environ 2,5 milliards de gallons d'eau à l'échelle mondiale en 2025, principalement pour alimenter les systèmes de refroidissement par évaporation. En comparaison, Google avait prélevé plus de 6,1 milliards de gallons en 2024, Microsoft environ 2,75 milliards et Meta 1,4 milliard sur la même période. C'est la première fois qu'Amazon communique publiquement sur ce chiffre, rejoignant tardivement ses concurrents dans l'exercice de transparence environnementale. Ces volumes paraissent colossaux en valeur absolue, mais ils s'avèrent anecdotiques dès lors qu'on les replace dans le contexte de la consommation nationale américaine. Les États-Unis ont prélevé à eux seuls 117 000 milliards de gallons d'eau en 2015. L'entretien des pelouses et espaces verts américains consomme 3 300 milliards de gallons par an, les vergers d'amandiers californiens 1 300 milliards, et les seuls terrains de golf américains 531 milliards. Les données centers de tous les grands acteurs de l'IA réunis représentent donc une fraction infime des prélèvements hydriques totaux, relativisant considérablement le récit dominant sur l'IA "assoiffée" de ressources. Cette publication intervient dans un contexte de pression croissante sur les entreprises tech pour documenter leur empreinte environnementale, portée notamment par des communautés en ligne critique vis-à-vis de l'IA. Si l'impact global semble limité à l'échelle nationale ou mondiale, la situation est bien différente localement : un centre de données peut représenter une charge significative pour le réseau hydrique d'une région spécifique, notamment dans des zones déjà soumises au stress hydrique. L'enjeu pour les prochaines années sera moins de mesurer l'empreinte agrégée que de gérer les tensions locales, alors que la construction de nouveaux centres de données s'accélère partout dans le monde pour répondre à la demande explosive en infrastructures IA.

InfrastructureOpinion
1 source
Meta a racheté Rivos pour accélérer ses puces IA, sans succès pour l'instant
57The Information AI 

Meta a racheté Rivos pour accélérer ses puces IA, sans succès pour l'instant

Meta a acquis le fabricant de puces Rivos en 2025 pour accélérer le développement de ses propres processeurs et réduire sa dépendance à Nvidia, dont les GPU dominent l'infrastructure IA du groupe. Six mois après la clôture du rachat, l'intégration est en difficulté : selon onze employés actuels et anciens de l'équipe, la division puces est paralysée par des mois d'incertitude stratégique, des changements de priorités au sommet de la hiérarchie, et des tensions persistantes entre les ingénieurs de Rivos et les équipes historiques de Meta. L'échec à capitaliser sur cette acquisition illustre un problème plus profond pour Meta : concevoir ses propres puces ne se limite pas à racheter un talent ou une technologie. Cela exige une vision stable, une organisation cohérente et une chaîne de décision claire. Sans cela, même les meilleures équipes d'ingénierie stagnent. Pour Meta, réussir dans les semi-conducteurs est pourtant stratégique : chaque dollar investi dans des puces maison est un dollar retiré à Nvidia, dont la dépendance pèse lourd à l'heure où le groupe investit massivement dans ses data centers. La course aux puces IA internes est devenue un enjeu central pour les géants technologiques. Google dispose de ses TPU depuis des années, Apple maîtrise ses SoC, et Amazon a ses Trainium et Inferentia. Meta, en retard, a choisi l'acquisition comme raccourci vers la maturité technologique. L'affaire Rivos montre que cette stratégie ne suffit pas sans une culture d'intégration solide et une direction stable. Les prochains mois seront déterminants pour savoir si Meta peut transformer cet investissement en avantage compétitif réel.

InfrastructureActu
1 source
Supermicro obtient 7 milliards de dollars pour l’IA, mais son action recule en Bourse
58Le Big Data 

Supermicro obtient 7 milliards de dollars pour l’IA, mais son action recule en Bourse

Supermicro a annoncé le 10 juin 2026 un programme de financement pouvant atteindre 7 milliards de dollars, orchestré avec JPMorgan Chase, Goldman Sachs et Citigroup. L'opération se décompose en deux volets : une levée garantie de 5 milliards de dollars, dont 1,25 milliard en actions ordinaires et 3,75 milliards en titres convertibles, complétée par un programme de vente d'actions sur le marché pouvant générer 2 milliards supplémentaires à partir du troisième trimestre 2026. Cette mobilisation de capitaux vise à financer l'acquisition de composants pour honorer environ 39 milliards de dollars de commandes de serveurs IA reçues en quelques semaines auprès de plus de vingt clients. Le PDG Charles Liang a précisé que le coût de certains composants stratégiques, notamment la mémoire, a plus que triplé ces derniers mois, gonflant considérablement les besoins en financement. Malgré l'ampleur de l'annonce, l'action SMCI a chuté de 13 % en Bourse dans la foulée. Cette réaction boursière illustre la tension classique entre croissance et dilution du capital : l'émission de nouvelles actions réduit mécaniquement la part des actionnaires existants, ce qui pèse sur le cours même quand les fonds servent à financer une expansion réelle. Le paradoxe est frappant, car le titre avait progressé d'environ 39 % depuis le début de l'année, porté précisément par l'engouement pour les fournisseurs d'infrastructure IA. Pour l'industrie, cet épisode révèle un défi structurel inédit : les fabricants de serveurs spécialisés doivent financer leur croissance aussi vite que leurs carnets de commandes se remplissent, ce qui exige des cycles de levée de fonds agressifs susceptibles d'inquiéter les marchés à court terme, même quand les fondamentaux opérationnels restent solides. Supermicro occupe une position centrale dans la chaîne d'approvisionnement de l'IA générative, en tant que fournisseur de serveurs optimisés pour les puces Nvidia destinés aux grands centres de données. La flambée des prix des composants et l'accélération des déploiements chez les hyperscalers et les nouvelles startups IA ont transformé ce segment en véritable goulet d'étranglement industriel. La société avait connu des turbulences en 2024, notamment autour de questions comptables qui avaient ébranlé la confiance des investisseurs, et ce rebond spectaculaire de son carnet de commandes marque une forme de réhabilitation opérationnelle. Les prochains trimestres seront déterminants pour évaluer si Supermicro parvient à livrer ces 39 milliards de commandes dans les délais, à maîtriser ses coûts d'approvisionnement et à convaincre les marchés que la dilution acceptée aujourd'hui se traduira bien en croissance rentable demain.

UELa flambée des prix des composants IA (mémoire, GPU) révélée par cette levée de fonds pourrait renchérir et allonger les délais d'approvisionnement des projets de data centers en construction en Europe.

InfrastructureOpinion
1 source
#Nextquick Pourquoi tout le monde se jette encore sur les GPU NVIDIA pour l’IA
59Next INpact 

#Nextquick Pourquoi tout le monde se jette encore sur les GPU NVIDIA pour l’IA

Malgré l'essor de puces spécialisées développées par les géants du cloud, les GPU NVIDIA continuent de dominer massivement le marché de l'intelligence artificielle, tant pour l'entraînement des modèles que pour l'inférence. Google dispose de ses TPU (Tensor Processing Units), Amazon de ses puces Trainium, Microsoft de ses Maia -- pourtant, les datacenters du monde entier continuent de s'approvisionner en H100 et B200 de Santa Clara. La réponse tient en quatre lettres : CUDA. Lancée en 2007, soit près de deux décennies avant l'explosion de l'IA générative, la plateforme Compute Unified Device Architecture de NVIDIA s'est imposée comme un standard de facto que personne n'a réussi à détrôner depuis. L'avantage décisif de NVIDIA n'est pas seulement matériel -- c'est avant tout logiciel. Les ASIC comme les TPU sont des circuits intégrés à application spécifique, donc plus efficaces et souvent moins énergivores pour des tâches ciblées. Mais CUDA représente vingt ans d'optimisations, de bibliothèques, de frameworks, et d'une communauté de développeurs formés sur cet écosystème. PyTorch, TensorFlow, les outils de recherche des grands laboratoires -- tout est pensé et optimisé pour CUDA. Migrer vers une alternative signifie réécrire des piles logicielles entières, former des ingénieurs, et accepter une perte de performance pendant la transition. Pour la plupart des équipes, le coût dépasse largement les économies énergétiques promises. Ce verrouillage technologique illustre un phénomène classique dans l'industrie du logiciel : celui des effets de réseau et des coûts de migration qui figent un standard même lorsque des alternatives supérieures existent. Les hyperscalers comme Google ou Amazon utilisent bien leurs puces propriétaires en interne pour certaines charges de travail -- mais ils continuent également d'acheter massivement du NVIDIA pour leurs clients, qui exigent la compatibilité CUDA. L'extension récente de NVIDIA vers l'informatique quantique, qui "fait peur à tout le monde" selon les observateurs du secteur, montre que l'entreprise entend reproduire ce même playbook : imposer une plateforme logicielle tôt, avant que le marché ne se structure, et verrouiller l'écosystème pour les décennies suivantes.

UELes entreprises et laboratoires européens restent dépendants de l'écosystème CUDA-NVIDIA, ce qui limite leur capacité à développer une souveraineté technologique en matière d'infrastructure IA.

InfrastructureOpinion
1 source
Semi-conducteurs : l'IA propulse les revenus des fonderies à un niveau record au premier trimestre 2026
60ZDNET FR 

Semi-conducteurs : l'IA propulse les revenus des fonderies à un niveau record au premier trimestre 2026

Les revenus des fonderies de semi-conducteurs ont atteint un niveau historique au premier trimestre 2026, portés par une demande en accélérateurs IA sans précédent. TSMC, le géant taïwanais qui fabrique les puces d'Apple, NVIDIA et AMD, a enregistré une hausse de ses revenus trimestriels dépassant 30 % sur un an, consolidant sa position de premier fondeur mondial. Samsung Foundry et d'autres acteurs de rang deux ont également bénéficié de cette dynamique, même si l'écart avec TSMC s'est creusé sur les noeuds les plus avancés (3 nm et 2 nm). Cette progression traduit une ruée des géants du cloud -- Microsoft, Google, Amazon, Meta -- vers les puces dédiées à l'inférence et à l'entraînement de modèles d'IA. Chaque centre de données construit pour faire tourner des LLMs représente des commandes massives de GPU et d'ASIC propriétaires, tous gravés en fonderie. Pour l'industrie, c'est une rupture de cycle : les fonderies sortent de la logique saisonnière liée aux smartphones pour entrer dans un régime de commandes structurellement plus stables et plus rentables. Ce record arrive après deux années difficiles marquées par la correction post-COVID et la chute de la demande grand public. La montée en puissance des ASIC maison chez les hyperscalers -- Google TPU, Amazon Trainium, Microsoft Maia -- diversifie les carnets de commandes au-delà de NVIDIA. La course aux capacités de production avancée s'intensifie : TSMC accélère ses usines en Arizona et au Japon, tandis que l'Europe et les Etats-Unis cherchent a reduire leur dependance a l'Asie via le CHIPS Act et son equivalent europeen.

UEL'Europe accélère son programme équivalent au CHIPS Act américain pour réduire sa dépendance aux fonderies asiatiques, mais reste très en retard sur TSMC pour la production de puces avancées à 3 nm et 2 nm.

InfrastructureOpinion
1 source
Anthropic cherche à louer ses premiers data centers avec le soutien financier de Google
61The Information AI 

Anthropic cherche à louer ses premiers data centers avec le soutien financier de Google

Anthropic, la société à l'origine du modèle Claude, franchit une nouvelle étape dans son autonomisation technologique en cherchant à contrôler sa propre infrastructure de calcul. L'entreprise a signé ces derniers mois plus d'une dizaine de lettres d'intention pour louer des centres de données auprès de différents développeurs immobiliers américains, selon plusieurs sources proches du dossier. En parallèle, ses dirigeants auraient engagé des discussions avec Google pour que le géant de Mountain View se porte garant financier des paiements de loyers liés à ces baux. Cette démarche vise avant tout à réduire les coûts de calcul sur le long terme, qui représentent aujourd'hui une charge colossale pour les laboratoires d'IA. En contrôlant directement ses serveurs plutôt qu'en s'appuyant exclusivement sur des fournisseurs cloud, Anthropic gagnerait en flexibilité opérationnelle et diminuerait sa dépendance aux tarifs imposés par des tiers. La participation de Google est particulièrement significative : le groupe co-conçoit certaines puces serveurs susceptibles d'équiper ces nouvelles installations, ce qui renforcerait une intégration verticale déjà en cours. Google est l'un des principaux investisseurs d'Anthropic, aux côtés d'Amazon, qui a engagé jusqu'à 4 milliards de dollars dans la startup. Cette quête d'infrastructure propre s'inscrit dans une tendance plus large : OpenAI, xAI et Google DeepMind investissent eux aussi massivement dans leurs propres capacités de calcul, transformant la maîtrise des data centers en avantage concurrentiel décisif dans la course à l'intelligence artificielle générale.

InfrastructureActu
1 source
Ce que les benchmarks IA ne mesurent pas dans les conditions réelles
62VentureBeat AI 

Ce que les benchmarks IA ne mesurent pas dans les conditions réelles

Les benchmarks utilisés par les équipes d'infrastructure IA ne reflètent pas les conditions réelles de production, et cet écart coûte cher aux entreprises. C'est le constat que dressent des ingénieurs de F5 et MinIO, qui ont mené des tests de débit dans des conditions réseau dégradées. Leurs résultats sont frappants : dès qu'on introduit une latence modeste dans le chemin vers le stockage objet S3, le débit chute drastiquement. Et à mesure que la latence augmente, comme c'est le cas sur des distances longue portée, la dégradation devient sévère. Autre surprise : la latence s'est révélée bien plus destructrice que le jitter réseau, à l'inverse de ce que l'équipe anticipait. Paul Pindell, architecte solutions chez F5, le formule clairement : "Les tests benchmark sont construits pour produire les meilleurs résultats possibles, pas les plus réalistes. Introduire une latence constante dans le chemin de test est indispensable pour que les chiffres aient un sens." Le problème concret est que les GPU, ressource la plus visible et la plus coûteuse de tout déploiement IA, ne génèrent de la valeur que si le chemin de données qui les alimente fonctionne correctement. Or ce chemin passe par le stockage, le réseau, les bases de données, les couches de sécurité et d'orchestration, souvent assemblées depuis plusieurs fournisseurs. Quand ce chemin se dégrade, les effets se cumulent : sous-utilisation des GPU, dégradation des sorties IA, hausse des coûts de transfert liés à la réplication inutile de données, et complexité opérationnelle croissante. Tanu Mutreja, directrice produit chez F5, souligne que les charges de travail IA sont structurellement plus exposées à ces défaillances que les applications traditionnelles. Contrairement aux bases de données ou aux systèmes ERP, qui absorbent les délais transitoires via des caches et des tampons, les clusters GPU massivement parallèles n'ont aucun mécanisme équivalent. Le moindre pic de latence ou goulot d'étranglement peut se propager immédiatement à l'ensemble du pipeline. Cette prise de conscience change la manière dont les architectes d'entreprise doivent concevoir leur infrastructure IA. Hunter Smit, responsable marketing produit chez F5, résume le paradoxe : "Les entreprises achètent suffisamment de GPU et de stockage, puis supposent que le chemin entre les deux tiendra. Mais le trafic IA est par rafales, très concurrent, et aléatoire dans ses lectures, d'une manière que les réseaux de stockage classiques n'ont jamais été conçus pour absorber." La réponse qui émerge dans l'industrie est le déploiement de contrôleurs de livraison applicative (ADC) ou de plateformes de livraison et sécurité (ADSP) en amont du stockage, pour créer un point de contrôle résilient. Le message central est que les décisions d'infrastructure fondées sur des benchmarks en environnement contrôlé exposent les organisations à des surprises coûteuses en production, et que la performance du chemin de données est devenue un levier stratégique au même titre que la capacité de calcul brute.

InfrastructureOpinion
1 source
L'implantation de centres de données en orbite est plus complexe que ne le croit la Silicon Valley
63IEEE Spectrum AI 

L'implantation de centres de données en orbite est plus complexe que ne le croit la Silicon Valley

Les data centers en orbite ont cessé d'être de la science-fiction pour devenir une catégorie d'investissement sérieuse. En mars dernier, Jensen Huang, PDG de Nvidia, proclamait depuis la conférence GTC que "le calcul spatial, la dernière frontière, est arrivé". Google a annoncé le projet Suncatcher en partenariat avec Planet, avec le lancement prévu de deux satellites équipés de puces TPU maison dès début 2027. La startup Starcloud a déposé une demande auprès de la FCC pour une constellation de 88 000 satellites dédiés au calcul orbital. SpaceX, de son côté, intègre xAI dans ses plans de constellations spatiales. Toutes ces entreprises imaginent des flottes de milliers de satellites abritant des racks de GPU haut de gamme, interconnectés par liaisons optiques en espace libre et reliés à la Terre par ondes microondes. Pourtant, une analyse rigoureuse de la physique tempère sérieusement l'enthousiasme. Le premier mythe à déconstruire est celui du "refroidissement gratuit" : l'espace est effectivement froid, mais l'absence d'atmosphère élimine la convection et la conduction, laissant uniquement le rayonnement thermique comme mécanisme de dissipation. Cela impose des surfaces radiantes immenses et coûteuses pour éviter la surchauffe des puces. L'énergie solaire, bien qu'abondante, nécessite des systèmes complexes de contrôle d'orientation pour maintenir les panneaux alignés vers le soleil. Les rayonnements ionisants issus des rayons cosmiques dégradent progressivement les panneaux, les refroidisseurs et les processeurs eux-mêmes, obligeant à intégrer dès le lancement une redondance substantielle. Selon une analyse de coût total de possession réalisée par ABI Research, déployer et exploiter un GPU dans l'espace pendant un an coûte au moins dix fois plus cher qu'en data center terrestre, même en retenant un coût de lancement Starship très optimiste de 44 dollars par kilogramme et un tarif électrique de 0,20 dollar par kilowatt-heure. Cette réalité économique n'interdit pas toute application spatiale, mais elle en restreint fortement le périmètre rentable. Des cas d'usage de niche restent défendables : le prétraitement des données issues des satellites d'observation terrestre directement en orbite, la détection et le suivi en temps réel de missiles hypersoniques, ou encore l'évitement de collisions dans un orbite basse de plus en plus saturée. Pour ces missions, la proximité avec les données justifie le surcoût. Mais la promesse d'un calcul généraliste en orbite comme alternative aux data centers terrestres se heurte à des contraintes physiques fondamentales que ni l'ingénierie ni le capital-risque ne peuvent simplement contourner. Le secteur reste néanmoins porteur d'une ambition technologique réelle, et les prochaines années diront si les pionniers parviennent à résoudre l'équation thermique qui sépare aujourd'hui la vision de la viabilité.

UELa course au calcul orbital menée par des acteurs américains pourrait indirectement affecter la stratégie des acteurs spatiaux européens comme Thales Alenia Space ou Airbus Space, mais les contraintes physiques et économiques identifiées limitent l'urgence d'une réponse concurrentielle immédiate.

InfrastructureOpinion
1 source
Fini le réglage manuel des kernels : Neuron Agentic Development accélère les optimisations AWS Trainium
64AWS ML Blog 

Fini le réglage manuel des kernels : Neuron Agentic Development accélère les optimisations AWS Trainium

Amazon Web Services vient d'annoncer les capacités "Neuron Agentic Development", un ensemble d'agents IA et de compétences spécialisées conçues pour accélérer le développement de kernels sur ses puces Trainium et Inferentia. Ces outils permettent aux agents de développement comme Kiro et Claude d'écrire, déboguer et profiler automatiquement des kernels NKI (Neuron Kernel Interface), la couche logicielle bas niveau qui détermine l'efficacité réelle du matériel. Le package comprend cinq compétences distinctes suivant le pipeline naturel de développement : écriture, débogage, profilage et analyse. Concrètement, la compétence d'écriture traduit du code PyTorch, NumPy ou une simple description en langage naturel en kernels NKI corrects, en respectant les contraintes matérielles spécifiques comme les dimensions de partition de 128 éléments. La compétence de débogage couvre 28 codes d'erreur du compilateur Neuron, tandis que les outils de profilage génèrent des traces exploitables via neuron-explorer avec un détail au niveau des opérations DMA. Ces capacités s'intègrent directement dans des environnements comme VS Code, Cursor ou Kiro, et nécessitent une instance Amazon EC2 basée sur Trainium. L'enjeu est considérable : l'écart entre les performances théoriques d'un accélérateur IA et ce qu'une équipe obtient réellement en pratique reste souvent énorme, faute de développeurs capables d'écrire des kernels matériels optimisés. Jusqu'ici, cette expertise demandait des années d'expérience au niveau de l'architecture des puces, rendant l'optimisation de bas niveau inaccessible à la majorité des équipes de machine learning. En automatisant cette couche via des agents IA, AWS permet à n'importe quel ingénieur ML de produire du code hardware-aware sans formation spécialisée, réduisant potentiellement le temps d'implémentation de plusieurs mois à quelques jours. Pour les équipes qui déploient des modèles à grande échelle, des gains même marginaux sur l'efficacité des kernels se traduisent directement en coûts d'inférence réduits et en meilleures latences pour les utilisateurs finaux. Cette annonce s'inscrit dans la stratégie d'AWS de différencier ses puces maison face à Nvidia, dont les GPU H100 et H200 restent la référence dans l'industrie. Trainium et Inferentia existent depuis plusieurs années mais peinent à convaincre des équipes habituées à l'écosystème CUDA, bien établi et documenté. En abaissant la barrière d'entrée via l'automatisation agentique, Amazon cherche à élargir la base de développeurs prêts à migrer ou à tester ses accélérateurs. La question de la généralisation reste entière : ces capacités agentiques pourraient préfigurer une tendance plus large où chaque fabricant de silicium embarque son propre assistant IA pour faciliter l'adoption, transformant la guerre des puces en une guerre des outils de développement.

InfrastructureOpinion
1 source
OpenAI négocie la location d'un datacenter de 10 gigawatts en Ohio, avec le soutien de Nvidia
65The Information AI 

OpenAI négocie la location d'un datacenter de 10 gigawatts en Ohio, avec le soutien de Nvidia

OpenAI est en négociations avancées pour louer un campus de centres de données colossal sur des terres fédérales en Ohio, avec le soutien financier potentiel de Nvidia. Le projet, dont les discussions impliquent deux sources ayant une connaissance directe des négociations, porterait sur une capacité totale de 10 gigawatts, ce qui en ferait l'un des plus grands complexes de ce type au monde. Le coût total du projet, s'il est entièrement réalisé, atteindrait au moins 500 milliards de dollars aux prix actuels des puces, de la main-d'oeuvre, de l'énergie et des matériaux. OpenAI contrôlerait les équipements via un bail à long terme et serait responsable des paiements dès le lancement des opérations, la première phase étant attendue pour 2028. L'ampleur de cet investissement reflète la course effrénée aux infrastructures de calcul que se livrent les grands acteurs de l'IA. Un campus de 10 gigawatts représente une puissance électrique équivalente à celle de plusieurs grandes villes, signalant que les besoins en calcul de l'IA générative dépassent largement ce que les centres de données classiques peuvent offrir. L'implication de Nvidia, dont les GPU alimentent la quasi-totalité des systèmes d'IA de pointe, suggère une intégration verticale inédite entre fournisseur de puces et opérateur d'infrastructure. Ce projet s'inscrit dans la stratégie Stargate annoncée début 2025, par laquelle OpenAI, SoftBank et Oracle s'étaient engagés à investir jusqu'à 500 milliards de dollars en infrastructures IA aux États-Unis. Le choix de terres fédérales en Ohio souligne aussi le rôle croissant du gouvernement américain dans la facilitation de ces méga-projets, dans un contexte de concurrence technologique avec la Chine. Si les négociations aboutissent, ce campus deviendrait un pilier central de la capacité de calcul mondiale d'OpenAI pour la prochaine décennie.

UECe méga-projet amplifie l'écart d'infrastructure IA entre les États-Unis et l'Europe, où aucun investissement d'ampleur comparable n'est prévu, renforçant le risque de dépendance européenne aux capacités de calcul américaines.

InfrastructureActu
1 source
NVIDIA intègre le calcul confidentiel pour renforcer le Private Cloud Compute d'Apple
66NVIDIA AI Blog 

NVIDIA intègre le calcul confidentiel pour renforcer le Private Cloud Compute d'Apple

Apple vient d'annoncer lors de sa conférence annuelle WWDC 2026 l'extension de son infrastructure Private Cloud Compute (PCC) au-delà de ses propres centres de données, vers Google Cloud. Pour sécuriser cette expansion, Apple s'appuie désormais sur les GPU NVIDIA avec Confidential Computing, notamment les puces Blackwell de dernière génération. Ces GPU servent à l'inférence confidentielle côté serveur pour les Apple Foundation Models, des modèles d'IA propriétaires développés conjointement par Apple et Google à partir des technologies qui sous-tendent la famille Gemini. C'est la première fois qu'Apple intègre explicitement du matériel NVIDIA dans l'architecture de sécurité matérielle de PCC, un système conçu pour traiter des requêtes d'intelligence artificielle sensibles sans exposer les données des utilisateurs. Cette collaboration soulève un enjeu fondamental pour l'IA à grande échelle : comment traiter des données personnelles dans le cloud sans sacrifier ni la performance ni la confidentialité. Le Confidential Computing de NVIDIA répond à cette contrainte en isolant les charges de travail dans des environnements d'exécution sécurisés, en chiffrant les flux de communication entre composants, et en permettant une attestation à distance, un mécanisme cryptographique qui permet au logiciel de vérifier que l'infrastructure n'a pas été compromise avant d'y envoyer des données sensibles. Concrètement, cela signifie que personne, y compris les ingénieurs d'Apple, de Google ou de NVIDIA, ne peut accéder aux conversations ou données des utilisateurs pendant le traitement. Pour des centaines de millions d'utilisateurs Apple qui activent des fonctions Apple Intelligence impliquant du traitement cloud, cette garantie est directement opérationnelle. Cette annonce s'inscrit dans une tendance de fond : à mesure que les expériences d'IA hybrides combinent traitement sur l'appareil et inférence serveur, la pression sur la chaîne de confiance s'intensifie. Apple avait fait de la confidentialité de PCC une promesse centrale depuis l'introduction d'Apple Intelligence, mais ses centres de données propriétaires limitaient sa capacité à monter en puissance. Le recours à Google Cloud, avec des GPU Blackwell sécurisés, lui permet de scaler sans renoncer à cette promesse. Pour NVIDIA, c'est une validation de son positionnement sur la sécurité de l'IA, un segment encore peu exploité mais stratégique face à des régulations croissantes sur les données personnelles. L'intégration de ces trois acteurs majeurs, Apple, Google et NVIDIA, autour d'un standard commun de confidentialité computationnelle pourrait accélérer l'adoption de ce type d'architecture dans l'ensemble de l'industrie.

UEL'architecture de confidentialité computationnelle décrite pourrait devenir un standard pour les entreprises européennes soumises au RGPD cherchant à déployer l'IA dans le cloud sans compromettre la protection des données personnelles.

💬 Apple qui sous-traite sa confidentialité à Google Cloud, c'est un paradoxe savoureux. Mais le Confidential Computing de NVIDIA change la lecture : l'attestation à distance garantit que même les ingénieurs des trois boîtes ne touchent pas aux données pendant l'inférence, c'est pas du branding, c'est de la cryptographie. Reste à voir si ça tient à l'échelle, mais sur le papier c'est le template qu'on attendait pour que l'IA cloud passe enfin le test RGPD.

LG Group s’appuie sur NVIDIA pour accélérer ses projets d’AI Factory
67Le Big Data 

LG Group s’appuie sur NVIDIA pour accélérer ses projets d’AI Factory

LG Group et NVIDIA ont annoncé le 8 juin 2026 un partenariat stratégique pour construire une infrastructure d'AI Factory à grande échelle. Jensen Huang, PDG de NVIDIA, a rencontré Koo Kwang-mo, président du conglomérat sud-coréen, pour officialiser cette collaboration qui couvre plusieurs secteurs simultanément : robotique, conduite autonome, centres de données de nouvelle génération et services cloud GPU. Concrètement, plusieurs filiales du groupe sont engagées dans le projet. LG Uplus développera des infrastructures cloud hébergeant les dernières générations de GPU NVIDIA, LG CNS construira des usines IA fondées sur l'architecture DSX de NVIDIA, et LG Electronics intègre déjà les plateformes Isaac Sim et Isaac Lab pour concevoir et tester ses robots en environnements virtuels avant déploiement réel. LG explore également l'intégration du modèle NVIDIA Isaac GR00T pour améliorer les capacités de raisonnement de ses futurs robots domestiques, ainsi que les modèles Cosmos pour générer des données synthétiques d'entraînement. Ce partenariat transforme LG d'un conglomérat industriel traditionnel en un acteur piloté par la donnée et l'IA en temps réel, depuis l'approvisionnement en matières premières jusqu'à la livraison finale. L'enjeu est de connecter l'ensemble des opérations industrielles mondiales du groupe dans un écosystème unique capable de gérer l'entraînement de modèles, la simulation, la validation et le déploiement en périphérie via des jumeaux numériques. Pour les 220 000 employés et les dizaines de sites de production de LG à travers le monde, cela signifie une planification industrielle optimisée par l'IA et une gestion logistique autonomisée. Dans le secteur automobile, LG Electronics aligne également ses systèmes avancés d'aide à la conduite sur les technologies NVIDIA, positionnant le groupe comme fournisseur de référence pour les constructeurs qui intègrent des capacités d'autonomie. Ce rapprochement s'inscrit dans une course mondiale à l'infrastructure IA qui s'est considérablement accélérée depuis 2024, avec les grands conglomérats industriels asiatiques cherchant à ne pas se laisser distancer par les pure players technologiques occidentaux. NVIDIA, dont les puces dominent le marché de l'entraînement de modèles IA, multiplie ces alliances avec des groupes industriels pour diversifier ses débouchés au-delà des laboratoires de recherche et des hyperscalers. Pour LG, l'enjeu est existentiel : un groupe présent dans l'électronique grand public, les appareils ménagers, les écrans, la chimie et les télécommunications doit démontrer qu'il peut intégrer l'IA physique comme avantage compétitif structurel. Les prochaines étapes porteront sur le déploiement effectif des plateformes robotiques autonomes et la mise en service des centres de données nouvelle génération, dont les calendriers précis n'ont pas encore été communiqués.

InfrastructureActu
1 source
Red Hat et NVIDIA dévoilent une nouvelle infrastructure dédiée aux agents IA
68Le Big Data 

Red Hat et NVIDIA dévoilent une nouvelle infrastructure dédiée aux agents IA

Red Hat et NVIDIA ont annoncé le 8 juin 2026, à l'occasion du Red Hat Summit 2026, une série d'évolutions majeures de leur plateforme conjointe Red Hat AI Factory. L'objectif affiché est de permettre aux entreprises de faire passer leurs agents IA autonomes du stade expérimental à la production à grande échelle. Parmi les nouveautés figurent l'intégration d'OpenShell, un projet open source initié par NVIDIA qui fournit un environnement d'exécution isolé pour agents autonomes, ainsi qu'un nouveau modèle MaaS (Model as a Service) gouverné offrant un accès à des modèles comme NVIDIA Nemotron via des interfaces compatibles avec les standards OpenAI. La plateforme embarque également un système de gestion du cycle de vie fondé sur MLflow, qui trace chaque appel aux modèles, les outils sollicités et les étapes de raisonnement des agents. En matière de sécurité, des capacités de calcul confidentiel basées sur NVIDIA Confidential Computing permettent désormais d'exécuter des conteneurs confidentiels au sein de Red Hat OpenShift, disponibles en préversion technologique. Cette annonce s'adresse directement aux entreprises qui butent sur les obstacles concrets à l'adoption industrielle de l'IA agentique : sécurité des données, auditabilité des décisions, conformité réglementaire. Contrairement aux assistants conversationnels classiques, les agents autonomes interagissent avec de multiples systèmes, exécutent des tâches complexes sur la durée et prennent des décisions sans intervention humaine permanente, ce qui exige un cadre de gouvernance nettement plus robuste. La traçabilité offerte par MLflow répond à une demande pressante des directions juridiques et de conformité, qui doivent justifier les actions automatisées de leurs systèmes IA. L'architecture zero-trust et le calcul confidentiel visent quant à eux à protéger les charges de travail sensibles, même dans des environnements cloud hybrides où les données circulent entre infrastructures on-premise et cloud public. Ce partenariat entre Red Hat et NVIDIA s'inscrit dans une compétition croissante entre les grands acteurs du cloud hybride et des semi-conducteurs pour imposer leurs stacks comme infrastructure standard de l'IA d'entreprise. NVIDIA, dont les GPU dominent l'entraînement des modèles, cherche à étendre son influence vers les couches logicielles de déploiement et de gouvernance, tandis que Red Hat apporte son positionnement historique dans les environnements OpenShift et son crédit auprès des DSI des grandes entreprises. La standardisation de la gouvernance des agents via OpenShell est particulièrement stratégique : celui qui contrôle la couche de politique d'exécution des agents contrôle de fait l'ensemble de l'écosystème applicatif qui s'y connecte. Les prochaines étapes passeront par l'intégration native d'OpenShell à l'écosystème Red Hat, avec une disponibilité générale attendue après la préversion actuelle.

UELes entreprises européennes soumises à l'AI Act peuvent s'appuyer sur la traçabilité MLflow et le calcul confidentiel pour répondre aux exigences d'auditabilité et de gouvernance des systèmes d'IA à haut risque.

InfrastructureOpinion
1 source
Comment Apple fait tourner une IA géante dans l’iPhone sans saturer la RAM
69Frandroid 

Comment Apple fait tourner une IA géante dans l’iPhone sans saturer la RAM

Apple a publié lors de la WWDC 2026 un billet de recherche détaillant une technique d'ingénierie inédite pour faire tourner son modèle d'IA le plus puissant directement sur iPhone, sans surcharger la mémoire vive. L'approche consiste à stocker les poids du modèle dans la mémoire flash de l'appareil plutôt qu'en RAM, puis à les charger dynamiquement à la demande, par petits blocs, au moment de l'inférence. Cette méthode, baptisée inférence par déchargement flash, permet de faire fonctionner localement un modèle dont la taille dépasse largement la capacité RAM disponible sur un smartphone. L'enjeu est considérable pour Apple, qui a fait de la confidentialité un argument commercial central. Faire tourner l'IA entièrement on-device signifie que les données de l'utilisateur ne quittent jamais l'appareil, contrairement aux architectures cloud ou hybrides. Pour les centaines de millions d'utilisateurs d'iPhone, cela implique des fonctionnalités IA avancées disponibles hors connexion, sans latence réseau, et sans que les requêtes soient transmises à des serveurs tiers. Cette avancée s'inscrit dans une course technologique où Apple, Google et Qualcomm cherchent chacun à maximiser les capacités d'inférence locale sur puces mobiles. Apple avait déjà franchi un cap avec les puces M et A-series, mais la contrainte mémoire restait le goulot d'étranglement principal pour les grands modèles. En résolvant partiellement ce verrou par le logiciel plutôt que par le seul matériel, Apple ouvre la voie à des modèles encore plus ambitieux embarqués dans les prochaines générations d'iPhone.

UELes utilisateurs français d'iPhone bénéficieront de fonctionnalités IA plus avancées en local, renforçant la confidentialité des données personnelles sans recours au cloud.

InfrastructureOpinion
1 source
Nvidia AI PC : quand la puissance des supercalculateurs s’invite dans votre ordinateur
70Le Big Data 

Nvidia AI PC : quand la puissance des supercalculateurs s’invite dans votre ordinateur

Nvidia accélère l'intégration de l'intelligence artificielle directement dans les ordinateurs personnels avec sa gamme AI PC, des machines construites autour des puces graphiques GeForce RTX et de leurs Tensor Cores, des circuits spécialisés dans les calculs matriciels qui constituent le socle mathématique de tout réseau de neurones. Là où les PC certifiés "Copilot+" du marché affichent des performances comprises entre 40 et 50 TOPS (trillions d'opérations par seconde), suffisantes pour flouter un fond de visioconférence ou traduire du texte, les machines Nvidia visent des centaines de TOPS, voire plusieurs Petaflops, permettant d'exécuter de grands modèles de langage en local, de manière fluide et sans connexion. Cette architecture déporte l'intégralité des charges d'IA sur le GPU, préservant le processeur central pour le reste des tâches et maintenant la réactivité globale du système. L'enjeu dépasse la simple course aux performances : le traitement local supprime les trois principaux obstacles du cloud. La latence liée au transfert des données disparaît, l'IA reste disponible sans connexion internet, et les fichiers sensibles ne quittent jamais la machine, ce qui répond à une préoccupation critique des entreprises confrontées à l'envoi de documents stratégiques vers des serveurs tiers. Pour les professionnels comme pour les créateurs, cela signifie des outils d'IA réactifs, privés par défaut, et utilisables dans n'importe quel contexte, y compris hors ligne. L'ordinateur cesse d'être un terminal dépendant du cloud pour devenir un système autonome capable de raisonner localement. Ce repositionnement de Nvidia intervient dans un contexte de bataille industrielle intense entre les grands concepteurs de puces, Intel, AMD, Qualcomm et Apple ayant chacun intégré des accélérateurs IA dans leurs architectures récentes. Nvidia, historiquement associé au marché du jeu vidéo, capitalise sur sa domination dans le calcul GPU pour s'imposer comme architecte de la prochaine génération d'ordinateurs personnels, redessinant la hiérarchie des constructeurs de composants. La décennie de supériorité du CPU comme unité centrale de traitement s'efface au profit d'architectures hybrides où le GPU devient le moteur principal de l'IA locale. La prochaine étape sera probablement une standardisation de ces capacités à mesure que les modèles ouverts s'optimisent pour fonctionner sur des puces grand public, rendant le traitement local accessible à une fraction du coût actuel.

UELe traitement local de l'IA répond aux exigences RGPD des entreprises européennes en évitant l'envoi de documents stratégiques vers des serveurs tiers américains.

InfrastructureOpinion
1 source
Intel retrouve une seconde vie : Google et Nvidia l'envisagent comme alternative à TSMC pour leurs puces IA
71The Decoder 

Intel retrouve une seconde vie : Google et Nvidia l'envisagent comme alternative à TSMC pour leurs puces IA

Google a passé une commande de plus de trois millions de puces d'intelligence artificielle auprès d'Intel, prévue pour 2028. Parallèlement, Nvidia teste les capacités de fabrication d'Intel pour sa prochaine architecture Feynman. Ces deux mouvements, révélés simultanément, marquent un tournant inattendu pour la division fonderie d'Intel, qui traverse une période difficile depuis plusieurs années. L'enjeu est direct : TSMC, le fabricant taïwanais qui domine la production de puces avancées, ne parvient plus à répondre à la demande explosive en semi-conducteurs pour l'IA. Google et Nvidia, deux des acteurs les plus gourmands en capacité de calcul, cherchent activement à diversifier leurs sources d'approvisionnement pour sécuriser leurs chaînes de production. Pour Intel, ces commandes représentent une bouée de sauvetage concrète et une validation industrielle de sa technologie de fabrication. Intel Foundry Services, la branche externe d'Intel lancée pour concurrencer TSMC et Samsung, peinait à convaincre les grands clients malgré des investissements massifs. La congestion chez TSMC, amplifiée par la ruée vers les GPU et les accélérateurs pour les centres de données IA, crée désormais une fenêtre d'opportunité réelle pour Intel. Si les tests de Nvidia sur l'architecture Feynman aboutissent positivement, Intel pourrait s'imposer comme un second fournisseur stratégique à l'échelle mondiale, réduisant la dépendance de l'industrie envers un seul acteur taïwanais dans un contexte géopolitique tendu.

UELa montée en puissance d'Intel Foundry renforce l'intérêt stratégique des usines Intel en Europe (Magdeburg, Allemagne), soutenues par le Chips Act européen, dans l'objectif de réduire la dépendance continentale au taïwanais TSMC.

Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public
72MarkTechPost 

Xiaomi MiMo et TileRT franchissent les 1000 tokens par seconde avec un modèle d'un billion de paramètres sur GPU grand public

Xiaomi, en collaboration avec le groupe système TileRT, a publié MiMo-V2.5-Pro-UltraSpeed, un mode de serving haute vitesse pour son modèle existant MiMo-V2.5-Pro. Ce modèle, basé sur une architecture Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, franchit pour la première fois la barre des 1 000 tokens par seconde sur cette classe de modèles, avec des pics mesurés à 1 200 tokens/s. Ce qui rend la performance remarquable, c'est le matériel utilisé : non pas des puces custom ou des accélérateurs spécialisés, mais un nœud standard de 8 GPU grand public. Le résultat découle de trois techniques coordonnées que Xiaomi qualifie de "codesign modèle-système extrême" : la quantification FP4 (format MXFP4 appliqué sélectivement aux experts MoE, le reste restant en FP8), le décodage spéculatif DFlash, et le moteur d'exécution TileRT. La qualité des benchmarks reste comparable au modèle original grâce à un entraînement avec conscience de la quantification (QAT). Ces vitesses changent concrètement ce qu'il est possible de faire avec un grand modèle en production. À 1 000 tokens/s, des tâches qui supposaient d'attendre plusieurs secondes entre chaque étape deviennent quasi-instantanées : un agent de code peut enchaîner les cycles génération-exécution-correction sans temps mort perceptible, des stratégies de raisonnement Best-of-N peuvent faire tourner des dizaines de branches en parallèle dans le même temps horloge, et des usages temps réel comme la détection de fraude ou le dialogue interactif deviennent viables sans infrastructure dédiée. Les démos publiées montrent la génération d'un jeu Snake en une dizaine de secondes, illustrant la fluidité atteinte pour des tâches de prototypage rapide. DFlash, la pièce centrale du gain de vitesse, résout un problème structurel du décodage spéculatif classique : le modèle brouillon génère les tokens un par un, créant un goulot d'étranglement séquentiel. DFlash utilise une prédiction parallèle masquée par blocs, permettant au modèle brouillon de remplir un bloc entier de positions en un seul passage. Sur des tâches de code, six à sept tokens sur huit sont acceptés à chaque round de vérification, atteignant parfois 7,14 en moyenne. TileRT complète le tableau côté système : à ces vitesses, chaque opérateur ne dure que quelques microsecondes, et les coûts de lancement d'opérateurs traditionnels fracturent le flux d'exécution. TileRT maintient un noyau persistant sur le GPU avec spécialisation par warp, éliminant ces interruptions. Xiaomi positionne cette combinaison comme une réponse directe à la montée en puissance de la vitesse d'inférence comme métrique concurrentielle, face aux investissements croissants de Meta, Google et OpenAI dans leurs propres accélérateurs propriétaires.

UEImpact indirect : les techniques publiées (quantification MXFP4, décodage spéculatif DFlash, moteur TileRT) pourraient réduire les coûts d'inférence pour les entreprises et labos européens déployant de grands modèles, mais aucune adoption ou régulation directement concernée.

InfrastructureOpinion
1 source
Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles
73AWS ML Blog 

Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles

Amazon Web Services a introduit une fonctionnalité appelée Cross-Region Inference (CRIS) dans Amazon Bedrock, son service d'IA générative managé, permettant aux entreprises européennes de router automatiquement leurs requêtes d'inférence vers plusieurs régions AWS au sein de zones géographiques prédéfinies. Concrètement, lorsqu'une application envoie une requête à un modèle comme Claude d'Anthropic ou un modèle Amazon Nova, CRIS peut la rediriger dynamiquement vers la région disposant de la meilleure capacité disponible, tout en maintenant les données dans un périmètre géographique contrôlé. Pour l'Europe, AWS propose des profils EU CRIS dont toutes les régions de destination sont situées exclusivement au sein de l'Union européenne. Les données transmises restent chiffrées et circulent uniquement sur le réseau privé AWS, sans jamais transiter par l'internet public. Ce mécanisme répond à un problème concret que rencontrent les entreprises européennes : la saturation des capacités de calcul GPU en période de forte demande, qui se traduit par des latences élevées ou des erreurs de disponibilité. En distribuant les requêtes sur plusieurs régions, les applications deviennent plus résilientes aux pics de charge et aux pannes locales. Du point de vue réglementaire, les profils EU CRIS sont conçus pour faciliter la conformité au RGPD, puisque le traitement reste borné à l'UE, un critère déterminant pour les secteurs soumis à des exigences strictes de résidence des données comme la finance, la santé ou les services publics. AWS souligne également que certains modèles sont disponibles à tarif réduit via les profils globaux CRIS, ajoutant un argument économique à l'argument technique. La pression réglementaire européenne sur le traitement des données par des fournisseurs cloud américains s'est intensifiée ces dernières années, notamment après les décisions de la CJUE sur les transferts transatlantiques de données. Les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure ont tous investi massivement dans des infrastructures européennes et des offres de souveraineté pour répondre à ces contraintes. CRIS s'inscrit dans cette logique : plutôt que de forcer les clients à choisir une seule région et à subir ses limitations de capacité, AWS propose une abstraction qui optimise automatiquement tout en respectant les frontières réglementaires. La prochaine étape logique sera l'extension de ces profils géographiques à d'autres zones comme le Moyen-Orient ou l'Asie-Pacifique, et l'intégration de contrôles plus fins permettant aux entreprises de définir elles-mêmes les régions autorisées selon leurs obligations contractuelles ou sectorielles.

UELa fonctionnalité EU CRIS d'AWS Bedrock permet aux entreprises européennes de maintenir leurs traitements d'inférence IA exclusivement dans les frontières de l'UE, facilitant la conformité RGPD pour les secteurs finance, santé et services publics soumis à des exigences strictes de résidence des données.

InfrastructureOpinion
1 source
Amazon Bedrock AgentCore permet d'héberger des agents de codage en toute sécurité
74AWS ML Blog 

Amazon Bedrock AgentCore permet d'héberger des agents de codage en toute sécurité

Amazon a lancé Bedrock AgentCore Runtime, un service cloud conçu pour héberger les agents de codage, Claude Code, Codex, Kiro, Cursor CLI, Gemini CLI ou tout autre outil similaire, sans que le développeur n'ait à garder son ordinateur portable allumé et ouvert. Chaque session obtient un microVM Linux isolé avec un espace de travail persistant, un shell réel et une exécution déterministe des commandes. Le service embarque également trois composantes clés : une couche d'identité qui fait agir l'agent au nom de l'utilisateur qui l'a déclenché, une passerelle MCP (Model Context Protocol) unique donnant accès à GitHub, Jira, Slack et aux services internes avec les vrais tokens stockés hors de portée de l'agent, et une intégration native à Amazon CloudWatch pour tracer chaque action effectuée. Amazon annonce que plusieurs agents concurrents, Claude Code, Codex, Kiro et Cursor, pourront être lancés simultanément sur le même dépôt, chacun dans son propre environnement isolé, et évalués sur la latence, le coût et le taux de réussite des tests. L'enjeu va bien au-delà du confort : héberger un agent de codage sur un laptop expose l'ensemble de l'environnement du développeur. L'agent partage le shell, le système de fichiers, les clés SSH, les credentials AWS stockés dans ~/.aws/credentials, les tokens npm, et le VPN actif. Un fichier README piégé suffit à déclencher une exécution malveillante avec accès complet aux secrets. La parallélisation pose un problème distinct : lancer deux agents via git worktree ne règle que la partie git, les deux processus se battent toujours pour le même localhost:5432, le même port :3000, le même trousseau SSH. Trois agents sur trois branches, c'est trois processus en compétition sur une seule machine. Enfin, fermer le couvercle du laptop tue la session : dépendances à moitié installées, refactoring en cours, suite de tests en attente, tout disparaît. Un chantier de 90 minutes ou une migration nocturne exige que l'écran reste allumé pendant toute la durée. La montée en puissance des agents de codage autonomes a rendu ce problème structurel. Ces outils peuvent désormais tenir des tâches longues, audit de codebase, migrations de schéma, refactoring multi-fichiers, qui dépassent largement la durée d'une session de travail classique. Les équipes qui veulent en tirer parti à l'échelle se heurtent aux limites du modèle "un agent par laptop ouvert". Amazon positionne AgentCore comme la réponse infrastructure à ce changement de régime : un environnement cloud dédié par agent, cloisonné par défaut, observable dès le départ, et déconnecté du cycle de vie de la machine du développeur. Le service s'inscrit dans une compétition plus large entre AWS, Google et Microsoft pour capter les workflows d'IA des équipes engineering, à mesure que les agents de codage passent du statut d'expérimentation à celui d'outil de production.

UELes équipes engineering européennes qui déploient des agents de codage autonomes peuvent désormais héberger leurs workflows sur une infrastructure cloud isolée et observable, sans dépendance au cycle de vie de leur machine locale.

InfrastructureOpinion
1 source
Les développeurs du data center Stargate d'OpenAI font face à des coûts plus élevés
75The Information AI 

Les développeurs du data center Stargate d'OpenAI font face à des coûts plus élevés

À Abilene, au Texas, des ingénieurs de Crusoe, développeur de centres de données pour OpenAI et Oracle, travaillent d'arrache-pied pour faire fonctionner des turbines à gaz naturel en synergie avec l'un des supercalculateurs d'intelligence artificielle les plus coûteux jamais construits. Selon deux sources ayant connaissance directe du dossier, ainsi que des ingénieurs et experts du réseau électrique, l'opération s'avère bien plus complexe et onéreuse que prévu. Ce site fait partie du projet Stargate d'OpenAI, annoncé en janvier 2025 avec SoftBank et Oracle pour un investissement total de 500 milliards de dollars. Ces surcoûts imprévus font peser un risque budgétaire concret sur un programme dont les premières installations se concentrent au Texas. Si l'alimentation énergétique reste un défi non résolu, la montée en puissance des capacités de calcul qu'OpenAI juge indispensables pour entraîner ses prochains modèles pourrait être retardée, avec des conséquences directes pour les partenaires et investisseurs engagés dans ce pari industriel d'envergure inédite. La tension entre la demande électrique massive des centres de données IA et la capacité des infrastructures locales est un problème structurel qui dépasse largement ce seul projet. Le choix du gaz naturel visait à contourner les délais de raccordement au réseau électrique, mais cette stratégie se heurte à des contraintes d'ingénierie sous-estimées. Microsoft, Google, Amazon et Meta affrontent les mêmes obstacles et explorent des alternatives allant des petits réacteurs nucléaires aux accords directs avec des producteurs d'énergie, illustrant l'urgence de la course aux infrastructures IA.

💬 C'était le plan B pour éviter les délais de raccordement réseau, et maintenant le plan B a ses propres problèmes. Pas une surprise pour qui suit l'infra de près : l'énergie n'est pas un détail à régler en cours de route, c'est la contrainte structurelle que tout le monde a sous-estimée depuis le début. Ça va coûter cher, en argent et en mois.

InfrastructureActu
1 source
Il abandonne ses abonnements IA pour un Mac Mini et économise 2 500 $ par an
76Le Big Data 

Il abandonne ses abonnements IA pour un Mac Mini et économise 2 500 $ par an

Un développeur vétéran a publié début juin 2026 le détail de son infrastructure IA personnelle : deux Mac Mini équipés de puces Apple Silicon, acquis pour un total de 1 198 dollars, qui remplacent intégralement un stack d'abonnements cloud lui coûtant 210 dollars par mois. Sur ces machines, il fait tourner l'agent open source Hermes ainsi que plusieurs modèles de langage en local, couvrant ses besoins en programmation, rédaction et analyse. Sa facture d'électricité liée à cette configuration s'élève à deux ou trois dollars mensuels. Le calcul est direct : une fois le matériel amorti, l'économie annuelle atteint environ 2 500 dollars, soit le prix d'un abonnement combinant ChatGPT Pro, Claude Code, Gemini Advanced et GitHub Copilot, des outils devenus des lignes budgétaires standard pour les développeurs actifs. L'impact le plus immédiat concerne les professionnels qui utilisent l'IA de façon intensive et qui accumulent plusieurs abonnements premium en parallèle. Pour eux, le retour sur investissement d'une configuration locale devient concret en moins d'un an. Au-delà du coût, le contrôle des données constitue un avantage distinct : les documents, le code source et les données sensibles ne transitent jamais par des serveurs externes, ce qui répond directement aux exigences de confidentialité dans des contextes professionnels réglementés ou compétitifs. Cette approche représente aussi un signal pour l'industrie : la proposition de valeur du cloud IA repose jusqu'ici sur la commodité et la puissance brute, mais l'Apple Silicon a réduit l'écart de performances au point que le calcul économique bascule pour une catégorie croissante d'utilisateurs. Cette tendance s'inscrit dans un mouvement plus large porté par la démocratisation des modèles open source et par la montée en puissance des puces ARM optimisées pour l'inférence. Apple a délibérément conçu l'Apple Silicon avec une mémoire unifiée à haute bande passante qui avantage précisément les charges de travail LLM, et la communauté open source a suivi avec des outils comme Ollama ou llama.cpp rendant le déploiement local accessible sans infrastructure spécialisée. La limite reste réelle : les modèles locaux disponibles sur deux Mac Mini ne rivalisent pas avec GPT-4o ou Claude Opus sur les tâches les plus complexes, et la mise en place requiert des compétences techniques que l'utilisateur moyen ne possède pas. La plupart des observateurs anticipent donc un modèle hybride : l'inférence locale pour les tâches répétitives et courantes, les API cloud pour les raisonnements lourds ponctuels. Ce que cette configuration démontre surtout, c'est que la dépendance totale aux abonnements cloud n'est plus une fatalité pour les développeurs qui savent ce qu'ils font.

UELes développeurs et entreprises européens soumis au RGPD disposent ici d'un argument concret supplémentaire : une configuration locale garantit que le code source et les données personnelles ne transitent jamais par des serveurs hors UE.

InfrastructureOpinion
1 source
SK hynix et NVIDIA étendent leur partenariat autour des AI Factories
77Le Big Data 

SK hynix et NVIDIA étendent leur partenariat autour des AI Factories

SK hynix et NVIDIA ont annoncé le 7 juin 2026 un partenariat technologique pluriannuel centré sur le codéveloppement de mémoires de nouvelle génération pour les infrastructures d'IA mondiales. L'accord couvre un spectre large : les supercalculateurs d'IA Vera Rubin, les processeurs Vera, les PC RTX Spark et les plateformes robotiques Jetson Thor. Au-delà de la mémoire, les deux groupes prévoient d'appliquer l'intelligence artificielle à la conception et à la fabrication des semi-conducteurs eux-mêmes, en mobilisant les bibliothèques CUDA-X de NVIDIA et le framework PhysicsNeMo pour accélérer les simulations de puces, la lithographie computationnelle et les flux de conception assistée par ordinateur. Ce partenariat répond à une tension structurelle qui pèse sur toute l'industrie : les cycles de conception et de production des mémoires avancées sont longs et coûteux, alors que la demande explose avec l'essor des centres de données spécialisés en IA. Pour NVIDIA, sécuriser un fournisseur mémoire synchronisé avec sa propre feuille de route est devenu aussi stratégique que la conception des GPU eux-mêmes. Pour SK hynix, l'accord représente une montée en gamme décisive : l'entreprise coréenne sort du marché traditionnel des centres de données pour s'imposer sur deux segments que NVIDIA considère comme ses prochains relais de croissance, l'IA personnelle et l'IA physique, c'est-à-dire la robotique. L'utilisation de jumeaux numériques pour simuler les usines de semi-conducteurs pourrait par ailleurs réduire significativement les délais de développement à mesure que la complexité des puces continue de croître. Ce rapprochement s'inscrit dans une recomposition plus large des chaînes d'approvisionnement technologiques, accélérée par la course mondiale aux infrastructures d'IA. Les grands fournisseurs de GPU ne se contentent plus de concevoir des accélérateurs : ils cherchent à verrouiller en amont les composants critiques, dont la mémoire à haute bande passante est aujourd'hui le principal goulot d'étranglement pour l'entraînement et l'inférence des grands modèles. SK hynix, déjà premier fournisseur mondial de mémoire HBM, renforce ainsi une position concurrentielle face à Samsung et Micron. L'intégration de l'IA dans les processus industriels de fabrication de puces ouvre également la voie à une collaboration plus étroite entre fondeurs, concepteurs de GPU et éditeurs de logiciels EDA, un écosystème encore fragmenté dont NVIDIA cherche visiblement à devenir le pivot central.

UELes centres de données européens dépendent des mémoires HBM de SK hynix pour leurs infrastructures IA, ce partenariat renforce la dépendance stratégique de l'UE envers des fournisseurs non-européens de composants critiques.

InfrastructureOpinion
1 source
Microsoft Discovery en disponibilité générale sur Azure, alimentant l'IA à base d'agents de la puce quantique Majorana 2
78InfoQ AI 

Microsoft Discovery en disponibilité générale sur Azure, alimentant l'IA à base d'agents de la puce quantique Majorana 2

Microsoft a annoncé la disponibilité générale de Microsoft Discovery, sa plateforme Azure dédiée au déploiement d'équipes d'agents IA autonomes pour la recherche scientifique. C'est cette même plateforme qui a piloté le développement de Majorana 2, une puce quantique topologique affichant une fiabilité multipliée par 1 000 par rapport aux générations précédentes, avec des durées de vie de qubits atteignant 20 secondes. Microsoft fixe désormais à 2029 l'horizon d'un ordinateur quantique opérationnel à grande échelle, soit deux fois plus tôt que son calendrier initial. L'enjeu est considérable : un ordinateur quantique suffisamment fiable permettrait de résoudre des problèmes inaccessibles aux supercalculateurs classiques, notamment en chimie moléculaire, en cryptographie ou en optimisation logistique. En mettant ses agents IA au service de la conception de hardware quantique, Microsoft franchit une étape symbolique forte : l'IA ne se contente plus d'assister les chercheurs humains, elle orchestre elle-même des cycles d'expérimentation scientifique bout en bout. La course au quantique s'intensifie avec Google, IBM et plusieurs startups comme IonQ ou PsiQuantum comme principaux concurrents. Microsoft mise sur une architecture topologique reposant sur les qubits de Majorana, jugés intrinsèquement plus stables que les qubits supraconducteurs privilégiés par ses rivaux. La combinaison de cette approche matérielle distinctive et d'une plateforme IA agentique directement accessible sur Azure positionne Microsoft comme un acteur à double avantage dans la prochaine phase de la compétition quantique mondiale.

UELa disponibilité sur Azure en Europe donne aux laboratoires et entreprises de recherche de l'UE un accès à cette plateforme d'IA agentique pour la recherche scientifique, sans impact réglementaire ou institutionnel direct pour la France.

InfrastructureActu
1 source
☕️ Google va louer de l’infra IA chez SpaceX pour 920 millions de dollars par mois
79Next INpact 

☕️ Google va louer de l’infra IA chez SpaceX pour 920 millions de dollars par mois

Google a signé le 5 juin un accord avec SpaceX pour louer jusqu'à 110 000 GPU NVIDIA opérés par xAI, l'entreprise d'intelligence artificielle d'Elon Musk. Le contrat, révélé dans un document déposé auprès de la SEC, prévoit un loyer mensuel de 920 millions de dollars sur une période allant d'octobre 2026 à juin 2029, pour un montant total estimé à 30,3 milliards de dollars. Une phase de mise à disposition progressive est prévue dès septembre 2026, et Google dispose d'une clause de sortie sans pénalité entre octobre et décembre 2026 si SpaceX ne peut pas fournir les capacités promises. Cet accord intervient trois jours après que Google a annoncé son intention de lever 80 milliards de dollars pour financer ses propres infrastructures de calcul, tout en révélant un carnet de commandes lié à l'IA de 460 milliards de dollars, dont la moitié doit être réalisée dans les 24 prochains mois. Que le premier fournisseur de cloud mondial soit contraint de louer des ressources informatiques à un concurrent dit quelque chose de la pression extraordinaire qui s'exerce sur les capacités de calcul IA en ce moment. Google justifie l'accord comme "opportun et à court terme" pour répondre à une demande dépassant ses prévisions sur Gemini Enterprise, sa plateforme d'agents d'entreprise. L'ampleur du contrat illustre concrètement ce que signifie une pénurie de GPU à l'échelle industrielle : même les géants du cloud ne peuvent pas toujours livrer dans les délais sans externaliser. Pour les entreprises clientes de Google, c'est une garantie de capacité ; pour l'industrie, c'est le signal que la course aux infrastructures IA crée des dépendances croisées inédites entre concurrents directs. Ce deal s'inscrit dans une relation plus complexe qu'une simple transaction commerciale. Google détenait 6,11 % du capital de SpaceX fin 2025, et conserverait environ 5 % après la fusion de SpaceX avec X et xAI selon Bloomberg, ce qui fait de Mountain View l'un des actionnaires d'Elon Musk. Pour SpaceX, l'accord tombe à un moment stratégique : l'entreprise prépare activement son introduction en bourse à 135 dollars l'action, pour une valorisation d'environ 1 750 milliards de dollars, et ce contrat démontre sa capacité à monétiser ses investissements IA malgré leur coût élevé. SpaceX avait déjà signé un accord similaire avec Anthropic, portant sur les GPU du datacenter Colossus I pour 1,25 milliard de dollars par mois. Si ces deux contrats sont honorés à pleine mesure, la question se pose de savoir quelles ressources de calcul resteront disponibles pour entraîner et faire tourner les propres modèles d'IA de SpaceX.

UELes entreprises européennes clientes de Gemini Enterprise bénéficient indirectement de la garantie de capacité de calcul, mais l'accord ne crée pas d'impact réglementaire ou économique direct sur la France ou l'UE.

💬 Le premier fournisseur de cloud mondial qui loue des GPU chez un concurrent pour tenir ses clients, ça résume mieux que n'importe quel rapport l'état réel de la pénurie. Ce qui me perturbe, c'est qu'Anthropic a signé un deal similaire chez SpaceX au même moment pour 1,25 milliard par mois : tu te demandes bien comment les mêmes machines vont servir deux gros clients en simultané. La clause de sortie sans pénalité en fin 2026 montre que Google n'est pas totalement dupe, ce qui est peut-être la seule vraie bonne nouvelle ici.

Le Royaume-Uni concrétise ses ambitions en IA souveraine avec les technologies NVIDIA
80NVIDIA AI Blog 

Le Royaume-Uni concrétise ses ambitions en IA souveraine avec les technologies NVIDIA

Un an après que Jensen Huang, PDG de NVIDIA, et le Premier ministre britannique Keir Starmer ont pris l'engagement public de faire du Royaume-Uni un « créateur » et non un « consommateur » d'IA lors de la London Tech Week 2025, les premières réalisations concrètes se matérialisent. Le nombre de fournisseurs de cloud prévoyant de déployer des infrastructures IA sur le sol britannique a doublé en douze mois. Nebius va déployer trois nouvelles installations représentant 65 mégawatts à pleine capacité en 2027, CoreWeave s'installe dans les zones de croissance IA du gouvernement, et BT s'est associé à Nscale pour construire des datacenters souverains sur trois de ses sites existants. Au coeur du dispositif se trouve Isambard-AI, le supercalculateur le plus puissant du Royaume-Uni, assemblé autour de 5 400 puces NVIDIA GH200 Grace Hopper et alimenté à 100 % en électricité décarbonée. Le Fonds d'IA souverain du gouvernement s'appuie sur cette infrastructure pour financer des entreprises nationales, dont Ineffable Intelligence, qui développe la prochaine génération d'infrastructure d'apprentissage par renforcement en collaboration directe avec NVIDIA. Quatre startups membres du programme NVIDIA Inception illustrent l'ambition de ce fonds. Cosine développe une plateforme de codage IA souveraine destinée aux secteurs hautement réglementés, services financiers, infrastructures critiques, sécurité nationale, et entraîne via Isambard un grand modèle multimodal de type mixture-of-experts capable de traiter des types de données au-delà du texte et de l'image. Cursive construit des systèmes d'IA auto-apprenants à fenêtres de contexte étendues, capables de fonctionner de façon autonome sur de longues durées, en adoptant le framework NVIDIA Megatron-LM pour l'entraînement distribué. Doubleword, premier laboratoire britannique dédié à l'inférence, optimise l'ensemble de la pile logicielle pour maximiser le rapport qualité-coût : ses premiers résultats sur Isambard montrent des démarrages de modèles 70 fois plus rapides et une compression du cache KV quatre fois supérieure sans perte de qualité. Ce déploiement s'inscrit dans une tendance mondiale où les États cherchent à ne pas dépendre exclusivement d'infrastructures IA contrôlées par des acteurs américains. Pour le Royaume-Uni, la souveraineté numérique est devenue un argument commercial à part entière : les entreprises européennes et britanniques peuvent désormais proposer à leurs clients des garanties de localisation des données et de contrôle national que les géants américains ne peuvent offrir. La montée en puissance de l'écosystème NVIDIA au Royaume-Uni, avec sept autres partenaires cloud en attente de déploiement, signale que Londres entend rivaliser avec Paris, qui a fait d'annonces similaires autour de son propre plan IA. La question qui se pose désormais est de savoir si ces infrastructures souveraines produiront des modèles et des usages capables de concurrencer les grands acteurs américains et chinois, ou si elles resteront cantonnées à des niches réglementaires.

UELe déploiement souverain britannique crée une pression concurrentielle directe sur le plan IA français et offre aux entreprises européennes des garanties de localisation des données que les géants américains ne peuvent proposer.

InfrastructureActu
1 source
Anthropic débauche le deuxième ingénieur en puces d'OpenAI alors que les deux sociétés visent la bourse
81The Decoder 

Anthropic débauche le deuxième ingénieur en puces d'OpenAI alors que les deux sociétés visent la bourse

Anthropic a recruté Clive Chan, qu'il décrit lui-même comme le deuxième ingénieur hardware à avoir rejoint le programme de puces personnalisées d'OpenAI. Chan apporte avec lui une expérience rare : il a travaillé sur l'ASIC Autopilot de Tesla avant de contribuer au partenariat stratégique entre OpenAI et Broadcom, le géant des semi-conducteurs, pour développer des puces d'inférence sur mesure. Le recrutement intervient alors que les deux entreprises se préparent activement à entrer en bourse. Ce débauchage ciblé signale qu'Anthropic envisage sérieusement de concevoir ses propres puces d'intelligence artificielle, une étape que la société n'a pas encore franchie publiquement. Pour une startup valorisée à plusieurs dizaines de milliards de dollars, disposer d'une infrastructure silicium propriétaire représente un levier majeur de réduction des coûts et d'indépendance vis-à-vis de Nvidia, dont les GPU H100 et H200 dominent encore massivement le marché de l'entraînement et de l'inférence. Attirer un ingénieur ayant déjà traversé ce processus chez un concurrent direct accélère considérablement la courbe d'apprentissage. La course aux puces maison s'est intensifiée dans tout le secteur : Google dispose de ses TPU, Amazon de ses Trainium et Inferentia, Meta de ses MTIA. OpenAI avait annoncé début 2024 son intention de développer ses propres accélérateurs en collaboration avec Broadcom, avant de signer un accord massif avec SoftBank pour sécuriser des capacités de calcul. Le départ de l'un de ses pionniers hardware vers Anthropic, à quelques mois d'une potentielle introduction en bourse pour les deux acteurs, illustre la bataille de talents qui se joue en coulisses autant que la compétition technologique.

UELa course aux puces IA propriétaires entre géants américains renforce la dépendance technologique européenne vis-à-vis des fournisseurs US, sans impact direct immédiat sur la France ou l'UE.

💬 Le recrutement du deuxième ingénieur puces d'OpenAI, c'est pas anodin. Quand tu cibles quelqu'un qui a déjà fait le chemin chez un concurrent direct, tu brûles les étapes, et Anthropic le sait. Reste à voir si l'IPO va accélérer les investissements silicium ou si c'est encore du positionnement pour les roadshows.

InfrastructureOpinion
1 source
SpaceX signe avec Google un accord à 920 millions de dollars par mois pour 110 000 puces Nvidia avant son IPO
82The Decoder 

SpaceX signe avec Google un accord à 920 millions de dollars par mois pour 110 000 puces Nvidia avant son IPO

SpaceX et Google ont conclu un accord de location de capacité de calcul IA d'une valeur de 920 millions de dollars par mois, selon un document déposé auprès de la SEC américaine. Cette révélation intervient dans le cadre des préparatifs d'introduction en bourse de SpaceX. Concrètement, l'accord donne à Google accès à environ 110 000 puces Nvidia, que SpaceX exploite pour louer de la puissance de calcul à des tiers. Ces ressources sont destinées à répondre à la demande croissante pour Gemini Enterprise, la plateforme IA professionnelle de Google. Que l'un des plus grands fournisseurs de services cloud au monde soit contraint de louer de la capacité à l'extérieur témoigne de la profonde pénurie d'infrastructure IA qui s'est installée dans le secteur. Google, pourtant propriétaire de ses propres centres de données et de ses puces TPU maison, ne parvient pas à absorber seul la demande explosive pour ses services d'intelligence artificielle. Cette situation illustre aussi combien les grandes entreprises technologiques sont désormais interdépendantes, leurs chaînes d'approvisionnement et leurs activités s'imbriquant de façon inédite. SpaceX, connu pour ses fusées et son réseau satellitaire Starlink, s'impose ainsi comme un acteur inattendu de l'infrastructure numérique. La divulgation de cet accord via un document SEC confirme que la société d'Elon Musk avance vers une entrée en bourse, un événement très attendu dans la Silicon Valley. Dans un marché où les puces Nvidia H100 et H200 restent rarissimes, posséder un parc de 110 000 unités constitue un avantage stratégique considérable que SpaceX monétise directement auprès des géants du cloud.

UELa pénurie mondiale d'infrastructure de calcul IA illustrée par cet accord accentue les difficultés d'accès aux ressources GPU pour les entreprises et startups européennes.

💬 920 millions par mois, c'est le genre de chiffre qui remet les pendules à l'heure. Google a ses propres data centers, ses puces TPU maison, et ça suffit quand même pas pour absorber la demande Gemini. Que SpaceX bouche le trou, soit, mais le vrai signal c'est que même les mieux équipés du cloud sont structurellement à court.

InfrastructureActu
1 source
Les équipes platform chez LinkedIn déploient MCP et outils multi-agents à grande échelle
83InfoQ AI 

Les équipes platform chez LinkedIn déploient MCP et outils multi-agents à grande échelle

Karthik Ramgopal et Prince Valluri, ingénieurs chez LinkedIn, ont présenté leur approche pour déployer l'intelligence artificielle à grande échelle au sein d'une organisation de plusieurs milliers de développeurs. Plutôt que de laisser chaque équipe construire ses propres solutions en silo, ils ont mis en place une couche d'abstraction commune reposant sur le protocole MCP (Model Context Protocol) pour orchestrer des agents, structurer le contexte et sécuriser l'accès aux outils internes. Cette architecture a permis de déployer concrètement trois types d'agents en production : des agents de génération de code, des agents d'observation système et des agents de test d'interface utilisateur. L'enjeu est considérable pour les grandes entreprises technologiques : sans infrastructure partagée, chaque équipe réinvente la roue et les agents IA restent des expérimentations isolées sans impact à l'échelle. En centralisant l'orchestration et la gestion du contexte via une plateforme commune, LinkedIn parvient à transformer l'IA en véritable moteur d'exécution engineering, capable d'automatiser des tâches complexes comme les tests UI ou la surveillance de systèmes distribués, avec des garanties de sécurité homogènes. Cette initiative s'inscrit dans une tendance de fond : les grandes entreprises tech passent du stade des prototypes d'agents IA à celui des déploiements industriels, ce qui exige des équipes plateformes dédiées. Le protocole MCP, porté initialement par Anthropic et rapidement adopté par l'industrie, s'impose comme standard d'interopérabilité entre agents et outils. LinkedIn, filiale de Microsoft, bénéficie par ailleurs d'un accès privilégié aux modèles GPT-4o via Azure, ce qui accélère ces expérimentations à une échelle que peu d'entreprises peuvent atteindre.

UELes équipes d'ingénierie européennes peuvent s'inspirer de cette architecture MCP pour structurer leurs propres déploiements d'agents IA à l'échelle, le protocole MCP s'imposant comme standard industriel d'interopérabilité.

💬 MCP en prod chez LinkedIn sur des milliers de devs, c'est le signal qu'on attendait pour que le protocole bascule vraiment en standard industriel. Ce qui est intéressant là-dedans, c'est pas la tech en elle-même (Anthropic a bien bossé le design), c'est l'architecture plateforme : une couche commune au lieu que chaque équipe réinvente ses propres outils d'orchestration dans son coin. Reste à voir ce que ça donne pour les boîtes qui n'ont pas Azure et GPT-4o derrière.

InfrastructureOpinion
1 source
NVIDIA lance Dynamo Snapshot : démarrage rapide pour l'inférence IA sur Kubernetes via CRIU
84MarkTechPost 

NVIDIA lance Dynamo Snapshot : démarrage rapide pour l'inférence IA sur Kubernetes via CRIU

L'équipe de recherche en IA de NVIDIA a publié Dynamo Snapshot, un système de démarrage rapide pour les charges de travail d'inférence sur Kubernetes, reposant sur une approche de type checkpoint/restore. Le dispositif combine deux outils : CRIU (Checkpoint/Restore in Userspace), qui sérialise l'état CPU d'un processus Linux vers le disque, et cuda-checkpoint, qui capture l'état GPU (contextes CUDA, mémoire device, mappings d'adresses virtuelles) vers la RAM avant que CRIU ne prenne le relais. Le résultat est une image complète de l'état d'un serveur d'inférence en cours d'exécution, stockée sur un système de fichiers partagé (NFS ou SMB), et restaurable sur n'importe quel nœud du cluster. Côté Kubernetes, NVIDIA fournit un DaemonSet privilégié appelé snapshot-agent, déployable via Helm chart, qui gère les opérations de checkpoint et de restauration pour les conteneurs runc sans modification du runtime lui-même. Le problème que résout Dynamo Snapshot est concret et coûteux : le démarrage à froid d'un serveur d'inférence vLLM (version 0.20.0) sur un seul GPU se décompose en trois phases, téléchargement de l'image conteneur, initialisation du moteur (chargement des poids, warmup des kernels CUDA, compilation des graphes), et démarrage du runtime distribué, ce qui peut représenter plusieurs minutes pendant lesquelles les GPU sont alloués mais inactifs, sans générer le moindre token. Dans un environnement de production soumis à des pics de trafic imprévisibles, cette latence de démarrage expose directement les opérateurs à des violations de SLA : le système ne peut pas scaler assez vite pour absorber une hausse soudaine de la demande. Avec Dynamo Snapshot, le processus restauré reprend exactement à l'instruction où il a été figé, sans avoir conscience qu'une interruption s'est produite, réduisant le temps effectif de mise en service à une fraction du démarrage à froid classique. Cette publication s'inscrit dans une course plus large à l'efficacité opérationnelle des infrastructures LLM en production. Kubernetes est devenu le standard de facto pour orchestrer les déploiements d'inférence à grande échelle, mais ses primitives natives de scaling (HPA, KEDA) se heurtent au goulot d'étranglement structurel du cold start GPU. NVIDIA a choisi une approche DaemonSet plutôt que de s'appuyer sur le support natif checkpoint/restore de Kubernetes pour trois raisons : portabilité totale sans dépendance aux feature gates des cloud providers, contrôle fin sur l'état CUDA que les mécanismes standard n'exposent pas, et compatibilité immédiate avec les clusters existants. Le projet Dynamo, dont Snapshot est un composant, représente l'investissement de NVIDIA dans la couche logicielle d'inférence distribuée, un enjeu stratégique alors que la concurrence entre fournisseurs de frameworks (vLLM, TensorRT-LLM, SGLang) s'intensifie autour de la performance au token près.

💬 Le cold start GPU, c'est le boulet silencieux de tout déploiement LLM en prod. NVIDIA règle ça proprement avec du CRIU adapté au contexte CUDA, sans toucher au runtime Kubernetes (et ça, c'est malin, parce que les feature gates cloud c'est le chaos). Reste à voir si ça tient quand tu restaures sur un nœud avec un contexte GPU légèrement différent.

InfrastructureOpinion
1 source
NVIDIA et la Corée du Sud s'associent pour construire l'avenir de l'IA
85NVIDIA AI Blog 

NVIDIA et la Corée du Sud s'associent pour construire l'avenir de l'IA

Jensen Huang, fondateur et PDG de Nvidia, a atterri à Séoul vendredi 4 juin, accueilli par des fans et des journalistes dès sa descente d'avion. Ce déplacement fait suite à la conférence GTC Taipei organisée lors du COMPUTEX, et s'inscrit dans une tournée asiatique chargée. Huang a tenu à préciser l'enjeu central de sa visite : aligner la chaîne d'approvisionnement en IA avant une deuxième partie d'année qui s'annonce intense. Il a confirmé que Grace Blackwell, la plateforme phare de Nvidia, affiche de solides performances commerciales, et que Vera Rubin, la génération suivante, est désormais en pleine production industrielle. "Le premier semestre a déjà été très réussi, et nous allons être très occupés au second semestre", a-t-il déclaré à la presse. La Corée du Sud n'est pas un simple arrêt diplomatique dans l'agenda de Huang : c'est l'un des maillons stratégiques de l'écosystème mondial de l'IA. Le pays abrite des acteurs critiques de la fabrication de mémoires, une communauté gaming parmi les plus actives au monde, et un tissu industriel en robotique en pleine montée en puissance. Huang a explicitement identifié la robotique et l'IA physique comme "le prochain grand secteur" pour la Corée, appelant à des investissements ciblés dans ce domaine. Ce positionnement n'est pas anodin : la robotique incarnée, qui nécessite des puces, des capteurs et des modèles d'inférence rapide, est précisément le terrain où Nvidia cherche à imposer ses architectures comme standard de fait. La visite de Huang à Séoul s'inscrit dans une dynamique plus large de consolidation des alliances industrielles face à la pression géopolitique sur les semi-conducteurs. Alors que les restrictions américaines sur les exportations de puces vers certains marchés asiatiques compliquent le paysage, la Corée du Sud reste un partenaire de premier plan, à la fois client et fournisseur clé via Samsung et SK Hynix. Le programme de la visite inclut des rencontres avec des partenaires locaux dans la mémoire, la robotique et le gaming, avant que Huang ne passe à la table pour du poulet frit et du barbecue coréen, qu'il a jugés, sobrement, "délicieux".

UELes entreprises européennes dépendantes des puces NVIDIA et de la mémoire coréenne (Samsung, SK Hynix) pourraient bénéficier indirectement d'une chaîne d'approvisionnement renforcée, mais l'impact direct sur la France ou l'UE reste limité.

InfrastructureOpinion
1 source
Comment xAI Colossus redéfinit les règles de la course à l’IA
86Le Big Data 

Comment xAI Colossus redéfinit les règles de la course à l’IA

En mars 2023, Elon Musk fonde xAI pour affronter directement OpenAI, Google et Meta dans la course aux grands modèles de langage. Le premier modèle, Grok, sort fin 2023 avec des résultats prometteurs, mais l'entreprise se heurte rapidement à un obstacle structurel majeur : elle ne possède aucune infrastructure propre et loue sa puissance de calcul auprès de fournisseurs cloud comme Oracle. Pour briser cette dépendance, Musk lance dès le printemps 2024 un chantier d'une rapidité inédite. xAI rachète une ancienne usine Electrolux de 73 000 mètres carrés à Memphis, Tennessee, et y déploie le supercalculateur Colossus. Début 2026, le site concentre environ 555 000 processeurs NVIDIA interconnectés, principalement des H100 et H200 dans le premier bloc (Colossus 1), et la nouvelle architecture Blackwell GB200/GB300 dans le second (Colossus 2), auxquels s'ajoute une extension satellitaire en cours à Southaven. À près de 35 000 dollars l'unité, le seul achat des composants dépasse les 18 milliards de dollars. Cette infrastructure redéfinit les rapports de force dans l'industrie de l'IA. En contrôlant son propre parc de calcul, xAI s'affranchit des délais et des contraintes imposés par les fournisseurs tiers, ce qui lui permet d'accélérer l'entraînement de ses modèles au rythme qu'elle impose. La densité thermique extrême générée par 555 000 puces a nécessité l'abandon du refroidissement par air au profit d'un système à eau intégral en circuit fermé, fourni par Dell et Supermicro, qui capte la chaleur directement sur le silicium et réduit significativement les coûts d'électricité liés à la climatisation. Sur le plan réseau, xAI a fait le choix de rejeter l'InfiniBand, standard dominant mais coûteux et en rupture mondiale, pour déployer la plateforme NVIDIA Spectrum-X Ethernet, avec routage adaptatif et protocole RoCE, afin d'éliminer la latence de queue qui paralyse les clusters lors des échanges massifs de paramètres entre processeurs. Ce projet s'inscrit dans une rivalité technologique et géopolitique qui dépasse largement xAI. La puissance de calcul est devenue la ressource stratégique centrale de l'IA : qui contrôle les clusters contrôle le rythme d'innovation. Microsoft, Google et Amazon ont chacun engagé des dizaines de milliards dans leurs propres datacenters, tandis que la pénurie mondiale de puces NVIDIA maintient une pression constante sur les acteurs moins capitalisés. En construisant Colossus en moins d'un an, là où l'industrie estimait le délai à deux ans minimum, xAI a envoyé un signal clair sur sa capacité d'exécution. La prochaine étape sera de transformer cette puissance brute en avance technologique durable face à des concurrents qui ne restent pas immobiles.

UELa concentration de capacité de calcul chez les acteurs américains creuse l'écart avec les laboratoires et startups européens, renforçant leur dépendance aux infrastructures cloud extérieures à l'UE.

InfrastructureOpinion
1 source
Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock
87AWS ML Blog 

Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock

Amazon Web Services a dévoilé Amazon Bedrock Ops Alert, une solution de supervision automatisée en trois couches conçue pour les organisations qui déploient des applications d'IA générative à grande échelle. Utilisé par plus de 100 000 organisations dans le monde, d'entreprises naissantes aux multinationales, Amazon Bedrock fournit l'infrastructure sur laquelle reposent des centaines de workloads de production. La nouvelle solution surveille en continu les quotas de requêtes par minute (RPM) et de tokens par minute (TPM) alloués à chaque client, détecte les anomalies opérationnelles avant qu'elles n'impactent la production, ajuste dynamiquement les seuils d'alarme, et ouvre automatiquement des tickets de support AWS enrichis en contexte. Elle intègre également un mécanisme anti-doublons qui bloque la création d'un nouveau ticket si un cas non résolu de même nature est déjà ouvert, évitant ainsi de diluer l'attention des équipes d'ingénierie. Pour les équipes SRE spécialisées en IA, l'enjeu est considérable : gérer manuellement les quotas et escalades de support à mesure que l'adoption interne s'accélère est un travail chronophage qui détourne les ingénieurs de l'innovation. Bedrock Ops Alert réduit ce surcoût opérationnel en automatisant le triage, en fournissant des notifications contextualisées directement exploitables, et en raccourcissant le temps moyen de résolution des incidents. La solution permet aussi d'anticiper les besoins d'augmentation de quotas avant que les limitations ne se matérialisent en erreurs pour les utilisateurs finaux, un gain critique dans des environnements où plusieurs modèles de fondation tournent simultanément en production. Cette annonce s'inscrit dans une tendance plus large chez AWS : réduire la friction liée à l'échelle des workloads d'IA générative sans exiger systématiquement une augmentation de quotas. Amazon Bedrock propose déjà l'inférence inter-régions géographique et, plus récemment, l'inférence inter-régions mondiale (global cross-region inference), qui route automatiquement les requêtes vers les régions AWS commerciales les mieux disponibles dans le monde entier, offrant un accès à un pool de ressources nettement plus large et une réduction de coût d'environ 10 % par rapport à l'inférence géographique classique. Le prompt caching, autre fonctionnalité optionnelle, permet quant à lui de réduire la latence et les coûts en token en évitant de recalculer des portions de contexte identiques. Ensemble, ces mécanismes forment une réponse structurée d'AWS à la pression croissante que font peser des milliers d'organisations sur une infrastructure d'IA devenue critique pour leurs opérations quotidiennes.

UELes organisations françaises et européennes utilisant Amazon Bedrock pour leurs workloads d'IA en production peuvent réduire la charge opérationnelle de leurs équipes SRE grâce à cette solution d'automatisation du monitoring et de la gestion des quotas.

InfrastructureActu
1 source
La puce quantique Majorana 2 de Microsoft illustre le rôle des agents IA dans la R&D
88AI News 

La puce quantique Majorana 2 de Microsoft illustre le rôle des agents IA dans la R&D

Microsoft a dévoilé cette semaine le processeur quantique Majorana 2, accompagné de chiffres qui redéfinissent les standards du secteur : des qubits mille fois plus fiables que ceux de la première génération, une durée de vie moyenne de 20 secondes contre quelques microsecondes pour les puces concurrentes, et un objectif de calculateur quantique commercialement utilisable d'ici 2029. Le changement clé à l'origine de ce bond : le remplacement du matériau supraconducteur, passant de l'aluminium au plomb, une décision issue d'années de recherche conventionnelle en science des matériaux. En parallèle, Microsoft a annoncé la disponibilité générale de Microsoft Discovery, sa plateforme d'IA agentique dédiée à la R&D scientifique, dont le développement de Majorana 2 constitue la première démonstration publique d'efficacité. Ce qui rend cette annonce structurellement importante, ce n'est pas que l'IA ait conçu la puce, mais ce qu'elle a rendu possible autour de la recherche humaine. Microsoft Discovery n'a pas choisi le plomb comme matériau, mais ses agents ont pris en charge la gestion des flux de fabrication, l'automatisation de mesures qui prenaient auparavant plusieurs semaines chacune, et surtout la synthèse de près de vingt ans de données de recherche cloisonnées. Zulfi Alam, vice-président corporate de Microsoft pour le quantum, résume : "Les agents IA peuvent recréer des corrélations que nous, en tant qu'humains, ne pouvons pas voir, parce qu'aucun individu n'a cette vision sur autant de données." Concrètement, la détection des états quantiques sur des fils semi-conducteurs, un processus manuel qui s'étalait sur des semaines, est désormais automatisée en continu par un agent spécialisé capable d'ajuster simultanément des centaines de paramètres de tension, là où un chercheur raisonne nécessairement de façon linéaire. La course à l'informatique quantique fiable oppose depuis des années Microsoft, Google, IBM et quelques startups comme IonQ ou PsiQuantum, chacun misant sur des architectures radicalement différentes. Microsoft a longtemps été en retrait sur les résultats concrets, pariant sur les qubits topologiques basés sur les fermions de Majorana, une approche théoriquement plus robuste mais expérimentalement très difficile à réaliser. Majorana 2 marque un tournant crédible dans cette stratégie. Mais l'enjeu dépasse le quantum : avec la mise en disponibilité générale de Microsoft Discovery pour les entreprises, incluant des agents spécialisés, un moteur de raisonnement et une gouvernance de niveau entreprise, Microsoft positionne l'IA agentique comme infrastructure centrale de la R&D industrielle. Si la preuve par la puce quantique tient ses promesses, d'autres secteurs, pharmaceutique, matériaux, énergie, pourraient rapidement adopter ce modèle où l'IA compresse les cycles expérimentaux et libère les chercheurs des tâches de mesure et de synthèse de données.

UELes entreprises européennes des secteurs pharmaceutique, des matériaux et de l'énergie peuvent désormais accéder à Microsoft Discovery en disponibilité générale pour accélérer leurs cycles de R&D.

💬 Ce qui m'intéresse dans cette annonce, c'est pas la puce, c'est ce que Discovery a rendu possible autour : 20 ans de données de recherche cloisonnées synthétisées, des mesures qui prenaient des semaines automatisées en continu par des agents. L'IA n'a pas choisi le plomb comme matériau, c'est des années de science des matériaux classique qui ont mené là. Reste à voir si ça tient hors labo, mais le pharma et l'énergie ont de bonnes raisons de regarder ça de très près.

InfrastructureOpinion
1 source
Microsoft lance Project Solara, un OS Android conçu pour les agents plutôt que les applications
89Ars Technica AI 

Microsoft lance Project Solara, un OS Android conçu pour les agents plutôt que les applications

Microsoft a présenté Project Solara lors de sa conférence Build 2026, un système d'exploitation basé sur Android conçu non pas pour faire tourner des applications, mais des agents autonomes. Contrairement aux OS mobiles traditionnels, Solara est pensé comme une plateforme "chip-to-cloud", c'est-à-dire intégrée depuis le matériel jusqu'au cloud, capable de s'adapter à une multitude de dispositifs spécialisés. Pour l'instant, le projet reste limité à quelques prototypes conceptuels et ne sera pas disponible sur les appareils grand public dans l'immédiat. L'ambition déclarée de Microsoft est que Solara génère des interfaces à la volée, en fonction des besoins de l'agent qui s'y exécute, plutôt que de s'appuyer sur des interfaces figées comme le font les applications classiques. L'enjeu est considérable pour l'industrie technologique : si les agents IA deviennent les unités fondamentales d'interaction avec les machines, le modèle de distribution logicielle hérité des smartphones sera remis en cause. Les développeurs d'applications, les stores numériques, et les fabricants de puces devront tous s'adapter à un paradigme où l'interface n'est plus construite à l'avance mais calculée en temps réel. Pour les utilisateurs, cela signifierait des appareils potentiellement plus polyvalents, capables de se transformer selon la tâche, mais aussi une dépendance accrue aux modèles de langage sous-jacents et aux infrastructures cloud de Microsoft. Microsoft reconnaît elle-même que son discours reste largement spéculatif et que les modèles suffisamment puissants pour alimenter cette vision n'existent pas encore. La démarche s'inscrit dans la continuité de son partenariat avec OpenAI, aujourd'hui en cours de restructuration, et dans une tentative de ne pas répéter ses erreurs passées dans la transition mobile, où l'entreprise avait pris du retard sur les applications, la sécurité et le support long terme. En positionnant Solara dès maintenant, Microsoft cherche à occuper le terrain avant que la prochaine rupture technologique ne se concrétise.

UESi le paradigme agent-first se concrétise, les développeurs d'applications et fabricants d'appareils européens devront revoir leurs modèles économiques face à une dépendance accrue à l'écosystème Microsoft.

InfrastructureOpinion
1 source
NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud
90NVIDIA AI Blog 

NVIDIA et Microsoft s'associent pour un environnement unifié de déploiement d'agents IA, des appareils Windows au cloud

NVIDIA et Microsoft ont dévoilé lors de Microsoft Build un partenariat élargi pour déployer une pile technologique unifiée dédiée à l'IA agentique, couvrant les PC Windows, le cloud Azure et les environnements locaux. Jensen Huang, fondateur et PDG de NVIDIA, est intervenu en direct depuis Taipei aux côtés de Satya Nadella pour présenter les nouvelles initiatives. Au programme : les PC RTX Spark et les stations DGX Station for Windows, l'accélération GPU de Microsoft Fabric, les modèles ouverts NVIDIA sur Microsoft Foundry, et le runtime sécurisé NVIDIA OpenShell intégré à GitHub Copilot. RTX Spark cible les laptops et petits ordinateurs de bureau avec 1 pétaflop de performance IA, jusqu'à 128 Go de mémoire unifiée et une autonomie toute la journée, avec des systèmes attendus cet automne chez Microsoft Surface, ASUS, Dell, HP, Lenovo et MSI. La DGX Station for Windows, propulsée par le superchip NVIDIA GB300 Grace Blackwell Ultra, offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops en FP4, capable de faire tourner des modèles jusqu'à 1 billion de paramètres, avec des livraisons prévues au quatrième trimestre 2026 chez ASUS, Dell, GIGABYTE, HP, MSI et Supermicro. Ce partenariat marque un tournant dans la course à l'IA agentique d'entreprise en proposant, pour la première fois, une chaîne complète allant du matériel personnel à l'infrastructure cloud. Pour les développeurs et les entreprises, cela signifie pouvoir construire, affiner et déployer des agents IA directement sur Windows sans dépendre exclusivement du cloud. Les modèles Claude d'Anthropic tournent désormais nativement sur les systèmes Blackwell Ultra dans Azure, avec une disponibilité annoncée dans les prochaines semaines. Sur Microsoft Foundry, le nouveau NVIDIA Nemotron 3 Ultra, conçu pour le raisonnement de longue durée dans des tâches de codage, de recherche et de workflows d'entreprise, est disponible dès ce mois-ci, accompagné de Nemotron 3.5 ASR pour la reconnaissance vocale et Nemotron 3.5 Content Safety pour la modération de contenu. Ce rapprochement intervient alors que l'ensemble de l'industrie cherche à concrétiser la promesse des agents IA autonomes capables d'exécuter des tâches complexes sur la durée. NVIDIA, dont les GPU sont devenus incontournables dans les data centers, étend son influence jusqu'au bureau et au PC personnel, concurrençant indirectement Apple Silicon et AMD sur le terrain de l'inférence locale. Le runtime OpenShell, sécurisé nativement, répond aux exigences de gouvernance des grandes entreprises qui hésitent encore à confier des tâches autonomes à des agents. L'intégration des bibliothèques CUDA-X comme cuDF, cuOpt et NeMo directement accessibles aux agents ouvre la voie à des workflows scientifiques plus complexes, notamment avec le modèle Cosmos 3 pour la simulation du monde physique et les modèles météo Earth-2 disponibles via Microsoft Planetary Computer Pro.

UELes entreprises européennes utilisant Azure et Windows bénéficieront d'une chaîne de déploiement IA unifiée du PC personnel au cloud, réduisant la dépendance exclusive à l'infrastructure cloud pour les workflows agentiques.

💬 Jensen Huang qui s'invite en hologramme depuis Taipei pendant le keynote de Satya, c'est le genre de mise en scène qui cache souvent un partenariat creux. Là, non : la DGX Station sous Windows avec 748 Go de mémoire cohérente et 20 pétaflops, c'est du concret pour les boîtes qui refusent de tout mettre dans Azure. Reste à voir si les prix seront accessibles à autre chose qu'aux grands comptes, mais l'idée d'une chaîne complète du laptop au datacenter sans changer de stack, ça change vraiment quelque chose pour les équipes qui font tourner des agents en prod.

InfrastructureActu
1 source
Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud
91VentureBeat AI 

Microsoft lance le Surface RTX Spark Dev Box pour faire tourner de grands modèles IA sans recourir au cloud

Microsoft a dévoilé lundi le Surface RTX Spark Dev Box lors de la conférence Build 2026, un ordinateur de bureau compact destiné aux développeurs de logiciels qui souhaitent faire tourner de grands modèles d'intelligence artificielle en local, sans passer par le cloud. La machine embarque le nouveau processeur RTX Spark d'Nvidia, basé sur l'architecture Blackwell, et dispose de 128 gigaoctets de mémoire unifiée partagée dynamiquement entre le CPU et le GPU. Cette configuration permet d'atteindre un pétaflop de puissance de calcul IA, ce qui autorise l'exécution de modèles dépassant 120 milliards de paramètres sans envoyer la moindre requête vers un serveur distant. Pavan Davuluri, vice-président exécutif de Windows et Devices chez Microsoft, a précisé que la mémoire joue un rôle critique : à 100 000 tokens de contexte, le cache clé-valeur d'un grand modèle peut à lui seul consommer entre 40 et 50 gigaoctets, ce qui explique le choix de ce pool mémoire de 128 Go. L'appareil sera commercialisé exclusivement sur Microsoft.com aux États-Unis d'ici la fin de l'année, sans prix annoncé à ce stade. L'enjeu est directement économique. Les entreprises de toutes tailles font face à des factures cloud GPU qui s'accumulent de façon imprévisible : chaque appel d'inférence, chaque cycle de fine-tuning, chaque workflow agentique qui itère sur un modèle frontier génère des coûts qui s'emballent pour un développeur testant son prototype des dizaines de fois par jour. Andrew Hill, vice-président de Surface, a résumé la promesse dans le billet d'annonce : le Dev Box "change l'équation" en permettant aux équipes de "réserver les appels aux modèles frontier aux vrais problèmes frontier, et de traiter le reste sur leur propre matériel." La proposition n'est pas que le cloud soit dépassé, mais qu'une large partie des tâches actuellement envoyées à des datacenters distants ne justifie pas des modèles de pointe et serait mieux servie par du matériel local à coût fixe et prévisible. Ce lancement marque un tournant stratégique notable pour Microsoft, dont Azure génère plusieurs dizaines de milliards de dollars de revenus annuels. En commercialisant explicitement un appareil qui réduit la dépendance au cloud de ses propres clients, l'entreprise reconnaît une tension structurelle qui monte dans l'industrie depuis l'explosion des coûts d'inférence. Le pari de Redmond est que les développeurs qui prototypent en local déploieront ensuite sur Azure lorsqu'ils auront besoin de passer à l'échelle, et que contrôler les deux extrémités de ce cycle de développement est plus rentable que de n'en posséder qu'une. L'architecture RTX Spark, qui fusionne CPU ARM et GPU Blackwell en un seul chip avec mémoire unifiée, remplace quatre composants distincts d'un PC classique et ouvre la voie à une nouvelle génération de postes de travail IA autonomes.

InfrastructureOpinion
1 source
Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP
92AWS ML Blog 

Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP

Amazon a annoncé cette semaine une extension significative des capacités d'AgentCore Gateway, son service de passerelle centralisée pour le protocole MCP (Model Context Protocol) au sein d'Amazon Bedrock. Les nouvelles fonctionnalités couvrent notamment la prise en charge étendue des schémas d'outils MCP, l'intégration des primitives MCP prompts et ressources, la découverte dynamique de serveurs MCP à l'exécution, la gestion de sessions pour les interactions temps réel, un mécanisme d'élicitation permettant des demandes d'entrée en cours d'exécution, et un échange de jetons OAuth 2.0 pour l'authentification déléguée. Ces ajouts s'appliquent à un service qui sert déjà de point d'entrée unique entre les serveurs MCP d'une organisation et les clients qui les consomment, en centralisant la gestion des identifiants, l'observabilité et la connectivité sécurisée. L'enjeu est directement opérationnel pour les équipes engineering en entreprise. Sans passerelle centralisée, chaque serveur MCP déployé, qu'il gère les contrats pour l'équipe juridique, les données financières ou les incidents opérationnels, doit gérer indépendamment ses propres mécanismes d'authentification, de contrôle d'accès et de journalisation. Cela multiplie les délais d'approbation, fragmente la visibilité sur l'usage des outils et oblige les équipes sécurité à auditer chaque serveur séparément. AgentCore Gateway réduit ce fardeau en laissant chaque équipe se concentrer sur la logique métier de son serveur MCP, tandis que la passerelle prend en charge tout le reste : agrégation des capacités, politiques d'accès basées sur les ressources, isolation réseau via AWS PrivateLink, logs d'audit centralisés, et guardrails déterministes via AgentCore Policy. MCP, le protocole lancé par Anthropic fin 2024 pour standardiser la façon dont les agents IA interagissent avec des outils et services externes, a rapidement été adopté par les grands acteurs du cloud, dont AWS, Microsoft et Google. Amazon intègre AgentCore Gateway dans son écosystème Bedrock, qui concurrence directement Azure AI et Google Cloud Vertex AI dans la course aux infrastructures d'agents IA en entreprise. La montée en puissance des architectures multi-agents, où plusieurs modèles coopèrent en orchestrant des dizaines d'outils, rend ce type de couche de gouvernance centrale de plus en plus stratégique. Les prochaines étapes probables incluent une intégration plus poussée avec les outils d'identité AWS IAM et une extension du support aux agents tiers via les flux OAuth 2.0 maintenant disponibles dans la passerelle.

InfrastructureOpinion
1 source
Sécuriser les agents IA avec des intercepteurs Policy et Lambda dans la passerelle Amazon Bedrock AgentCore
93AWS ML Blog 

Sécuriser les agents IA avec des intercepteurs Policy et Lambda dans la passerelle Amazon Bedrock AgentCore

Amazon a enrichi son service Bedrock AgentCore Gateway de deux mécanismes de sécurité complémentaires destinés à contrôler le comportement des agents IA en entreprise. Le premier, appelé Policy, permet de définir des règles d'accès aux outils à l'aide de Cedar, un langage déclaratif d'Amazon qui évalue chaque requête selon un principal, une action et une ressource, puis délivre une décision déterministe d'autorisation ou de refus, automatiquement journalisée. Le second mécanisme, les intercepteurs Lambda, permet d'exécuter du code personnalisé avant ou après chaque appel d'outil, pour effectuer de la validation dynamique, de l'enrichissement de payload, des échanges de tokens ou du filtrage de réponses. Pour illustrer ces capacités, Amazon présente un agent de données baptisé "lakehouse data agent", conçu pour une compagnie d'assurance fictive. Cet agent permet à trois types d'utilisateurs, titulaires de contrats, experts en sinistres et administrateurs, d'interroger des données de réclamations stockées dans Amazon S3 Tables au format Apache Iceberg, via Amazon Athena et AWS Lake Formation. L'interface Streamlit authentifie les utilisateurs via Amazon Cognito et transmet des JWT à l'agent, qui expose cinq outils MCP distincts. Les métadonnées de rôles, les mappings IAM par tenant et la géographie des utilisateurs sont stockés dans Amazon DynamoDB. Ces nouvelles fonctionnalités répondent à un problème de gouvernance concret que rencontrent les grandes organisations déployant des agents IA à l'échelle. Contrairement aux applications traditionnelles qui exécutent une logique fixe, les agents pilotés par un LLM décident au moment de l'exécution quels outils invoquer, avec quels arguments et dans quel ordre. Il devient donc impossible d'auditer le graphe d'appels à l'avance. Sur des plateformes unifiées comptant des centaines d'agents et des milliers d'outils MCP répartis entre différentes équipes et unités métier, ce manque de contrôle crée un risque réel. La combinaison Cedar pour l'autorisation déterministe et Lambda pour la validation contextuelle dynamique, notamment basée sur la géographie de l'utilisateur, offre une architecture de sécurité en couches adaptée à cette réalité. Ce développement s'inscrit dans un mouvement plus large d'industrialisation de l'IA agentique au sein des entreprises, où les questions de sécurité et de conformité deviennent aussi critiques que la performance des modèles eux-mêmes. Le Model Context Protocol, promu initialement par Anthropic, s'impose progressivement comme standard d'interopérabilité entre agents et outils, et AWS prend position en intégrant nativement la gouvernance des outils MCP dans Bedrock. Lake Formation assure par ailleurs une sécurité au niveau des lignes et des colonnes directement à l'exécution des requêtes, garantissant que même un agent mal configuré ne puisse pas exfiltrer de données hors de son périmètre autorisé. La prochaine étape probable pour Amazon sera d'étendre ces mécanismes à des scénarios multi-agents, où la chaîne de confiance entre agents orchestrateurs et agents subalternes soulève des défis de sécurité encore plus complexes.

InfrastructureActu
1 source
OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia
94The Information AI 

OpenAI envisage de publier un outil interne qui affaiblirait l'avantage logiciel de Nvidia

OpenAI envisage de rendre public un outil logiciel développé en interne qui permettrait d'exécuter des charges de travail d'intelligence artificielle sur des puces de différents fabricants, sans se limiter à celles de Nvidia. C'est Sachin Katti, responsable des infrastructures et du calcul chez OpenAI, qui a évoqué cette possibilité lors d'une table ronde. OpenAI a récemment conclu des accords pour utiliser les puces d'Amazon, de Cerebras et d'AMD, tout en développant ses propres puces personnalisées. Katti a décrit cet outil comme une "capacité d'optimisation agentique" et affirmé vouloir "rendre cette capacité disponible pour le monde entier". Il a également indiqué qu'OpenAI disposait déjà d'échantillons précoces des prochaines puces Vera Rubin de Nvidia, dont le déploiement est attendu d'ici fin 2025, et prévoit de les intégrer à ses entraînements d'ici la fin de l'année. Si OpenAI publie effectivement cet outil, les conséquences pour Nvidia pourraient être significatives. L'avantage concurrentiel du géant des semi-conducteurs repose en grande partie sur CUDA, son écosystème propriétaire de compilateurs, de bibliothèques et d'outils d'optimisation que la quasi-totalité des grands développeurs d'IA utilisent pour faire tourner leurs logiciels sur ses puces. Un outil capable d'abstraire cette dépendance, c'est-à-dire de permettre aux équipes d'OpenAI de lancer des charges de travail sans se soucier du matériel sous-jacent, ouvrirait la voie à une concurrence matérielle que Nvidia a jusqu'ici réussi à étouffer grâce à son écosystème logiciel. Katti a également suggéré que l'IA elle-même pourrait générer du code optimisé pour différentes architectures de puces, réduisant encore davantage la valeur de l'exclusivité de CUDA. Cette annonce s'inscrit dans une tendance de fond que l'on observe chez tous les grands laboratoires d'IA : OpenAI, Anthropic et Meta cherchent tous à diversifier leurs fournisseurs de calcul pour ne pas dépendre d'un seul acteur. Katti a résumé cette évolution par une formule claire : "Nous allons nous retrouver dans un monde très hétérogène." PyTorch, le framework développé à l'origine par Meta, avait déjà commencé à éroder l'hégémonie de CUDA en facilitant l'écriture de code pour plusieurs types de puces. Des startups proposent désormais des outils de traduction automatique de ce code vers des instructions bas niveau adaptées directement au matériel. OpenAI, en s'inspirant du système Borg de Google qui permet de gérer des charges de calcul sur des infrastructures hétérogènes, ambitionne d'accélérer ce mouvement à l'échelle de l'ensemble de l'industrie.

UESi cet outil est publié, les laboratoires et entreprises européens pourraient diversifier leurs fournisseurs de puces IA au-delà de Nvidia, réduisant ainsi une dépendance stratégique coûteuse.

InfrastructureOpinion
1 source
Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant
95AWS ML Blog 

Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant

Amazon Web Services vient d'annoncer une combinaison technique qui pourrait transformer le déploiement de grands modèles de langage en production : l'utilisation conjointe d'Amazon FSx for Lustre, de NVIDIA GPUDirect Storage (GDS) et d'une nouvelle technique de quantification appelée TurboQuant. Concrètement, charger un modèle comme Llama 3.1 405B, soit environ 800 gigaoctets de poids en BF16, prend aujourd'hui entre 10 et 20 minutes avec une infrastructure classique. Avec GDS sur les nouvelles instances P6 et P6e d'AWS, propulsées par l'architecture NVIDIA Blackwell, ce délai tombe à quelques secondes. Le flagship P6e UltraServer concentre 72 GPU Blackwell dans un seul domaine NVLink, avec 13,4 téraoctets de mémoire HBM3e et 360 pétaflops de calcul en FP8. Le problème que résout cette approche est fondamental pour l'industrie de l'inférence à grande échelle. Dans le pipeline traditionnel, les poids du modèle transitent séquentiellement depuis le stockage vers la RAM CPU, sont désérialisés, éventuellement quantifiés, puis copiés un par un vers chaque GPU via le bus PCIe. Pendant tout ce temps, parfois vingt minutes, les GPU les plus chers de l'infrastructure restent inactifs. GPUDirect Storage court-circuite entièrement ce chemin : les checkpoints du modèle sont pré-découpés en fragments sur FSx for Lustre, et les huit GPU d'une instance lisent leurs fragments en parallèle directement dans leur mémoire HBM, sans jamais passer par le CPU ni le PCIe. L'impact est immédiat sur trois métriques critiques : la latence au premier token lors d'un démarrage à froid, la réactivité de l'autoscaling lors des pics de charge, et le coût d'infrastructure lié aux GPU qui attendent. Cette annonce s'inscrit dans une course à l'optimisation de l'inférence LLM qui s'est intensifiée depuis l'émergence de modèles à plusieurs centaines de milliards de paramètres. Des frameworks comme vLLM ont certes amélioré le chargement parallèle des poids depuis la version 0.19 et son moteur V1, mais les données continuent d'emprunter le CPU et le bus PCIe, une limitation structurelle que GDS supprime à la racine. AWS introduit simultanément TurboQuant, une technique de mise en cache KV qui permet d'augmenter significativement la taille des fenêtres de contexte disponibles sur ces instances. Ces deux avancées combinées positionnent AWS comme un acteur offensif sur le marché de l'infrastructure d'inférence, face à des concurrents comme Google Cloud et Azure qui développent leurs propres accélérateurs et solutions de stockage haute performance pour répondre aux mêmes contraintes.

UELes entreprises européennes déployant des LLMs à grande échelle sur AWS pourront réduire significativement leurs coûts d'infrastructure liés aux GPU inactifs au démarrage, avec un impact direct sur la compétitivité des services d'inférence en Europe.

InfrastructureOpinion
1 source
Le prochain chip IA d'Intel sera moins cher et moins énergivore que ceux de Nvidia et AMD
96Ars Technica AI 

Le prochain chip IA d'Intel sera moins cher et moins énergivore que ceux de Nvidia et AMD

Intel prévoit de commercialiser d'ici la fin 2026 un nouveau processeur d'IA baptisé "Crescent Island", conçu pour concurrencer directement les puces de Nvidia et AMD sur le marché de l'inférence. Kevork Kechichian, directeur du groupe data center d'Intel, a confié au Financial Times que l'entreprise repart "des bases" en proposant un GPU utilisant une mémoire et un système de refroidissement moins coûteux que ceux des solutions rivales. L'objectif affiché est de capitaliser sur le redressement en cours du fabricant américain de semi-conducteurs. "Crescent Island" se concentre sur l'inférence, soit la phase où un utilisateur soumet une requête à un modèle d'IA déjà entraîné, plutôt que sur l'entraînement lui-même, segment encore verrouillé par Nvidia. En misant sur des composants moins onéreux, Intel cherche à proposer une alternative économiquement attractive aux centres de données et aux entreprises qui déploient massivement des services d'IA, sans recourir aux puces haut de gamme H100 ou Blackwell de Nvidia. Un positionnement prix agressif pourrait ouvrir une brèche réelle dans un marché aujourd'hui très concentré. Intel sort d'une période de profonde restructuration, marquée par des retards technologiques et une pression financière intense qui ont fragilisé sa position face à Nvidia et TSMC. Sur le segment de l'inférence, Nvidia détient une part de marché estimée à plus de 80 %, tandis qu'AMD tente de s'y imposer avec ses puces MI300X. Cibler ce créneau avec une offre plus accessible représente pour Intel un pari stratégique cohérent, mais le succès dépendra de la disponibilité réelle des puces et de leur adoption par les grands opérateurs cloud d'ici la fin de l'année.

UELes centres de données et entreprises européens déployant des services d'IA pourraient bénéficier d'une alternative moins coûteuse aux puces Nvidia pour l'inférence d'ici fin 2026.

InfrastructureOpinion
1 source
Nvidia présente RTX Spark comme la puce qui rend enfin les agents IA locaux viables sur Windows
97The Decoder 

Nvidia présente RTX Spark comme la puce qui rend enfin les agents IA locaux viables sur Windows

Nvidia a présenté le RTX Spark, une puce conçue pour rendre les agents IA locaux véritablement utilisables sur les PC Windows portables. La puce combine un GPU Blackwell avec un processeur Grace basé sur l'architecture Arm, jusqu'à 128 Go de mémoire partagée et une puissance de calcul annoncée à 1 000 TOPS en FP4. Les premiers appareils équipés du RTX Spark seront commercialisés à partir de l'automne 2026 par ASUS, Dell, HP, Lenovo, Microsoft Surface et MSI. Le RTX Spark vise directement les puces Apple Silicon et les processeurs Qualcomm Snapdragon X qui dominent aujourd'hui le segment des PC dits "AI". Disposer de 128 Go de mémoire partagée est un atout décisif : cela permet de faire tourner en local des modèles de langage de grande taille, sans recourir au cloud, avec une latence réduite et une confidentialité des données préservée. Pour les entreprises et les développeurs, cette configuration ouvre la voie à des agents IA autonomes fonctionnant directement sur l'appareil de l'utilisateur, sans dépendance à une connexion Internet. Ce lancement s'inscrit dans la bataille que se livrent les fabricants de puces pour capter le marché des ordinateurs portables à capacités IA embarquées. Apple a pris une avance significative avec ses puces M-series, notamment grâce à leur architecture à mémoire unifiée. Qualcomm a répondu avec les Snapdragon X Elite sur Windows. Nvidia, dont la domination est historiquement liée aux datacenters et aux GPU discrets, cherche à s'imposer dans le segment mobile avec une approche intégrée CPU-GPU inédite sous Windows. L'automne 2026 marquera un test grandeur nature pour cette stratégie face à des concurrents déjà bien installés.

UELes PC équipés du RTX Spark arriveront en Europe à l'automne 2026, offrant aux entreprises françaises et européennes des capacités d'IA locale sans dépendance au cloud, un atout direct en contexte RGPD.

InfrastructureActu
1 source
NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises
98Le Big Data 

NVIDIA lance DGX Station, un superordinateur IA sous Windows pour les entreprises

NVIDIA a dévoilé le 1er juin 2026, lors du GTC Taipei, la DGX Station pour Windows, présentée comme le superordinateur IA de bureau le plus puissant au monde. Propulsée par la puce GB300 Grace Blackwell Ultra Desktop Superchip, qui associe un GPU Blackwell Ultra à un processeur Grace de 72 cœurs via l'interconnexion NVLink-C2C, la machine offre jusqu'à 748 Go de mémoire cohérente et 20 pétaflops de performances en FP4. Elle peut exécuter localement des modèles d'intelligence artificielle atteignant 1 000 milliards de paramètres, et faire tourner plusieurs centaines d'agents IA simultanément. Commercialisée au quatrième trimestre 2026 par ASUS, Dell Technologies, MSI et Supermicro, la station intègre également une carte réseau ConnectX-8 SuperNIC à 800 Gbit/s, permettant d'interconnecter plusieurs unités entre elles pour des charges de travail encore plus exigeantes. L'enjeu central de cette annonce est de réconcilier la puissance des infrastructures de datacenter avec l'environnement Windows, dans lequel travaillent au quotidien la grande majorité des équipes en entreprise : développeurs, ingénieurs, data scientists, concepteurs 3D. Jusqu'ici, les projets IA les plus ambitieux reposaient quasi exclusivement sur des serveurs Linux hébergés dans le cloud ou dans des centres de données, créant un fossé entre les outils de production IA et les environnements de travail réels. Avec la DGX Station, NVIDIA cible directement ce décalage en permettant le développement, le test et le déploiement d'agents IA autonomes au plus près des applications métier, sans dépendance au cloud. Pour les organisations soucieuses de souveraineté des données, l'exécution locale des modèles permet aussi de limiter les transferts vers des infrastructures externes. Cette machine s'inscrit dans un tournant plus large de l'industrie : les entreprises ne cherchent plus seulement à intégrer des chatbots, mais à déployer des agents capables de raisonner, d'interagir avec plusieurs logiciels et d'automatiser des tâches complexes en continu. NVIDIA répond à cette demande en combinant la plateforme OpenShell, conçue pour construire et exécuter des agents sécurisés sous Windows, avec la densité de calcul de l'architecture Blackwell. La possibilité d'y coupler une carte RTX PRO 6000 Blackwell ajoute des capacités de visualisation et de simulation, élargissant encore le spectre des usages. Cette annonce confirme également la stratégie de NVIDIA de pénétrer l'entreprise non plus seulement par le datacenter, mais directement par le poste de travail, en faisant de la puissance de calcul IA une ressource locale, accessible et intégrée aux flux de travail existants.

UELes organisations européennes soumises au RGPD pourraient bénéficier de la capacité à exécuter localement des modèles d'IA volumineux, réduisant leur dépendance aux infrastructures cloud extra-européennes.

💬 20 pétaflops sur un bureau Windows, ça fait mal aux yeux. NVIDIA joue un coup malin : au lieu de vendre encore du datacenter, ils ramènent la puissance là où les équipes bossent au quotidien, sans passer par le cloud. Bon, la facture va être salée, mais pour une boîte avec des modèles sensibles et une DSI soucieuse du RGPD, c'est le premier argument solide.

Comment Nvidia veut s’emparer du « cerveau » de nos ordinateurs personnels
99La Tribune 

Comment Nvidia veut s’emparer du « cerveau » de nos ordinateurs personnels

Au salon Computex de Taipei, fin mai 2026, Nvidia a présenté RTX Spark, sa première gamme de processeurs conçus pour équiper ordinateurs de bureau et ordinateurs portables sous Windows. Il s'agit d'une rupture nette dans la stratégie du fabricant californien, jusqu'ici centré sur les GPU dédiés : avec RTX Spark, Nvidia s'attaque au marché des processeurs centraux, territoire dominé depuis des décennies par Intel et AMD. La gamme intègre directement des capacités de traitement d'IA au cœur des machines grand public, sans nécessiter de carte graphique additionnelle. L'enjeu est considérable pour l'ensemble de l'industrie PC. En embarquant la puissance de calcul IA dans le processeur principal, Nvidia permet aux fabricants de proposer des machines plus compactes, moins gourmandes en énergie et capables d'exécuter des modèles de langage ou des outils d'IA générative en local, sans dépendre du cloud. Pour les professionnels et les utilisateurs exigeants, cela signifie des traitements plus rapides, plus privés et moins coûteux à long terme. Cette offensive s'inscrit dans une tendance de fond : la bataille pour le contrôle de l'IA dite « edge », c'est-à-dire déployée directement sur l'appareil de l'utilisateur plutôt que sur des serveurs distants. Microsoft pousse activement les PC Copilot+, Qualcomm a pris de l'avance avec ses puces ARM dédiées à l'IA, et Apple intègre depuis plusieurs années ses Neural Engine dans ses Mac. Nvidia, fort de sa domination sur les GPU de data centers, cherche désormais à reproduire ce leadership jusqu'au poste de travail individuel, transformant la définition même de ce qu'est un ordinateur personnel.

UEL'intégration de l'IA directement dans les processeurs grand public pourrait permettre aux entreprises et particuliers européens d'exécuter des modèles d'IA en local, réduisant la dépendance aux clouds américains et facilitant la conformité au RGPD.

💬 Nvidia arrive en retard sur l'IA edge, Qualcomm et Apple ont plusieurs longueurs d'avance depuis 2023. Mais intégrer l'IA dans le processeur principal plutôt que dans une carte graphique séparée à 800€, ça change le calcul pour tous les fabricants PC qui hésitaient à embarquer de l'IA locale. Sur le papier c'est solide, reste à voir ce que ça donne face aux puces ARM de Qualcomm en conditions réelles.

InfrastructureOpinion
1 source
SoftBank s’engage à investir jusqu’à 75 milliards d’euros pour 5 GW d’infrastructures IA en France
100Next INpact 

SoftBank s’engage à investir jusqu’à 75 milliards d’euros pour 5 GW d’infrastructures IA en France

SoftBank a annoncé lundi 2 juin 2026 un investissement de 45 milliards d'euros en France, présenté conjointement par le CEO du groupe japonais Masayoshi Son et le président Emmanuel Macron sur le perron de l'Élysée. Cet engagement, formalisé par un communiqué daté du 31 mai et confirmé dans le cadre du sommet Choose France à Versailles, prévoit la construction de trois datacenters dans les Hauts-de-France, sur des sites déjà identifiés à Dunkerque (Loon-Plage), Bosquel et Bouchain, ce dernier installé sur l'ancienne centrale thermique d'EDF. Ces infrastructures représenteront une puissance électrique combinée de 3,1 GW et devraient être mises en service entre fin 2029 et mi-2030. L'enveloppe inclut également un volet industriel : deux usines seront créées à Dunkerque, l'une opérée par SoftBank pour fabriquer des baies et racks serveurs, l'autre par Schneider Electric pour produire des modules d'alimentation et de refroidissement. SoftBank indique par ailleurs envisager de porter son investissement total à 75 milliards d'euros pour atteindre 5 GW de capacité, soit l'équivalent d'environ cinq tranches de réacteur nucléaire. L'ampleur de l'engagement est sans précédent dans l'histoire des investissements étrangers en France dans le numérique. Pour l'industrie française, l'annonce représente un signal fort sur la capacité du pays à attirer des capitaux massifs dans les infrastructures IA, notamment grâce à la disponibilité d'énergie électrique et à la mobilisation des collectivités locales et de RTE. Le volet industriel est tout aussi significatif : en ancrant deux usines de composants à Dunkerque, SoftBank et Schneider Electric contribuent à créer une filière locale d'équipement pour datacenters, un maillon jusqu'ici quasi absent en Europe. Pour les utilisateurs finaux et les acteurs du cloud européen, cette capacité supplémentaire de plusieurs gigawatts pourrait à terme peser sur l'offre et les prix des infrastructures d'entraînement et d'inférence IA sur le continent. SoftBank intervient habituellement comme financier dans les grands projets d'infrastructure technologique, notamment aux côtés d'OpenAI et d'autres acteurs américains du secteur, sans nécessairement opérer lui-même les actifs. Le détail des futurs exploitants des trois datacenters n'a pas encore été précisé. L'annonce s'inscrit dans une séquence plus large de mobilisation autour de la souveraineté numérique européenne et de la course mondiale aux infrastructures IA, où la France cherche à s'imposer comme hub continental en capitalisant sur son mix énergétique bas-carbone et ses capacités industrielles. Macron a évoqué des sites supplémentaires déjà identifiés pour la phase à 75 milliards, ainsi que de nouveaux projets en robotique, sans en préciser les contours, laissant entrevoir de futures annonces dans les prochains mois.

UEL'investissement de SoftBank de 45 à 75 milliards d'euros en France crée une capacité d'infrastructure IA de 3,1 à 5 GW sur des sites identifiés dans les Hauts-de-France, ancre une filière industrielle locale à Dunkerque, et pourrait peser sur l'offre et les prix des infrastructures cloud IA en Europe à horizon 2030.

💬 75 milliards en France, c'était impensable il y a trois ans. Ce qui m'intéresse le plus là-dedans, c'est les deux usines à Dunkerque : baies serveurs, modules de refroidissement, enfin une filière équipement datacenter qui s'ancre en Europe, un maillon qui n'existait pas. Reste à voir qui opère les trois datacenters, parce que SoftBank finance en général sans exploiter.