Aller au contenu principal

Infrastructure

50 sur 346 articles

Infrastructure IA : data centers, puces GPU/TPU, cloud computing, énergie et hardware.

Les surcouches à base d'agents pour moderniser les services d'entreprise existants
1AWS ML Blog InfrastructureOpinion

Les surcouches à base d'agents pour moderniser les services d'entreprise existants

Les infrastructures d'entreprise reposent depuis des années sur des API REST et des microservices, des systèmes stables, bien rodés, mais conçus bien avant l'émergence des agents autonomes. Dans un article technique publié en collaboration entre des ingénieurs de Cisco et d'AWS, les auteurs présentent une approche baptisée "agentic overlays" : des couches d'enveloppe légères qui transforment des services REST existants en agents capables de participer au protocole A2A (Agent-to-Agent), le standard de communication inter-agents en train de s'imposer dans l'industrie. L'idée centrale est de ne rien réécrire : aucune duplication du code métier, aucune infrastructure parallèle à opérer, aucune migration forcée. Ces overlays exposent également les API REST comme outils compatibles avec le Model Context Protocol (MCP), permettant ainsi aux agents d'orchestration modernes de les invoquer directement. L'enjeu est considérable pour les entreprises qui ont déjà déployé des agents maison, souvent construits comme de simples endpoints REST avec de la logique agent embarquée. Ces agents ne sont pas nativement A2A : ils ne savent pas se découvrir mutuellement via des métadonnées (un "agent card"), négocier des capacités, ni échanger des messages structurés en JSON-RPC pour coordonner des tâches complexes. Sans solution de transition, les entreprises se retrouvent face à un choix coûteux : maintenir deux mondes en parallèle (l'ancien en REST, le nouveau en A2A) ou tout réécrire. Les overlays proposés permettent d'éviter ce dilemme en réduisant ce que les auteurs appellent l'"agent sprawl", la prolifération incontrôlée d'agents disparates dans l'infrastructure. Cette approche s'inscrit dans un contexte d'accélération rapide des standards d'interopérabilité entre agents. Le protocole A2A, porté notamment par Google, vise à établir un langage commun pour que des agents d'éditeurs différents puissent collaborer, déléguer des sous-tâches et composer des workflows multi-étapes, là où REST se contentait d'exécutions isolées et déterministes. L'adoption a jusqu'ici été freinée par la complexité opérationnelle d'introduire ces nouvelles infrastructures sans perturber les systèmes en production. En proposant des architectures de référence et du code d'exemple, les auteurs cherchent à abaisser cette barrière d'entrée et à accélérer la migration progressive des parcs applicatifs existants vers un monde d'agents interopérables, sans rupture brutale.

UELes entreprises européennes disposant de parcs applicatifs REST existants pourraient adopter ces patterns d'overlay pour migrer progressivement vers des architectures multi-agents sans réécriture coûteuse, mais aucun acteur ou réglementation européen n'est spécifiquement concerné.

1 source
Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell
2AWS ML Blog 

Optimiser l'entraînement des modèles sur Amazon SageMaker AI avec NVIDIA Blackwell

Amazon Web Services a rendu disponibles sur Amazon SageMaker AI les instances P6-B200, équipées de huit GPU NVIDIA Blackwell B200, pour l'entraînement de modèles de machine learning à grande échelle. Ces GPU de nouvelle génération embarquent 180 Go de mémoire HBM par puce (268 Go sur le B300), contre des capacités bien inférieures sur les générations précédentes, et s'interconnectent via NVLink 5 qui atteint 1,8 To/s de bande passante bidirectionnelle entre GPU. La configuration cible des modèles Transformer allant de 1 à 64 milliards de paramètres, entraînés en parallélisme de données fragmentées (FSDP de PyTorch) sur un nœud unique à huit GPU. L'accès à ces instances peut être réservé via le programme Flexible Training Plan d'AWS pour bénéficier d'une capacité prévisible et d'une gestion automatisée des ressources. Cette architecture modifie concrètement ce qui est réalisable dans l'entraînement de grands modèles. Jusqu'ici, les ingénieurs se heurtaient à trois contraintes classiques : des tailles de batch limitées par la mémoire GPU, des séquences tronquées pour éviter les erreurs out-of-memory, et un fractionnement du modèle sur plusieurs nœuds qui génère une surcharge réseau importante. Avec 180 Go par GPU, certains modèles qui nécessitaient auparavant plusieurs nœuds peuvent désormais tenir sur un seul nœud à huit GPU, ce qui réduit la latence de communication, accélère les cycles d'itération et diminue les coûts d'infrastructure. Des séquences plus longues deviennent viables pour les tâches de dépendances à longue portée, et le nombre d'étapes de synchronisation des gradients diminue avec des batchs plus grands, améliorant le débit global. NVIDIA Blackwell représente la cinquième génération de Tensor Cores de la marque, et son architecture dual-chip marque une rupture par rapport aux générations Ampere et Hopper. L'explosion de la taille des modèles ces trois dernières années, de GPT-3 à 175 milliards de paramètres jusqu'aux modèles actuels dépassant le trillion, a poussé les fournisseurs cloud et les fabricants de puces à repenser conjointement leurs offres. AWS et NVIDIA ont renforcé leur partenariat autour de SageMaker pour proposer une intégration clé en main qui abstrait la gestion de l'infrastructure. Les prochaines étapes pratiques pour les équipes ML consistent à calibrer le format de précision (FP8, BF16 ou FP16 selon la taille du modèle), ajuster le checkpointing d'activations pour équilibrer mémoire et calcul, et décider si la priorité est le débit, la réduction des communications inter-GPU ou la longueur de contexte. L'enjeu pour AWS est de capter une part croissante des budgets d'entraînement de modèles fondationnels, un marché où Google Cloud et Microsoft Azure jouent également des capacités GPU Blackwell.

InfrastructureActu
1 source
Les applications d'IA à base d'agents sur AWS avec une stratégie moderne de maillage de données
3AWS ML Blog 

Les applications d'IA à base d'agents sur AWS avec une stratégie moderne de maillage de données

Amazon Web Services a publié un guide architectural détaillé pour construire des applications d'IA agentique sur un maillage de données distribué, en réponse aux lacunes de gouvernance que les systèmes actuels de type RAG (Retrieval Augmented Generation) ne permettent pas de combler. L'architecture proposée repose sur trois composants clés : Amazon S3 Vectors pour les bases de connaissances vectorielles, qui réduit les coûts de stockage et de requête jusqu'à 90 % par rapport aux bases de données vectorielles spécialisées dans des charges de travail à fréquence modérée ; Amazon S3 Tables avec support natif d'Apache Iceberg, qui offre jusqu'à dix fois plus de transactions par seconde que les tables Iceberg auto-gérées, avec sécurité au niveau des lignes, colonnes et cellules individuelles via AWS Lake Formation ; et enfin, une exposition du maillage de données sous forme d'outils MCP (Model Context Protocol) via AgentCore Gateway, avec des intercepteurs Lambda pour un contrôle d'accès déterministe à chaque invocation. L'enjeu est considérable pour les entreprises qui déploient des agents IA en production. Contrairement aux pipelines RAG classiques, où l'agent se contente de récupérer des extraits d'un index vectoriel préexistant, les agents autonomes modernes découvrent dynamiquement des schémas de bases de données, construisent des requêtes SQL et synthétisent des données issues de sources multiples. Ce comportement expose des failles de gouvernance que le modèle à point de contrôle unique ne peut pas gérer : un agent de service client qui interroge simultanément des bases de commandes, des politiques de retour et des données clients peut contourner des restrictions d'accès si le contrôle n'est pas appliqué à chaque étape de la chaîne. L'architecture décrite impose des autorisations distinctes au niveau de la couche agent, de la passerelle, des outils et du maillage de données lui-même, sans point de défaillance unique. Ce travail s'inscrit dans une évolution plus large de l'écosystème AWS vers l'IA agentique d'entreprise. Un article précédent d'AWS avait déjà abordé le contrôle d'accès fin pour les applications RAG sur des lacs de données serverless. La nouvelle architecture l'étend en intégrant Amazon Bedrock AgentCore Runtime, un environnement d'hébergement serverless qui déploie les agents dans des microVM isolés avec isolation de session, et le framework LangGraph pour orchestrer les appels aux outils MCP. Les intercepteurs de requêtes valident les jetons JWT et appliquent les périmètres d'autorisation, tandis que les intercepteurs de réponses gèrent la rédaction des données sensibles et la journalisation d'audit. AWS Bedrock Guardrails surveille en temps réel les injections de prompts et les contenus dangereux à chaque invocation d'outil. Cette architecture cible directement les équipes data et les architectes cloud qui doivent mettre en production des agents IA tout en respectant des contraintes de conformité et de sécurité strictes.

UELes contrôles d'accès granulaires au niveau ligne/colonne/cellule et la journalisation d'audit intégrés facilitent la mise en conformité RGPD pour les entreprises européennes déployant des agents IA sur AWS.

InfrastructureActu
1 source
IBM annonce la première puce au monde sous 1 nanomètre
4Ars Technica AI 

IBM annonce la première puce au monde sous 1 nanomètre

IBM a présenté une nouvelle architecture de puce capable d'intégrer près de 100 milliards de transistors sur une surface de la taille d'un ongle humain, soit presque le double de la densité de transistors de la génération précédente de la firme. Baptisée "nanostack", cette technologie est présentée comme la "première technologie de puce sub-1 nanomètre au monde" et cible en priorité les centres de données dédiés à l'intelligence artificielle. C'est Jay Gambetta, directeur d'IBM Research et IBM Fellow, qui a annoncé l'innovation lors d'un briefing médias en avant-première : "Ce n'est pas une simple progression incrémentale, c'est un bond en avant significatif", a-t-il déclaré, promettant "un futur où l'informatique devient bien plus puissante sans augmentation correspondante de la consommation énergétique." Il convient toutefois de préciser ce que recouvre réellement ce terme de "sub-1 nanomètre", car fabriquer des puces avec des composants physiques inférieurs à 1 nanomètre reste impraticable en raison de contraintes physiques fondamentales. IBM ne prétend pas avoir franchi cette barrière matérielle : l'architecture nanostack est conçue pour délivrer les gains de performance qu'une telle puce théorique offrirait, sans en avoir les transistors microscopiques. L'enjeu est donc avant tout d'ordre fonctionnel et commercial, les amélioration réelles en performance de calcul et en efficacité énergétique étant bien au rendez-vous pour les opérateurs de centres de données IA. Cette annonce s'inscrit dans une course effrénée entre les grands acteurs technologiques pour repousser les limites de la miniaturisation des semi-conducteurs, alors que la demande de puissance de calcul explose sous l'impulsion de l'IA générative. IBM, longtemps en retrait sur le marché des puces grand public, repositionne ici sa recherche fondamentale comme levier de différenciation dans l'infrastructure IA. La prochaine étape sera de voir si cette technologie passe du stade du laboratoire à une production industrielle compétitive face aux géants TSMC et Samsung, qui dominent actuellement la fabrication de semi-conducteurs de pointe.

UEImpact indirect sur les opérateurs européens de centres de données IA, qui pourraient bénéficier d'une meilleure efficacité énergétique si cette architecture passe en production industrielle.

InfrastructureOpinion
1 source
Micron Technology atteint un chiffre d’affaires record et vise désormais 50 milliards de dollars
5Le Big Data 

Micron Technology atteint un chiffre d’affaires record et vise désormais 50 milliards de dollars

Micron Technology a publié le 24 juin 2026 des résultats trimestriels qui ont dépassé toutes les prévisions de Wall Street. Le fabricant américain de mémoires a enregistré 41,46 milliards de dollars de chiffre d'affaires au troisième trimestre de son exercice fiscal 2026, contre 9,3 milliards un an plus tôt, soit une progression de 346 % en glissement annuel. Le bénéfice par action s'est établi à 25,11 dollars, contre 20,39 dollars attendus. La marge brute a atteint 84,6 %, la marge opérationnelle 80,4 %, et le bénéfice net 28,2 milliards de dollars. Surtout, Micron a annoncé viser 50 milliards de dollars de chiffre d'affaires pour son quatrième trimestre fiscal, avec une marge brute proche de 86 %, là où les analystes anticipaient environ 43 milliards. L'action a bondi de plus de 15 % après la clôture des marchés. Ces résultats révèlent la rentabilité exceptionnelle des mémoires à haute bande passante (HBM), devenues indispensables aux accélérateurs d'intelligence artificielle équipant les grands centres de données. L'offre reste structurellement insuffisante face à une demande portée par les déploiements massifs d'infrastructure IA chez les hyperscalers, ce qui permet à Micron d'appliquer des prix bien supérieurs aux mémoires conventionnelles. La création de valeur ne vient donc pas d'une hausse des volumes, les marchés PC et smartphone restent atones, mais d'une montée en gamme accélérée des produits et de leur rareté persistante. Pour les investisseurs en semiconducteurs, Micron s'impose comme l'un des baromètres les plus fiables de la santé réelle de l'écosystème IA. Ces résultats interviennent dans un contexte où le marché s'interrogeait depuis plusieurs semaines sur la durabilité des dépenses en infrastructure IA. Certains analystes craignaient un plateau après deux années de croissance soutenue. La guidance de Micron dissipe temporairement ces inquiétudes. Le groupe rivalise directement avec les sud-coréens Samsung et SK Hynix sur le segment HBM, un marché en pleine consolidation où les délais de production limitent la capacité à répondre rapidement à la demande. Nvidia, principal client de ces puces mémoire, continue d'absorber la quasi-totalité de la production disponible pour ses GPU H100 et Blackwell. Les prochains trimestres dépendront de la vitesse à laquelle Micron peut accroître ses capacités de production HBM, et de la pérennité des budgets d'investissement des géants du cloud, dont les annonces récentes suggèrent qu'ils n'entendent pas ralentir.

UELes opérateurs européens déployant des infrastructures IA dépendent des mêmes mémoires HBM dont la rareté persistante fait grimper les coûts de construction des centres de données IA en Europe.

InfrastructureOpinion
1 source
Nokia et AWS renforcent leur collaboration pour créer des réseaux autonomes dédiés à l’IA
6Le Big Data 

Nokia et AWS renforcent leur collaboration pour créer des réseaux autonomes dédiés à l’IA

Nokia a annoncé le 24 juin 2026 l'extension de son partenariat stratégique avec Amazon Web Services pour déployer sa plateforme Autonomous Network Fabric directement dans le cloud AWS. L'objectif est de permettre aux opérateurs télécoms d'atteindre un niveau d'autonomie réseau de niveau 4, c'est-à-dire des infrastructures capables d'analyser, de décider et d'agir en temps réel sans intervention humaine. La solution sera disponible plus tard en 2026 et s'intégrera aux outils d'orchestration, de supervision et d'inventaire déjà proposés par Nokia sur AWS. L'architecture repose sur quatre piliers : une gestion unifiée des données réseau, une IA agentique dédiée aux opérations, des jumeaux numériques permettant de simuler l'impact des changements avant déploiement, et un pilotage par les intentions capable de traduire automatiquement des objectifs métiers en actions concrètes. Pour les opérateurs télécoms, cet accord représente un accès immédiat à l'élasticité mondiale d'AWS et à ses services d'intelligence artificielle, notamment Amazon Bedrock et Amazon SageMaker, sans avoir à investir massivement dans leurs propres capacités de calcul. Nokia affirme par ailleurs avoir optimisé son architecture cloud pour réduire les besoins en calcul et en stockage par rapport aux déploiements sur site traditionnels. L'enjeu économique est considérable : automatiser les boucles de détection et de résolution d'anomalies, orchestrer des réseaux multi-domaines et multi-fournisseurs, et disposer d'une vision unifiée de la topologie réseau permettrait de réduire significativement les coûts opérationnels tout en accélérant le lancement de nouveaux services à valeur ajoutée. Ce rapprochement s'inscrit dans une tendance de fond qui voit les équipementiers historiques des télécoms pivoter vers le cloud et l'IA face à la complexité croissante des infrastructures réseau. L'explosion des usages liés à l'IA générative et à la 5G contraint les opérateurs à gérer des réseaux toujours plus distribués et dynamiques, que les outils de gestion manuelle peinent à absorber. Nokia, concurrent direct d'Ericsson et de Huawei, mise sur AWS pour accélérer la transition de ses clients vers ce qu'il appelle les "réseaux autonomes", un segment où plusieurs acteurs se positionnent simultanément. Pour AWS, l'enjeu est de s'imposer comme le cloud de référence du secteur télécoms, un marché à forte valeur où Google Cloud et Microsoft Azure jouent également des coudes. La disponibilité annoncée d'ici fin 2026 fixe un calendrier concret sur lequel les opérateurs pourront commencer à évaluer le saut opérationnel que promet cette alliance.

UENokia, entreprise finlandaise, positionne cette solution directement pour les opérateurs télécoms européens, qui pourront évaluer un déploiement de réseaux autonomes de niveau 4 d'ici fin 2026.

InfrastructureActu
1 source
Les calculs derrière la puce Jalapeño d'OpenAI
7AI News 

Les calculs derrière la puce Jalapeño d'OpenAI

OpenAI a officiellement présenté le Jalapeño, son premier processeur maison baptisé "Intelligence Processor", développé en collaboration avec Broadcom. Conçu spécifiquement pour l'inférence de grands modèles de langage (LLM) plutôt que pour des charges de travail IA généralistes, ce circuit intégré (ASIC) est fabriqué par TSMC à Taïwan, tandis que Celestica assemble les cartes et systèmes de racks. OpenAI a fourni l'architecture de base, Broadcom s'est chargé de l'ingénierie silicium et de l'intégration réseau haute performance, notamment via le switch Tomahawk. Selon la société, des échantillons préliminaires font déjà tourner des charges de production, dont un modèle inédit GPT-5.3-Codex-Spark, à la fréquence et la consommation électrique cibles. La motivation est avant tout financière. Faire fonctionner ChatGPT a coûté 8,4 milliards de dollars en 2025 ; avec 900 millions d'utilisateurs hebdomadaires, la facture devrait atteindre 14 milliards cette année. Sur les huit prochaines années, OpenAI s'est engagé à dépenser environ 1 400 milliards de dollars en puissance de calcul, pour une entreprise qui génère actuellement 25 milliards de revenus annuels. Nvidia empoche environ 75 % de marge sur ses GPU haut de gamme, là où OpenAI ne conserve que 33 cents par dollar de chiffre d'affaires après charges opérationnelles. Concevoir son propre silicium, optimisé pour minimiser les mouvements de données et maximiser l'utilisation réelle des processeurs, est le levier le plus direct pour desserrer cet étau. En couvrant toute la chaîne, de l'architecture puce aux noyaux logiciels en passant par la gestion mémoire et le routage réseau, OpenAI se transforme d'une couche logicielle pure en une entreprise d'infrastructure verticalement intégrée, sur le modèle d'Apple avec ses puces M et iOS. OpenAI entre néanmoins sur un terrain où ses concurrents ont une avance considérable. Google déploie ses TPU depuis 2015 et contrôle environ un quart de la capacité mondiale de calcul IA hors Nvidia. Amazon a déjà livré plus d'un million de ses puces maison, Meta et Microsoft poursuivent leur propre montée en puissance. Pour combler ce retard, OpenAI a compressé son calendrier de développement. Greg Brockman, cofondateur et président, résume l'ambition ainsi : "En concevant davantage de la pile nous-mêmes, nous pouvons servir plus d'intelligence avec une plus grande efficacité." L'enjeu à long terme est un cercle vertueux : une infrastructure moins coûteuse réduit le prix de l'entraînement et de l'inférence, ce qui améliore les produits, attire plus d'utilisateurs, et génère les revenus nécessaires pour financer la prochaine génération de puces maison.

UESi OpenAI parvient à réduire ses coûts d'inférence grâce à ses puces maison, les entreprises européennes clientes d'OpenAI pourraient à terme bénéficier de tarifs plus compétitifs, mais l'impact reste indirect et lointain.

L'été des meta-harnesses
8Latent Space 

L'été des meta-harnesses

La semaine du 23 juin 2026 aura marqué un tournant dans l'architecture des systèmes d'IA. OpenAI a officiellement dévoilé Jalapeño, son premier chip custom pour l'inférence de modèles de langage, co-développé avec Broadcom et destiné à alimenter ChatGPT, l'API, Codex et ses futurs produits d'agents. Côté performance, les estimations de la communauté pointent vers une die quasi pleine reticle, environ 216 Go de HBM3E, 7,1 à 7,4 To/s de bande passante et 10 PFLOPS en FP4. Ce qui frappe autant que les chiffres, c'est la vitesse d'exécution : un cycle design-to-tapeout de neuf mois, exceptionnellement court pour un ASIC haute performance, et prétendument accéléré par les propres modèles d'OpenAI. Le même jour, Chris Lattner annonçait le rachat de sa société Modular par Qualcomm, tout en confirmant que le langage Mojo passerait bien en open source. Par ailleurs, Matei Zaharia, CTO de Databricks, a lancé Omnigent, une architecture open source et modulaire visant à standardiser l'orchestration de n'importe quel agent de codage ou de travail cognitif dans un cadre sécurisé et scalable. Ces annonces illustrent une recomposition profonde des couches d'infrastructure de l'IA. Pour les grands laboratoires, posséder sa propre silicon n'est plus un avantage différenciateur mais une condition de survie économique : maîtriser les chips, les compilateurs, la mémoire et l'ordonnancement permet de s'émanciper de la dépendance aux GPU de marché et de contrôler le rapport performance/watt à grande échelle. Le rachat de Modular par Qualcomm dessine une alternative crédible à l'écosystème NVIDIA/CUDA, jusqu'ici dominant. Côté Omnigent, le signal est différent mais aussi significatif : le fait que des architectures similaires émergent indépendamment dans des centaines d'entreprises AI-native suggère qu'un standard ouvert d'orchestration d'agents finira par s'imposer, à la manière dont MCP a structuré l'intégration des outils. L'autre fil conducteur de la semaine est l'intégration des agents directement dans les flux de travail d'entreprise. Anthropic a positionné Claude comme un agent "organisationnel" dans Slack, avec sa propre identité, des actions auditables et des accès révocables centralement. Andrej Karpathy a jugé cette évolution sous-estimée, notant qu'il ne s'agit pas d'un simple bot mais d'un harness à l'échelle d'une organisation. Cette vision soulève des questions de sécurité non triviales : Kenton Varda de Cloudflare a plaidé pour une approche par capacités à granularité fine plutôt que des permissions explicites par agent, arguant que le modèle actuel ne passera pas à l'échelle. Le débat est ouvert, et les prochains mois diront quelle philosophie de sécurité s'imposera à mesure que les agents deviennent des collègues à part entière.

UELes entreprises et développeurs européens bénéficieront d'alternatives crédibles à l'écosystème NVIDIA/CUDA via le rachat de Modular par Qualcomm et d'un standard ouvert d'orchestration d'agents avec Omnigent, réduisant leur dépendance aux fournisseurs américains dominants.

InfrastructureOpinion
1 source
OpenAI et Broadcom annoncent une puce dédiée à l'inférence de grands modèles de langage
9Ars Technica AI 

OpenAI et Broadcom annoncent une puce dédiée à l'inférence de grands modèles de langage

OpenAI et Broadcom ont annoncé conjointement une nouvelle puce baptisée Jalapeño, conçue spécifiquement pour l'inférence de grands modèles de langage (LLM) dans les centres de données à grande échelle. Les deux entreprises présentent ce composant comme la première génération d'un partenariat à long terme, avec l'ambition d'affiner et d'améliorer le design des puces au fil des générations successives. Cette annonce marque une étape significative dans la stratégie d'OpenAI pour maîtriser sa propre chaîne d'approvisionnement en silicium. L'inférence, soit le processus par lequel un modèle génère des réponses en temps réel, représente la charge computationnelle la plus coûteuse et la plus constante pour une entreprise comme OpenAI, qui sert des centaines de millions d'utilisateurs via ChatGPT et ses API. Disposer d'une puce dédiée, optimisée pour ce cas d'usage précis, pourrait réduire drastiquement les coûts opérationnels et diminuer la dépendance d'OpenAI envers Nvidia, dont les GPU dominent aujourd'hui le marché de l'IA. Cette démarche s'inscrit dans une tendance de fond : les géants du numérique cherchent tous à s'affranchir de Nvidia en développant leurs propres accélérateurs. Google a ses TPU, Amazon son Trainium, Microsoft son Maia, Apple son Neural Engine. Broadcom, qui fabrique déjà des puces personnalisées pour Google et Meta, s'affirme comme le partenaire industriel privilégié de cette nouvelle vague. Le fait qu'OpenAI rejoigne ce mouvement avec un chip nominalement dédié à l'inférence signale que la société considère désormais le contrôle du matériel comme un avantage concurrentiel structurel, et non plus une simple option.

Pourquoi l'écosystème frontier doit rester ouvert
10Latent Space 

Pourquoi l'écosystème frontier doit rester ouvert

Databricks, valorisée 175 milliards de dollars, a profité de son Data + AI Summit 2026 pour annoncer plusieurs produits majeurs, dont Omnigent, LTAP, Lakebase et Genie One. Les cofondateurs Matei Zaharia et Reynold Xin y ont exposé une thèse centrale : les modèles de langage sont en train de se banaliser, et l'avantage concurrentiel durable appartient désormais à ceux qui maîtrisent les données et l'infrastructure autour. Omnigent est le premier fruit de cette vision, un méta-orchestrateur open source qui unifie plusieurs agents IA existants (Claude Code, Codex, Cursor, Pi, agents internes d'entreprise) sous une API commune, gérant les sessions persistantes, les fichiers partagés, les appels d'outils, les contrôles de dépenses et les droits d'accès. LTAP, de son côté, propose une nouvelle architecture de base de données qui remplace la réplication par capture de changements (CDC), que Zaharia qualifie d'approche produisant de la "corruption continue de données", en unifiant la couche de stockage plutôt qu'en multipliant les moteurs de requêtes. L'enjeu est considérable pour toute l'industrie enterprise : aujourd'hui, les agents IA ne deviennent vraiment utiles que s'ils disposent du bon contexte au bon moment, historique des transactions, permissions granulaires, état opérationnel, flux métier en temps réel. Jusqu'ici, les entreprises devaient assembler un lac de données, un entrepôt, une plateforme ML et une couche de gouvernance séparés. Databricks a convaincu les grandes organisations qu'une fondation ouverte et unifiée suffisait. La prochaine étape, selon Zaharia et Xin, consiste à transformer cette fondation en système d'exploitation pour agents : une couche qui expose exactement la bonne tranche de données, d'état et de logique métier à un système IA au moment précis où il agit. Le déploiement d'Omnigent en open source vise aussi à accélérer l'adoption en évitant l'enfermement propriétaire que Databricks reproche aux harness fermés. Databricks est née au Berkeley AMPLab avec Apache Spark, avant de populariser le concept de Lakehouse, l'idée qu'un seul socle ouvert peut remplacer plusieurs couches de données disparates. Depuis son introduction en Bourse reportée et sa valorisation record, la société est sous pression pour démontrer que son pari sur l'open source et la donnée d'entreprise tient face à Snowflake et aux hyperscalers. La montée en puissance des agents autonomes lui offre une fenêtre stratégique : si la performance brute des modèles se commoditise, ce qui reste différenciant, c'est précisément ce que Databricks a construit depuis dix ans, données propriétaires gouvernées, logs transactionnels, workflows, boucles de rétroaction. Le pari de Databricks est que la prochaine vague de logiciels d'entreprise sera entièrement réécrite une fois que les agents auront accès à ces fondations de données solides, faisant de la plateforme le point de passage obligé de l'IA en production.

UELes entreprises européennes déployant des agents IA en production pourraient adopter Omnigent comme orchestrateur open source pour éviter la dépendance aux stacks propriétaires américains.

InfrastructureOpinion
1 source
Comment Shopify a construit un stack IA indifférent à la survie des modèles
11VentureBeat AI 

Comment Shopify a construit un stack IA indifférent à la survie des modèles

Shopify a développé un proxy LLM maison qui connecte l'ensemble de ses ingénieurs à plusieurs fournisseurs d'IA en parallèle, avec basculement automatique en cas de panne ou de disparition d'un modèle. Quand Claude Fable 5 a été retiré du marché, aucun ingénieur de l'entreprise n'a été interrompu dans son travail : le système les a redirigés automatiquement vers Claude Opus ou GPT 5.5. Farhan Thawar, directeur de l'ingénierie chez Shopify, a détaillé cette architecture dans le podcast VentureBeat Beyond the Pilot. L'entreprise achète des tokens en volume auprès de plusieurs fournisseurs, et tous les utilisateurs passent par ce proxy unique qui centralise les rapports d'utilisation et gère la redondance. En cas d'indisponibilité d'un fournisseur, le transfert vers un autre est décrit comme "automatique et transparent". La plateforme interne Tangle permet à chacun de visualiser les pipelines d'IA en temps réel, et un tableau de bord de consommation suit les dépenses token par utilisateur, par discipline et par type de modèle. Ce choix architectural donne à Shopify une indépendance réelle vis-à-vis des fournisseurs, là où la plupart des entreprises restent exposées aux mises à jour non concertées ou aux arrêts de modèles. La stratégie de distillation pousse l'avantage plus loin encore : un modèle "enseignant" (par exemple Opus 4.8) transfère ses capacités vers un modèle "élève" plus petit et spécialisé (par exemple Qwen 3.5) en une journée de pipeline. Le résultat est évalué automatiquement sur la vitesse, le coût et la précision pour une tâche précise. Dans certains cas, les gains atteignent un facteur 2 en coût et en latence ; dans des cas extrêmes, jusqu'à 30 fois moins cher et plus rapide. Ces modèles distillés alimentent notamment Sidekick, l'assistant IA phare de Shopify destiné aux marchands, conçu pour automatiser les tâches répétitives du quotidien. Les ingénieurs peuvent déployer directement sans processus d'approbation, ce qui accélère considérablement les cycles d'itération. La démarche s'inscrit dans un contexte où le marché des modèles évolue à une vitesse difficile à anticiper : des modèles apparaissent, sont mis à jour silencieusement ou disparaissent en quelques mois. Shopify tire les conséquences pratiques de cette instabilité en construisant une infrastructure qui ne parie pas sur un seul acteur. Thawar évoque aussi une vision plus ambitieuse : à terme, le pipeline de distillation choisirait lui-même le meilleur modèle cible en fonction des données et des évaluations fournies, sans que l'ingénieur ait à le spécifier. "Peut-être que ça donnera un modèle si petit qu'il pourrait tourner sur un téléphone", dit-il. Des garde-fous existent également côté consommation : si un modèle tourne depuis plus de dix heures en accumulant des tokens, l'utilisateur reçoit une alerte lui demandant si la dépense est intentionnelle, une manière de concilier autonomie des équipes et maîtrise des coûts.

UELes équipes d'ingénierie européennes déployant des LLMs en production peuvent s'inspirer directement de cette architecture multi-fournisseurs pour réduire leur exposition aux changements non concertés de modèles et optimiser leurs coûts par distillation.

InfrastructureOpinion
1 source
OpenAI dévoile sa première puce d'inférence IA maison, Jalapeño, développée avec Broadcom grâce à ses propres modèles
12VentureBeat AI 

OpenAI dévoile sa première puce d'inférence IA maison, Jalapeño, développée avec Broadcom grâce à ses propres modèles

OpenAI et Broadcom ont dévoilé ce matin leur premier processeur d'inférence IA sur mesure, baptisé "Jalapeño". Contrairement aux GPU grand public d'Nvidia ou AMD, ce circuit intégré à application spécifique (ASIC) est conçu exclusivement pour faire tourner des grands modèles de langage en production, notamment derrière ChatGPT, Codex et l'API OpenAI. Ce qui frappe d'emblée, c'est la vitesse de développement : de la conception initiale à la fabrication, seulement neuf mois se sont écoulés, là où un cycle habituel de développement de processeur se compte en années. Le partenariat entre OpenAI et Broadcom n'avait d'ailleurs été annoncé publiquement qu'en octobre 2025. Greg Brockman, président et cofondateur d'OpenAI, ainsi que Hock Tan, PDG de Broadcom, ont présenté la puce ce matin sur CNBC. Brockman a précisé que le processus de conception a lui-même été accéléré grâce aux propres modèles d'OpenAI, des versions antérieures au GPT-5.5. OpenAI indique avoir déjà testé GPT-5.3-Codex-Spark sur ces puces dans un environnement de production simulé, et prévoit de déployer Jalapeño dans ses centres de données actifs d'ici fin 2026. Les performances initiales sont décrites comme "remarquables", Brockman écrivant sur X que le ratio performance par watt est "incroyable". L'enjeu dépasse largement la performance technique : il s'agit de survie économique. Des documents financiers audités récemment révélés montrent qu'OpenAI a généré 13,07 milliards de dollars de revenus en 2025, mais a engagé 34 milliards de dépenses opérationnelles, accusant une perte d'exploitation de près de 20,92 milliards de dollars. La principale cause : le coût titanesque de la puissance de calcul, essentiellement louée auprès de Microsoft Azure sur des GPU Nvidia. Concevoir ses propres puces optimisées pour l'inférence LLM permettrait à OpenAI de drastiquement réduire ce coût marginal par requête et d'atteindre enfin une rentabilité opérationnelle. Broadcom apporte la conception silicium et son réseau Tomahawk, tandis que Celestica gère l'intégration au niveau carte, rack et système. Cette annonce s'inscrit dans une stratégie plus large de verticalisation de la filière IA, un mouvement déjà emprunté par Google avec ses TPU et Amazon avec ses puces Trainium et Inferentia. OpenAI, longtemps dépendant des infrastructures de ses partenaires et investisseurs, cherche à contrôler toute sa pile technologique. Fait notable : les deux entreprises positionnent explicitement Jalapeño comme une puce "construite de zéro pour les LLMs actuels et futurs de toute l'industrie", ouvrant la voie à une commercialisation auprès d'autres acteurs de l'IA. De nombreuses questions restent ouvertes, notamment les performances comparatives face aux solutions Nvidia, les coûts de fabrication et la viabilité à grande échelle. Mais si le pari réussit, OpenAI ne sera plus seulement un éditeur de modèles : il deviendra un fournisseur d'infrastructure à part entière.

UEUne réduction future des coûts d'inférence pourrait bénéficier indirectement aux entreprises et développeurs européens utilisant l'API OpenAI, sans impact réglementaire ou industriel direct sur la France/UE.

💬 Quand tu perds 21 milliards par an, tu te construis tes propres puces. Ce que Jalapeño change vraiment, c'est pas la performance par watt, c'est qu'OpenAI sort enfin d'une dépendance à Nvidia qui les saignait à blanc requête après requête. Neuf mois de conception accélérée par leurs propres modèles, c'est la vraie rupture.

NVIDIA et AWS s'associent pour déployer l'IA en production à grande échelle
13NVIDIA AI Blog 

NVIDIA et AWS s'associent pour déployer l'IA en production à grande échelle

NVIDIA et Amazon Web Services (AWS) ont annoncé un approfondissement de leur collaboration pour faciliter le déploiement de l'intelligence artificielle à grande échelle en production. Les nouvelles instances Amazon EC2 G7, équipées des GPU NVIDIA RTX PRO 4500 Blackwell Server Edition, offrent jusqu'à 4,6 fois les performances d'inférence IA et 2,1 fois les performances graphiques par rapport aux instances G6 précédentes. Ces instances supportent jusqu'à huit GPU, 256 Go de mémoire GPU totale, 700 Gbps de réseau EFA et jusqu'à 7,6 To de stockage NVMe local, dans des configurations allant d'un à huit GPU. Parallèlement, la bibliothèque NVIDIA cuVS devient le moteur par défaut de l'indexation vectorielle dans Amazon OpenSearch Serverless, avec des performances jusqu'à dix fois supérieures à un coût quatre fois inférieur aux solutions CPU seules. AWS a par ailleurs obtenu le statut NVIDIA Exemplar Cloud sur les GPU GB300, certification attestant que la plateforme répond aux seuils de performance de référence de NVIDIA pour les charges d'entraînement. Ces avancées changent concrètement la donne pour les équipes qui construisent des systèmes d'IA en production. L'intégration de cuVS comme choix par défaut dans OpenSearch Serverless transforme la recherche vectorielle accélérée par GPU d'un projet d'optimisation spécialisé en une capacité AWS standard. Cela signifie que des bases de données vectorielles à l'échelle du milliard d'entrées deviennent réalisables en moins d'une heure, ce qui rend les applications de type RAG (retrieval-augmented generation), recherche sémantique ou IA agentique accessibles à un bien plus grand nombre d'entreprises. Pour les équipes médias et data, les instances G7 permettent également de traiter des workflows vidéo haute résolution, du rendu 3D et des pipelines analytiques sur le même type d'instance, réduisant la complexité opérationnelle. Cette collaboration s'inscrit dans une course entre les grands fournisseurs cloud à offrir la meilleure infrastructure IA clé en main. NVIDIA cherche à s'imposer comme couche matérielle incontournable, aussi bien pour l'entraînement que pour l'inférence et la recherche vectorielle, tandis qu'AWS veut simplifier le passage de l'expérimentation à la production. Le statut Exemplar Cloud sur les GB300, fruit d'un co-engineering approfondi entre les deux entreprises, positionne AWS comme plateforme de référence pour les charges d'entraînement les plus exigeantes. Les instances G7 seront prochainement disponibles sur Amazon SageMaker AI, ce qui étendra encore leur portée. L'enjeu sous-jacent est de réduire la friction entre infrastructure et application pour les entreprises qui n'ont pas les ressources pour gérer leurs propres clusters GPU.

UELes entreprises européennes utilisant AWS pourront bénéficier de performances IA nettement améliorées pour l'inférence et la recherche vectorielle, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

InfrastructureOpinion
1 source
Une startup américaine de puces présidée par l'ex-PDG d'Intel lève 350 millions de dollars
14The Information AI 

Une startup américaine de puces présidée par l'ex-PDG d'Intel lève 350 millions de dollars

XLight, une startup américaine spécialisée dans le développement de lasers avancés pour la fabrication de semi-conducteurs, est en négociation pour lever 350 millions de dollars auprès de deux fonds d'investissement. Cette levée de fonds intervient quelques semaines seulement après que la société a reçu un investissement significatif du Département du Commerce des États-Unis. La startup est présidée par l'ancien PDG d'Intel, ce qui lui confère une crédibilité industrielle notable dans un secteur ultra-compétitif. L'enjeu central est de réduire le coût et le délai de fabrication des puces IA de dernière génération en proposant une alternative à la lithographie par ultraviolets extrêmes (EUV), la technologie actuellement dominante. XLight cible directement ASML, le fabricant néerlandais dont les machines EUV sont indispensables à la production des composants utilisés par Nvidia et les autres grands concepteurs de puces. Si la startup réussit à vendre sa technologie laser à ASML, elle pourrait peser sur toute la chaîne d'approvisionnement mondiale des semi-conducteurs avancés. Cette initiative s'inscrit dans un contexte de forte tension géopolitique autour des semi-conducteurs, avec les États-Unis qui cherchent à consolider leur souveraineté technologique face à la Chine. Le soutien fédéral via le Département du Commerce traduit une volonté politique de financer des alternatives domestiques aux technologies critiques. Pour l'industrie, XLight représente l'un des rares paris sur une rupture technologique dans la lithographie, un domaine où ASML détient un quasi-monopole mondial depuis des décennies.

UEASML, fabricant néerlandais et acteur européen stratégique détenant un quasi-monopole mondial sur les machines EUV, est directement ciblé par XLight comme client potentiel, ce qui pourrait menacer sa position dominante et affecter la chaîne d'approvisionnement européenne en semi-conducteurs avancés.

InfrastructureActu
1 source
Claude en panne : Anthropic reconnaît un incident, mais que s’est-il passé ?
15Le Big Data 

Claude en panne : Anthropic reconnaît un incident, mais que s’est-il passé ?

Le mardi 23 juin 2026, les utilisateurs de Claude ont subi une panne significative touchant plusieurs modèles de l'assistant d'Anthropic. L'incident a débuté à 14h19 UTC (16h19 heure de Paris) et s'est manifesté par des conversations interrompues, des réponses incomplètes et des messages d'erreur bloquant l'accès au chatbot. En quelques dizaines de minutes, plusieurs milliers de signalements ont afflué sur DownDetector, tandis que les réseaux sociaux s'enflammaient entre frustration et réactions humoristiques. Anthropic a rapidement reconnu le problème, indiquant qu'un taux d'erreur élevé affectait plusieurs de ses modèles. Une trentaine de minutes après les premières alertes, l'entreprise annonçait avoir identifié l'origine de l'incident et commencé le déploiement d'un correctif. Peu après, elle confirmait la résolution et le retour progressif à la normale. Cette panne illustre la fragilité des infrastructures sur lesquelles reposent aujourd'hui des millions d'utilisateurs professionnels et grand public. Claude est utilisé massivement en entreprise pour la rédaction, l'analyse de données, le développement logiciel et bien d'autres tâches critiques. Une interruption, même brève, peut bloquer des workflows entiers, retarder des livrables et exposer les organisations à des pertes de productivité réelles. Le fait que l'incident ait suscité autant de réactions en si peu de temps révèle à quel point ces outils sont devenus des dépendances structurelles dans le quotidien professionnel, et non de simples gadgets optionnels. Anthropic reste cependant très discret sur les causes techniques exactes : pas de mention d'un problème d'infrastructure, d'une mise à jour défectueuse ou d'un incident interne précis. Cette prudence communicationnelle est courante dans le secteur, les entreprises attendant généralement la fin de l'analyse complète avant de publier un post-mortem détaillé. Il s'agit par ailleurs d'une nouvelle panne pour Claude, dans un contexte où la fiabilité des IA génératives est un enjeu concurrentiel croissant face à OpenAI, Google et d'autres acteurs. À mesure que ces services s'imposent comme infrastructure critique, les exigences de disponibilité se rapprochent de celles du cloud traditionnel, avec une pression forte sur les fournisseurs pour publier des SLA (accords de niveau de service) clairs et des analyses d'incidents transparentes. Anthropic devra vraisemblablement renforcer sa communication technique si ce type d'incident venait à se reproduire.

UELes utilisateurs professionnels européens, dont les Français, ont subi une interruption de leurs workflows dépendant de Claude, révélant le besoin de SLA transparents de la part des fournisseurs d'IA opérant sur le marché européen.

Une IA refroidie sans eau ? La promesse spectaculaire de Nvidia
16Le Big Data 

Une IA refroidie sans eau ? La promesse spectaculaire de Nvidia

Nvidia a annoncé le 22 juin 2026 un nouveau système de refroidissement pour centres de données IA capable de réduire jusqu'à 100 % la consommation d'eau locale. Le principe repose sur un circuit fermé qui recycle un liquide composé de 75 % d'eau et de 25 % de propylène glycol, un composé chimiquement proche de l'antigel automobile. Ce liquide reste efficace jusqu'à 46 °C, ce qui suffit à maintenir les puces à température sans recourir aux tours de refroidissement évaporatives traditionnelles, grandes consommatrices d'eau potable. Selon Nvidia, une infrastructure IA entièrement refroidie par liquide peut aussi réduire considérablement l'énergie dédiée au refroidissement, en supprimant une grande partie des systèmes de ventilation. L'enjeu va bien au-delà de la technique. L'eau est devenue un sujet politique et économique dans de nombreuses régions américaines où s'implantent massivement les centres de données IA. Un sondage du Pew Research Center révèle que les Américains informés sur ces infrastructures les jugent globalement néfastes pour l'environnement, s'inquiètent de l'impact sur les prix de l'énergie et sur la qualité de vie des riverains. En réduisant la pression hydrique locale, Nvidia offre aux opérateurs un argument face aux élus et aux communautés locales. Sur le plan économique, un refroidissement moins coûteux pourrait à terme alléger les frais d'exploitation des grands acteurs de l'IA, et potentiellement réduire le coût de certains services. Cette annonce s'inscrit dans une course plus large à la durabilité que se livrent les géants de la tech. Google et Microsoft ont déjà affiché des engagements similaires sur la consommation d'eau, tandis que Microsoft vient précisément d'être associé à un projet de centre de données alimenté au gaz naturel au Texas, illustration des contradictions du secteur. Nvidia arrive donc avec un argument de relations publiques aussi bien que commercial. Mais la promesse comporte des limites que l'entreprise elle-même reconnaît : l'efficacité du système dépend fortement du climat local. Dans des régions comme l'Arizona ou le Nevada, où les températures peuvent frôler 46 °C, des ressources de refroidissement complémentaires restent nécessaires, et la promesse du "zéro eau" ne tient plus totalement. Plus loin encore, certains ingénieurs et investisseurs explorent déjà des centres de données orbitaux, chez SpaceX ou Google, où la chaleur serait évacuée directement dans le vide spatial. Une piste encore spéculative, mais qui illustre à quel point la thermique des infrastructures IA est devenue un défi civilisationnel autant que technologique.

UELes centres de données européens, soumis aux exigences du Green Deal et aux réglementations croissantes sur l'efficacité hydrique, pourraient intégrer cette technologie pour satisfaire les normes environnementales imposées par la Commission européenne.

💬 Le "100% sans eau" de Nvidia lâche exactement à 46 °C, c'est-à-dire pile là où les futurs data centers américains veulent s'installer. J'y lis surtout un argument politique avant un argument technique : ça permet de répondre aux élus et aux communautés locales qui bloquent des projets depuis des mois. Bonne avancée, mais c'est pas encore le ticket universel qu'ils vendent.

Micron et Anthropic s’allient pour renforcer l’infrastructure IA de nouvelle génération
17Le Big Data 

Micron et Anthropic s’allient pour renforcer l’infrastructure IA de nouvelle génération

Micron Technology et Anthropic ont annoncé le 22 juin 2026 un accord stratégique multidimensionnel qui couvre quatre axes : la co-conception d'architectures de mémoire et de stockage optimisées pour l'IA, un contrat d'approvisionnement à long terme portant sur l'ensemble du portefeuille de solutions pour centres de données de Micron, le déploiement interne de Claude dans les équipes de Micron, et une participation financière du fabricant de semi-conducteurs au tour de financement Série H d'Anthropic. Les deux entreprises travailleront conjointement sur les technologies de mémoire HBM (High Bandwidth Memory), les modules DRAM haute performance et les SSD destinés aux data centers, ces composants étant au cœur des infrastructures utilisées pour entraîner et faire tourner les modèles Claude. Tom Brown, cofondateur d'Anthropic et responsable des ressources de calcul, a souligné que la mémoire et le stockage jouent désormais un rôle central dans l'efficacité des systèmes d'entraînement et d'inférence de l'entreprise. L'accord illustre un changement de paradigme dans l'industrie de l'IA : les performances d'un modèle dépendent autant de l'infrastructure matérielle sous-jacente que des avancées algorithmiques. Si les GPU concentrent souvent l'attention, la capacité à les alimenter en données à très haute vitesse est devenue un facteur déterminant pour les coûts, les performances et la consommation énergétique des infrastructures à grande échelle. En optimisant directement les sous-systèmes mémoire utilisés par Anthropic, les deux partenaires cherchent à réduire le coût unitaire de chaque requête traitée par Claude, un levier concurrentiel décisif à mesure que le marché de l'IA générative se masse-marketise. L'accord d'approvisionnement sécurise par ailleurs la croissance d'Anthropic sur plusieurs années, limitant les risques de pénurie de composants critiques dans un marché en tension. Ce partenariat s'inscrit dans une stratégie plus large d'Anthropic visant à consolider ses fondations matérielles face à l'accélération de la demande autour de Claude. Reuters relevait récemment qu'Anthropic a multiplié les accords destinés à renforcer ses capacités de calcul, au moment même où le laboratoire enchaîne les levées de fonds record pour rivaliser avec OpenAI et Google DeepMind. Pour Micron, l'opération représente une opportunité de positionner ses technologies HBM comme composants de référence dans les futures générations d'infrastructure IA, un marché en croissance explosive. La collaboration technique directe avec un laboratoire de premier plan lui permet d'anticiper les besoins des prochains modèles et d'adapter son offre bien en amont, transformant un client potentiel en co-développeur.

InfrastructureOpinion
1 source
Prime Intellect publie prime-rl 0.6.0 pour entraîner des modèles MoE à mille milliards de paramètres sur des tâches RL à base d'agents
18MarkTechPost 

Prime Intellect publie prime-rl 0.6.0 pour entraîner des modèles MoE à mille milliards de paramètres sur des tâches RL à base d'agents

Prime Intellect a publié la version 0.6.0 de son framework open source prime-rl, conçu pour entraîner des modèles de langage de très grande taille via du reinforcement learning asynchrone. Cette mise à jour majeure cible spécifiquement les modèles Mixture-of-Experts (MoE) à l'échelle du trillion de paramètres, avec un focus sur des tâches dites "agentiques" longues et complexes, comme la résolution autonome de bugs logiciels. Pour illustrer les capacités du framework, l'équipe a entraîné GLM-5, le modèle de l'organisation zai-org, sur des tâches d'ingénierie logicielle (SWE) avec des séquences allant jusqu'à 131 000 tokens. Résultat : des temps d'étape inférieurs à cinq minutes, des batchs de 256 rollouts, le tout sur seulement 28 noeuds H200, une efficacité matérielle remarquable pour cette classe de modèles. Le framework est également compatible avec d'autres modèles MoE massifs comme Kimi-K2.7-Code de Moonshot AI ou le Nemotron-3-Ultra-550B de NVIDIA. Ce type d'infrastructure répond à un problème concret du reinforcement learning à grande échelle : les tâches agentiques génèrent des "outliers" temporels, certains rollouts de code pouvant s'étirer sur plusieurs heures. Dans un système synchrone classique, les GPU restent à l'arrêt en attendant la fin de ces longues exécutions avant chaque mise à jour de politique. prime-rl résout ce goulot d'étranglement en découplant complètement le moteur d'inférence du moteur d'entraînement : les deux fonctionnent et scalent indépendamment, avec un unique point de synchronisation au moment de la mise à jour des poids. Côté inférence, le système combine calcul en FP8 avec les kernels DeepEP et DeepGEMM, un "Wide Expert Parallelism" répartissant les experts sur 32 GPU ou plus, une séparation des workers de prefill et de decode, et un système de gestion hiérarchique du cache KV avec offloading vers CPU ou disque. Le mécanisme "Router Replay" (R3) est particulièrement notable : il rejoue les décisions de routage de l'inférence directement sur le trainer, réduisant le décalage KL d'un ordre de grandeur. Cette publication s'inscrit dans une course à la scalabilité du post-training par RL, accélérée par le succès des modèles de raisonnement comme DeepSeek-R1 ou les modèles de la série o1 d'OpenAI. L'approche MoE est devenue centrale pour atteindre des capacités de niveau "trillion de paramètres" sans exploser les coûts de calcul à l'inférence, mais elle impose des contraintes d'orchestration redoutables, notamment la coordination des experts entre des dizaines de GPU. Prime Intellect, qui se positionne sur l'entraînement distribué open source, mise sur prime-rl pour démocratiser l'accès à ces techniques jusqu'ici réservées aux grands laboratoires disposant de clusters propriétaires. La compatibilité avec Slurm et des routeurs comme NVIDIA Dynamo suggère une orientation claire vers des déploiements en production à l'échelle industrielle.

UELes laboratoires et startups européens travaillant sur le post-training par RL peuvent bénéficier de cet outil open source pour entraîner des modèles MoE à très grande échelle sans dépendre de clusters propriétaires.

💬 Le vrai problème du RL agentique, c'est pas la puissance brute, c'est les rollouts qui s'étirent sur des heures et laissent les GPU à l'arrêt. prime-rl règle ça en découplant complètement inférence et entraînement, avec un seul point de synchro, et leur mécanisme R3 réduit le décalage KL d'un ordre de grandeur. Un labo européen sans cluster propriétaire a désormais un chemin crédible vers le post-training RL à l'échelle trillion.

InfrastructureOpinion
1 source
Un POC tolère un pipeline de données fragile, l'IA en production non
19VentureBeat AI 

Un POC tolère un pipeline de données fragile, l'IA en production non

Lorsqu'une entreprise fait passer un projet d'IA d'une phase pilote à un déploiement en production, c'est souvent l'infrastructure réseau qui craque en premier. Les architectures point à point, dans lesquelles un client S3 se connecte directement au stockage S3, tiennent la route dans des conditions de démonstration contrôlées, mais s'effondrent dès que le trafic devient soutenu et concurrent. Paul Pindell, architecte solutions principal chez F5, l'explique sans détour : si un seul nœud de stockage tombe, l'ensemble du trafic vers le cluster se dégrade, et dans certains cas le cluster entier peut cesser de fonctionner. Les effets en cascade sont immédiats : les pipelines d'inférence se bloquent, les systèmes de RAG (récupération augmentée de génération) perdent l'accès à des données actualisées, et les GPU restent inutilisés pendant que les délais s'accumulent. Ces pannes ont un coût business concret. Quand un pipeline d'inférence se fige, c'est un engagement de niveau de service qui est violé et une expérience client qui se dégrade. Quand un système RAG ne reçoit plus ses données à temps, le modèle génère des réponses imprécises, obsolètes ou hallucinées, exposant l'entreprise à des risques opérationnels, réglementaires et réputationnels. Parallèlement, les GPU sous-utilisés font grimper les coûts d'infrastructure sans produire de valeur. Tanu Mutreja, directrice senior produit chez F5, résume l'enjeu pour les dirigeants : la vraie question n'est pas de savoir si l'on a des GPU suffisants, mais si l'infrastructure bout-en-bout est capable de délivrer des expériences IA fiables, sécurisées et gouvernées à des coûts unitaires viables. Face à ce problème, F5 défend l'idée que la livraison des données doit devenir une couche d'infrastructure à part entière, au même titre que la livraison d'applications l'a été pour les requêtes web. Cette couche repose sur trois propriétés : l'observabilité en temps réel des latences, débits et états des flux ; la programmabilité, qui permet de piloter dynamiquement le routage, d'optimiser le trafic et d'automatiser le basculement en cas de défaillance ; et une conception résiliente aux pannes, pensée dès le départ pour l'environnement de production plutôt qu'adaptée après coup. Hunter Smit, responsable marketing produit chez F5, souligne que les organisations qui réussissent à opérationnaliser l'IA sont celles qui construisent leur infrastructure pour absorber les défaillances réelles, et non les conditions idéales d'un pilote. Avec la montée en puissance des architectures agentiques et des systèmes RAG à grande échelle, ce débat sur le chemin des données entre stockage et calcul est appelé à s'intensifier.

InfrastructureActu
1 source
SpaceX est déjà un fournisseur cloud de 28 milliards de dollars par an
20Latent Space 

SpaceX est déjà un fournisseur cloud de 28 milliards de dollars par an

SpaceX vient de signer un troisième contrat de location de GPU, cette fois avec la startup Reflection AI, s'ajoutant aux accords déjà connus avec Anthropic et Google. L'analyste Jamin Ball a compilé les chiffres : les trois contrats totalisent 2,32 milliards de dollars par mois, à plus de 10 dollars de l'heure pour des GPU Blackwell de Nvidia. Annualisé, ce montant atteint 28 milliards de dollars par an, soit environ le double du revenu actuel de Coreweave, le spécialiste du cloud GPU introduit en bourse il y a un an pour une valorisation de 60 milliards. Baseten, de son côté, a officialisé une levée de fonds de 13 milliards de dollars en Série F, confirmant l'appétit massif des investisseurs pour l'infrastructure d'IA. L'émergence de SpaceX comme fournisseur cloud de premier plan redistribue les cartes dans un marché jusqu'ici dominé par AWS, Azure et Google Cloud. Le fait qu'Anthropic et Google, concurrents directs sur le terrain des modèles, louent simultanément de la capacité chez SpaceX révèle une pénurie structurelle de GPU Blackwell que les hyperscalers peinent à absorber seuls. Pour les startups d'IA, cette nouvelle offre réduit la dépendance à un fournisseur unique et pourrait, à terme, peser sur les tarifs. Le tarif actuel, supérieur à 10 dollars de l'heure, reste néanmoins très élevé, signe que la demande dépasse largement l'offre disponible sur le marché. Cette percée de SpaceX s'inscrit dans un moment de transformation accélérée de l'ensemble de l'écosystème. OpenAI a étendu son programme Daybreak avec le lancement de GPT-5.5-Cyber, un modèle dédié à la cybersécurité déjà revendiqué comme état de l'art sur le benchmark CyberGym, accompagné d'un plugin Codex Security couvrant plus de 30 millions de commits et 30 000 dépôts, avec pour ambition de passer de la simple détection de vulnérabilités à leur correction automatisée en boucle fermée. Sakana AI a de son côté lancé Fugu, une couche d'orchestration qui sélectionne et combine dynamiquement plusieurs modèles frontier via une API unique, rapidement intégrée par Vercel dans son AI Gateway. Les benchmarks présentés ont toutefois suscité une vive controverse, des observateurs pointant des baselines opaques, l'absence de comptabilisation des coûts et un retard d'environ dix points sur Opus dans SWE-Bench Pro. La question de qui manque encore à la liste des clients de SpaceX, notamment Meta ou Microsoft, reste posée et pourrait bien définir la prochaine vague de contrats.

UELa pénurie structurelle de GPU Blackwell et les tarifs supérieurs à 10 $/heure affectent indirectement les startups européennes d'IA qui dépendent de ces ressources de calcul, sans qu'aucun acteur ou régulation européen ne soit directement impliqué.

💬 Quand Anthropic et Google louent des GPU au même fournisseur en même temps, c'est pas un choix stratégique, c'est une pénurie. SpaceX ramasse 28 milliards annualisés sans avoir sorti un seul modèle, juste en achetant des Blackwell au bon moment pendant que les hyperscalers étaient à court, et ça dit quelque chose de net sur qui a compris que le calcul allait devenir la vraie contrainte. Meta et Microsoft sont absents de la liste.

InfrastructureOpinion
1 source
Ampersend crée un modèle de paiement à l'usage pour agents IA avec Amazon Bedrock AgentCore Payments
21AWS ML Blog 

Ampersend crée un modèle de paiement à l'usage pour agents IA avec Amazon Bedrock AgentCore Payments

Ampersend, une plateforme de gestion des paiements pour agents IA développée par Edge & Node, a annoncé la mise en production d'une couche de routage pay-per-intelligence construite sur Amazon Bedrock AgentCore Payments. Le système permet à des agents autonomes de sélectionner dynamiquement un modèle de langage adapté à leur tâche, résumé de document, audit de smart contract, analyse de données on-chain, puis de régler la prestation par requête, sans intervention humaine, en s'appuyant sur le protocole ouvert x402. L'infrastructure repose sur un mécanisme en deux sauts : l'agent appelle Ampersend, qui règle ensuite le fournisseur de modèle en aval via son propre SDK. Le tout se pilote depuis un point d'intégration unique, sans abonnement distinct par fournisseur. Jusqu'ici, connecter un agent IA à des services payants réclamait des mois de travail préalable : gestion de portefeuilles cryptographiques, signature des paiements, respect des limites de dépenses, intégration avec la facturation de chaque fournisseur. Ce fardeau infrastructure freinait considérablement le déploiement d'agents en production. AgentCore Payments supprime ce prérequis en offrant une couche de gouvernance clé en main : un Payment Manager définit les règles de dépense et les connexions aux portefeuilles, tandis qu'une Payment Session ouvre un contexte d'exécution borné avant chaque run d'agent. Résultat concret pour les développeurs : ils écrivent la logique métier de l'agent sans s'occuper de la plomberie financière. Pour des plateformes comme Ampersend, c'est la possibilité d'agréger des dizaines de fournisseurs de modèles derrière une interface de paiement unique, sécurisée et auditée nativement. Ce lancement s'inscrit dans une tendance plus large : l'émergence d'une économie machine-to-machine où les agents IA deviennent des acteurs économiques à part entière, capables de consommer des APIs payantes de façon autonome. Le protocole x402, sur lequel repose l'architecture, est conçu pour des transactions programmatiques instantanées, à l'image de ce qu'HTTP fait pour les échanges de données. Amazon, avec Bedrock AgentCore, consolide sa position d'infrastructure sous-jacente pour les stacks agentiques d'entreprise, aux côtés de ses outils d'orchestration existants. Ampersend, de son côté, parie que la fragmentation du marché des modèles, OpenAI, Anthropic, modèles open source, spécialistes verticaux, rendra indispensable ce type de couche d'abstraction de paiement. Les prochaines étapes probables incluent l'extension du catalogue de modèles, des politiques de dépense plus granulaires, et l'intégration avec d'autres protocoles de paiement agentic émergents.

InfrastructureActu
1 source
Apple Private Cloud Compute : la révolution invisible qui verrouille la sécurité de l’IA
22Le Big Data 

Apple Private Cloud Compute : la révolution invisible qui verrouille la sécurité de l’IA

Apple a déployé une infrastructure cloud radicalement différente des modèles existants pour alimenter Apple Intelligence, son système d'intelligence artificielle lancé en 2024. Baptisée Private Cloud Compute (PCC), cette architecture mobilise des serveurs distants dédiés aux modèles d'IA trop lourds pour être exécutés localement sur les puces A17 Pro, A18 ou M des appareils Apple. Ces serveurs fonctionnent selon cinq principes stricts : traitement sans état (les données sont effacées de la RAM sitôt la requête traitée, sans jamais toucher un disque), verrouillage cryptographique du micrologiciel, absence totale d'accès privilégié pour les ingénieurs Apple eux-mêmes, impossibilité technique de cibler un utilisateur précis, et vérifiabilité publique de l'architecture. Apple a également ouvert récemment cette infrastructure à des développeurs tiers, leur permettant d'y déployer leurs propres modèles dans ce cadre sécurisé. L'enjeu est direct pour des centaines de millions d'utilisateurs d'iPhone, d'iPad et de Mac : les agents autonomes capables d'enchaîner des tâches complexes nécessitent des modèles dont la taille dépasse la RAM disponible sur n'importe quel smartphone, et une exécution locale viderait la batterie en quelques minutes. Sans PCC, Apple devrait choisir entre brider ces fonctionnalités ou envoyer les données des utilisateurs vers un cloud opaque, comme le font Google, Microsoft ou OpenAI. Le PCC résout cette tension en offrant une garantie mathématique et matérielle : même Apple ne peut pas lire les requêtes traitées par ses propres serveurs. Pour l'industrie, c'est un modèle alternatif crédible à l'hyperscaler classique, et une réponse concrète aux régulateurs européens qui scrutent le traitement des données personnelles dans l'IA. Ce projet s'inscrit dans la stratégie de différenciation longue d'Apple, qui a fait de la vie privée un argument commercial central depuis plusieurs années face à Google et Meta. La montée en puissance des agents IA, qui accèdent à des emails, calendriers, messages et fichiers personnels, rendait cette infrastructure indispensable : confier ces données à un serveur standard aurait représenté un risque réputationnel et réglementaire majeur. L'ouverture récente à des tiers marque une nouvelle étape, Apple cherchant à faire du PCC une plateforme en concurrence directe avec les offres de confidential computing de Google (Confidential VMs) et Microsoft (Azure Confidential Computing). La prochaine question est de savoir si les entreprises et les régulateurs accepteront ces garanties comme suffisantes, ou exigeront des audits indépendants plus poussés du code et des matériels Apple.

UELe modèle PCC d'Apple, avec ses garanties cryptographiques sur le traitement des données, pourrait constituer une réponse concrète aux exigences du RGPD et faciliter l'adoption d'Apple Intelligence par les entreprises et administrations européennes soumises aux règles strictes de protection des données personnelles.

InfrastructureOpinion
1 source
Anthropic et Micron veulent co-concevoir l'architecture mémoire pour l'IA
23The Decoder 

Anthropic et Micron veulent co-concevoir l'architecture mémoire pour l'IA

Micron Technology rejoint le tour de table Series H d'Anthropic en tant qu'investisseur stratégique, et signe dans la foulée un accord pluriannuel pour fournir des composants mémoire destinés à l'infrastructure qui fait tourner Claude. L'opération témoigne d'une intégration croissante entre fabricants de puces et laboratoires d'IA : plutôt qu'une simple relation client-fournisseur, les deux entreprises entendent co-concevoir l'architecture mémoire adaptée aux exigences spécifiques de l'entraînement et de l'inférence des grands modèles de langage. Tom Brown, co-fondateur d'Anthropic, souligne que la mémoire constitue un élément critique aussi bien pour entraîner Claude que pour le faire fonctionner à l'échelle. Ce partenariat garantit à Anthropic un approvisionnement prioritaire et une feuille de route matérielle alignée sur ses besoins, au moment où la compétition pour les ressources de calcul s'intensifie entre OpenAI, Google DeepMind et Meta. Pour Micron, c'est l'occasion de s'imposer comme fournisseur incontournable dans la chaîne d'approvisionnement de l'IA générative, un marché en croissance rapide dominé jusqu'ici par SK Hynix et Samsung. Ce type d'accord croisé, où un fournisseur investit dans son propre client, suscite des critiques de la part d'analystes qui voient dans ces montages financiers un mécanisme d'inflation artificielle des valorisations dans le secteur. L'action Micron a bondi de plus de dix fois en l'espace d'un an, portée par l'engouement pour l'IA. La question de savoir si ces partenariats traduisent une création de valeur réelle ou alimentent une bulle spéculative reste ouverte, alors que les investissements dans l'infrastructure IA continuent d'atteindre des sommets historiques.

InfrastructureOpinion
1 source
Objectifs climatiques ou IA ? Pour le lobby des data centers, l’Europe doit choisir
24Next INpact 

Objectifs climatiques ou IA ? Pour le lobby des data centers, l’Europe doit choisir

Lex Coors, président de l'association européenne des centres de données (European Data Centres Association), a formulé un ultimatum brutal devant Politico : l'Union européenne doit choisir entre ses objectifs climatiques et la course à l'intelligence artificielle. Sa sortie intervient dans le cadre du plan d'action continental de la Commission européenne, qui ambitionne de tripler les capacités des data centers d'ici 2032. Or selon Coors, dont le lobby représente également des géants américains comme Microsoft, Google et Amazon, cette montée en puissance est irréalisable en ne s'appuyant que sur l'énergie nucléaire et renouvelable, trop lentes à déployer selon lui. Il appelle donc à « ouvrir la conversation » sur le recours aux énergies fossiles, des sources auxquelles les majors de la tech font déjà largement appel aux États-Unis. L'enjeu est considérable. Les émissions de CO₂ des centres de données français s'envolent déjà, et l'intégration massive de nouvelles infrastructures fait peser une pression inédite sur les réseaux électriques européens, même en France, productrice nette d'électricité, le réseau peine à absorber les pics de consommation liés aux nouveaux datacenters. Céder aux demandes du lobby reviendrait à renoncer formellement aux engagements climatiques européens, au moment même où une vague de canicule historique frappe le continent. Le commissaire européen à l'Énergie, Dan Jørgensen, tient pourtant un discours opposé : les data centers restent les bienvenus, à condition de financer le déploiement d'énergies renouvelables et de valoriser leur chaleur résiduelle. Cette tension s'inscrit dans un contexte de pression croissante sur la souveraineté numérique européenne. Mi-juin, le think tank bruxellois Europe 2031 publiait une « expérience de pensée » avertissant que l'UE serait marginalisée économiquement si elle ne rejoignait pas la course à l'IA selon les modalités américaines ou chinoises. Le lendemain, Donald Trump contraignait Anthropic à couper l'accès de ses modèles Fable 5 et Mythos 5 aux pays étrangers, illustration concrète des risques de dépendance technologique. Le think tank Shift Project alertait dès octobre 2025 sur ce même dilemme : une politique IA menée sans discernement pourrait rendre les objectifs climatiques européens inaccessibles. La position de Coors radicalise ce débat en le posant comme un choix binaire, une rhétorique que scientifiques et organisations climatiques contestent vivement, rappelant que les énergies fossiles alimentent précisément la vulnérabilité climatique et énergétique que l'Europe cherche à réduire.

UELa Commission européenne est directement mise sous pression pour choisir entre ses engagements climatiques et le triplement des capacités de data centers d'ici 2032, un arbitrage qui conditionne la politique énergétique française et la souveraineté numérique européenne.

💬 Le lobby présente ça comme un choix binaire, mais c'est une posture de négociation classique : agiter le spectre du retard IA pour forcer une concession sur les fossiles. Microsoft, Google et Amazon ont déjà gagné ce round aux États-Unis, ils testent maintenant la même rhétorique ici. Céder, c'est valider le modèle "croissance d'abord, climat ensuite" pour les vingt prochaines années.

InfrastructureReglementation
1 source
Southwest Airlines confie à AWS sa modernisation cloud et IA
25Le Big Data 

Southwest Airlines confie à AWS sa modernisation cloud et IA

Southwest Airlines a annoncé le 17 juin 2026 un partenariat stratégique majeur avec Amazon Web Services pour migrer l'intégralité de son infrastructure informatique vers le cloud d'ici 2028. La compagnie américaine, qui transporte 134 millions de passagers par an, confie à AWS le rôle de fournisseur cloud privilégié pour l'ensemble de ses systèmes : réservation de billets, gestion des opérations aériennes, support interne et services clients. Dans ce cadre, plus de 2 700 développeurs de Southwest utilisent déjà Kiro, l'outil de développement agentique d'AWS, notamment pour moderniser Southwest.com, la plateforme centrale de la compagnie historiquement bâtie sur des infrastructures locales. Certaines opérations qui demandaient plusieurs heures s'effectuent désormais en quelques minutes. L'enjeu est considérable pour une industrie où la moindre défaillance informatique provoque des cascades d'annulations et des pertes opérationnelles massives, Southwest en a fait la douloureuse expérience lors de la crise de décembre 2022. La bascule vers AWS vise d'abord à gagner en résilience et en agilité face aux variations de trafic, mais aussi à réduire la dépendance à des infrastructures dispersées et coûteuses à maintenir. L'intégration progressive d'agents autonomes d'IA dans les processus internes doit en outre transformer la façon dont les logiciels sont conçus et déployés, tout en laissant aux équipes humaines la responsabilité finale des décisions. Pour les 134 millions de passagers annuels, cela se traduira à terme par des expériences numériques plus fluides et des services plus fiables. Ce partenariat s'inscrit dans une tendance lourde du secteur aérien : les grandes compagnies considèrent désormais le cloud comme le socle incontournable de leurs stratégies IA à long terme, et non comme une simple optimisation technique. Southwest sort d'une période difficile, restructurations, pression des actionnaires activistes et refonte de son modèle commercial, et mise sur cette transformation digitale pour regagner en compétitivité. AWS, de son côté, consolide sa position face à Microsoft Azure et Google Cloud dans la conquête des grands comptes industriels. La date butoir de 2028 laisse entrevoir un chantier de plusieurs années impliquant la migration progressive de centaines d'applications, avec tous les risques d'interruption que cela suppose. La réussite de ce programme sera scrutée de près, tant par les concurrents de Southwest que par les autres compagnies aériennes mondiales qui observent ce type de transformation cloud à grande échelle.

💬 Le crash de décembre 2022 a coûté plus d'un milliard à Southwest, et c'est ça le vrai moteur ici, pas une ambition IA en mode vitrine. Ce qui change, c'est que les grandes compagnies aériennes posent désormais le cloud comme prérequis à toute stratégie IA opérationnelle, pas comme une ligne budgétaire d'optimisation. 2 700 devs sur Kiro pour moderniser un SI vieux de 30 ans d'ici 2028, reste à voir si la date tient.

InfrastructureActu
1 source
À l'ISC, JUPITER démontre les capacités de la science à l'échelle exascale
26NVIDIA AI Blog 

À l'ISC, JUPITER démontre les capacités de la science à l'échelle exascale

JUPITER, le premier supercalculateur européen à atteindre l'échelle exaflop, installé au Forschungszentrum Jülich en Allemagne, affiche une première année de résultats scientifiques majeurs. Présentés cette semaine à la conférence ISC à Hambourg, quatre projets conduits sur cette machine illustrent concrètement ce que permet le calcul à l'échelle exascale : cartographier le cerveau humain cellule par cellule, simuler le climat terrestre à une résolution d'un kilomètre, développer des systèmes d'IA pour les réseaux sans fil de prochaine génération, et émuler un ordinateur quantique universel de 50 qubits. La machine repose sur des puces NVIDIA Grace Hopper et un réseau InfiniBand Quantum-X800. Thomas Lippert, directeur du Centre de supercalcul de Jülich et professeur à l'université Goethe de Francfort, affirme que JUPITER positionne l'Europe non pas comme un suiveur de l'ère exascale, mais comme son chef de file. Deux résultats se distinguent par leur portée. Le projet Jülich Brain Atlas a produit CytoNet, un modèle fondamental entraîné sur 6,5 pétaoctets de données issues de 21 cerveaux post-mortem, en moins de cinq jours sur 4 096 puces Grace Hopper. Pour la première fois, un modèle d'IA cartographie la microarchitecture cérébrale à l'échelle cellulaire, reliant la structure de chaque cellule aux grands schémas d'organisation du cerveau. La neuroscientifique Katrin Amunts, qui dirige les travaux à l'INM-1 de Jülich, prépare désormais un agent IA capable d'interroger directement ces données, intégrant du raisonnement multimodal et un modèle de langage NVIDIA Nemotron 3 120B. Sur le front climatique, le modèle ICON, développé en collaboration entre l'ETH Zurich, le Max Planck Institute for Meteorology, le DKRZ, le JSC et NVIDIA, a remporté le Gordon Bell Prize for Climate Modelling au SC25 en novembre dernier. Tournant sur 20 480 puces Grace Hopper, ICON simule pour la première fois un système terrestre couplé, atmosphère, océan, terres, biogéochimie et cycle du carbone complet, à une résolution d'un kilomètre. En 24 heures de calcul, la machine a simulé environ 146 jours de climat réel, un record mondial. Ces avancées s'inscrivent dans une course mondiale à la puissance de calcul scientifique où l'Europe a longtemps accusé un retard face aux États-Unis et à la Chine. JUPITER comble cet écart en offrant à la communauté scientifique européenne un outil capable de traiter des problèmes auparavant hors de portée, qu'il s'agisse de la connectivité 6G, des maladies neurodégénératives ou du changement climatique. La concentration de disciplines aussi diverses sur une seule infrastructure marque un tournant : le supercalcul ne sert plus uniquement la physique des particules ou la météorologie, mais devient un substrat commun pour toutes les sciences de pointe. Les prochaines étapes pour plusieurs équipes incluent l'intégration d'agents IA autonomes capables de conduire eux-mêmes des expériences scientifiques, ouvrant la voie à une recherche partiellement automatisée à très grande échelle.

UEJUPITER, financé par EuroHPC et installé à Jülich (Allemagne), positionne l'UE comme leader mondial du calcul exascale, offrant à la communauté scientifique européenne une infrastructure de pointe pour la recherche en neurosciences, climatologie et IA souveraine.

💬 L'Europe qu'on moque pour ses règlements vient de cartographier le cerveau humain cellule par cellule et de simuler le climat à un kilomètre de résolution, en moins d'une semaine de calcul. JUPITER, c'est la preuve que la souveraineté numérique européenne ne passe pas que par des textes de loi, mais aussi par des machines capables de faire tourner de la science que personne d'autre ne peut faire. Bon, faut qu'ils gardent l'avance maintenant.

InfrastructureActu
1 source
De la simulation des matériaux à l'astronomie : NVIDIA lance un logiciel d'IA pour la découverte scientifique
27NVIDIA AI Blog 

De la simulation des matériaux à l'astronomie : NVIDIA lance un logiciel d'IA pour la découverte scientifique

Lors de la conférence ISC qui se tient cette semaine à Hambourg, NVIDIA a annoncé plusieurs nouvelles bibliothèques logicielles destinées à accélérer la recherche scientifique grâce à l'IA et au calcul GPU. Parmi elles : la bibliothèque DAQIRI (Data Acquisition for Integrated Real-time Instruments), les microservices ALCHEMI NIM, et le code de référence cuPhoton, bientôt disponible. Ces outils font partie de l'écosystème CUDA-X de NVIDIA. Les gains de performance sont spectaculaires : cuPhoton, testé sur des systèmes GB200 NVL72, accélère le chargement et l'analyse des images astronomiques au format FITS par un facteur 14 900 pour les données du Rubin Observatory, et offre un traitement du signal jusqu'à 8 400 fois plus rapide avec 32 superchips Grace Blackwell. DAQIRI, de son côté, a été utilisé dans le cadre du projet A-GHOST, développé par le CERN, l'Université de Chicago et l'University College London, pour analyser en temps réel les données de collisions de l'expérience ATLAS, données qui étaient auparavant rejetées à plus de 99 % faute de capacité de stockage. ALCHEMI, quant à lui, propose déjà deux microservices pour la simulation moléculaire (relaxation de géométrie et dynamique moléculaire par lots), avec un support du logiciel VASP prévu prochainement. Ces outils changent fondamentalement l'échelle à laquelle la science peut opérer. Le Rubin Observatory et son instrument LSST, la plus grande caméra numérique jamais construite, génèrent des pétaoctets de données sur des milliards de galaxies et d'objets faiblement lumineux. Transformer ces flux massifs en résultats analysables en temps quasi réel ouvre des possibilités inédites pour la recherche sur la matière noire et l'énergie sombre. De même, A-GHOST permettra au CERN de récupérer des signaux potentiellement cruciaux qui disparaissaient jusqu'ici dans les filtres de sélection. Pour la chimie computationnelle, ALCHEMI permet de simuler des millions de molécules simultanément, ce qui accélère la découverte de nouveaux matériaux pour les batteries, les catalyseurs, les écrans OLED ou encore les formulations cosmétiques. Ces annonces s'inscrivent dans une tendance de fond : depuis plusieurs années, le calcul GPU migre des centres de données commerciaux vers les laboratoires scientifiques, portés par des projets comme AlphaFold ou les grands modèles de fondation pour la physique. NVIDIA positionne CUDA-X comme l'infrastructure transversale de cette transformation, en couvrant aussi bien l'astrophysique que la chimie ou la physique des particules. Les partenariats avec Princeton, Harvard et le CERN donnent une légitimité institutionnelle forte à ces outils. La prochaine intégration de VASP dans ALCHEMI, logiciel de référence mondial pour les simulations de matériaux ab initio, est particulièrement significative : elle signale que NVIDIA vise désormais le cœur des workflows scientifiques établis, et pas seulement leurs marges computationnelles.

UELe CERN, institution de recherche pan-européenne, intègre déjà DAQIRI dans le projet A-GHOST pour analyser en temps réel les données de l'expérience ATLAS, récupérant des signaux jusqu'ici perdus faute de capacité de traitement.

💬 99 % des données de collision de l'expérience ATLAS au CERN finissaient à la poubelle faute de capacité de traitement en temps réel. DAQIRI change ça, et c'est la stat la plus vertigineuse dans un article qui en compte pourtant beaucoup. L'intégration de VASP dans ALCHEMI dit le reste : NVIDIA ne vend plus des GPUs aux labos scientifiques, il en devient le système nerveux.

InfrastructureOpinion
1 source
Le CPU NVIDIA Vera ouvre la voie à l'IA scientifique autonome au laboratoire de Los Alamos
28NVIDIA AI Blog 

Le CPU NVIDIA Vera ouvre la voie à l'IA scientifique autonome au laboratoire de Los Alamos

Le laboratoire national de Los Alamos (LANL) va se doter de trois nouveaux supercalculateurs baptisés Mission, Vision et Veritas, construits en partenariat avec HPE et NVIDIA. Ces machines reposeront sur l'architecture HPE Cray Supercomputing GX5000 combinant les processeurs NVIDIA Vera, les GPU NVIDIA Rubin et le réseau InfiniBand Quantum-X800. Mission intégrera des nœuds GPU Vera Rubin et 2 300 processeurs Vera autonomes, tandis que Veritas en comptera environ 1 150, en complément de ses nœuds GPU. Mission et Vision sont attendus opérationnels en 2027 pour succéder au supercalculateur Crossroads sur les charges de travail nationales classifiées et la recherche fondamentale, matériaux, énergie, biomédical, IA. LANL a par ailleurs démontré que le processeur Vera délivre des performances 7 fois supérieures à celles des CPU x86 de Crossroads sur les charges URSA, et plus de 3 fois supérieures sur Branson, un outil de simulation Monte Carlo open source de transfert de chaleur. Ces performances ouvrent la voie à une nouvelle génération d'IA scientifique dite agentique : des systèmes capables de formuler des hypothèses, de sélectionner des outils, de lancer des simulations, d'analyser les résultats et d'affiner leur démarche de façon autonome. Le projet URSA (Universal Research and Scientific Agent), déjà en cours sur le supercalculateur Venado et bientôt déployé sur Mission et Vision, incarne cette ambition. Ce cadre modulaire à boucle de rétroaction aide les chercheurs à planifier des expériences et à interpréter des résultats à une vitesse que les workflows manuels ne permettent pas. Sur le plan matériel, le Vera CPU se distingue par son cœur personnalisé Olympus, sa mémoire LPDDR5 et son fabric intégré rapide : un socket Vera surpasse un socket x86 de plus de 3 fois tout en offrant plus de 4 fois la mémoire par cœur et 6 fois la mémoire par nœud, ce qui accélère directement la cadence des découvertes scientifiques. Ces trois supercalculateurs s'inscrivent dans une collaboration qui remonte à plus d'une décennie entre LANL et NVIDIA, couvrant les générations Grace et désormais Vera, avec une approche de co-design extrême où architectes matériels, développeurs système, scientifiques et mathématiciens appliqués façonnent conjointement les machines à partir de vrais cas d'usage. Veritas, plus petit, servira spécifiquement le programme de recherche interne du laboratoire (LDRD) comme banc d'essai pour les technologies qui alimenteront les systèmes plus grands. Mission deviendra le cinquième système de la série Advanced Technology System du programme Advanced Simulation and Computing de la National Nuclear Security Administration. Ces déploiements font suite à l'installation en 2024 de Venado, basé sur les superchips NVIDIA GH200 Grace Hopper, qui sert aujourd'hui de plateforme de référence pour valider cette nouvelle génération d'infrastructures HPC orientées IA.

InfrastructureActu
1 source
DICT et Google Cloud déployent l’IA et la cybersécurité dans l’État philippin
29Le Big Data 

DICT et Google Cloud déployent l’IA et la cybersécurité dans l’État philippin

Le ministère philippin des Technologies de l'information et de la communication (DICT) a annoncé en juin 2026 une extension majeure de son partenariat avec Google Cloud, portant sur le déploiement de l'intelligence artificielle dans les administrations publiques et le renforcement de la cybersécurité nationale. Le programme prévoit d'équiper plus de 200 000 fonctionnaires d'outils basés sur Gemini Enterprise sur les 18 prochains mois, avec une première vague de 50 000 agents publics déjà ciblés. Ces outils sont accessibles via l'eMarketplace gouvernemental, lancé au premier trimestre 2026. En parallèle, le Bureau de la cybersécurité du DICT a constitué une alliance interministérielle de cyberdéfense reposant sur Google Cloud Cybershield, une plateforme combinant renseignement sur les menaces, analyse par Gemini et expertise de Mandiant, hébergée au sein du National Security Operations Center. À fin juin 2026, 90 agences gouvernementales devaient être couvertes par ce dispositif, contre 56 déjà formées au moment de l'annonce. L'impact de cette initiative est particulièrement concret pour un archipel de plus de 7 000 îles où l'accès aux services publics reste inégal. Les agents conversationnels en cours de déploiement permettront aux citoyens d'obtenir des réponses dans leur langue locale sur des procédures aussi diverses que la création d'entreprise, les services de santé ou les aides en cas de catastrophe naturelle, sans avoir à naviguer entre plusieurs administrations. Pour les fonctionnaires, l'IA accélère la recherche documentaire, l'analyse de dossiers et la coordination interministérielle, réduisant la friction bureaucratique qui ralentit traditionnellement l'action publique. Sur le volet cybersécurité, la centralisation de la surveillance au sein du NSOC renforce la résilience des infrastructures critiques à mesure que les services publics se numérisent, un enjeu d'autant plus sensible que les Philippines accueillent les sommets de l'ASEAN tout au long de l'année 2026. Ce partenariat s'inscrit dans une dynamique plus large de numérisation accélérée des États d'Asie du Sud-Est, où Google Cloud multiplie les accords avec les gouvernements pour positionner ses outils au cœur des réformes administratives. Pour les Philippines, le programme « AI Agents for the Public Sector » représente un pari sur la capacité de l'IA à compenser les déficits d'infrastructure humaine dans un pays où la dispersion géographique complique la prestation de services uniformes. La réussite du déploiement dépendra en grande partie de l'adoption réelle par les fonctionnaires et de la robustesse de la connectivité dans les régions isolées, deux défis que le DICT reconnaît implicitement en faisant du développement d'infrastructures adaptées à l'ère de l'IA un troisième axe de la collaboration. Si les résultats sont au rendez-vous, ce modèle philippin pourrait servir de référence pour d'autres gouvernements cherchant à industrialiser rapidement leur transition vers l'IA publique.

InfrastructureOpinion
1 source
MoonMath AI publie en open source un kernel d'attention HIP pour AMD MI300X surpassant AITER v3 sur toutes les configurations
30MarkTechPost 

MoonMath AI publie en open source un kernel d'attention HIP pour AMD MI300X surpassant AITER v3 sur toutes les configurations

MoonMath AI, une équipe de recherche spécialisée en optimisation GPU, a publié en open source un noyau de calcul d'attention en bf16 pour le GPU AMD MI300X, sous licence MIT. Écrit en HIP (le langage de programmation GPU d'AMD), ce noyau implémente l'opération d'attention centrale des transformers, le calcul softmax(QKᵀ/√d)·V, et surpasse sur tous les cas testés AITER v3, le propre noyau optimisé d'AMD. Les gains géométriques mesurés atteignent 1,18×, 1,15× et 1,08× selon les modes d'arrondi, avec un pic à 1,26× sur certaines configurations. Les tests ont été conduits sur du matériel bare-metal fourni par HotAisle, un fournisseur cloud AMD. Le noyau cible exclusivement l'architecture CDNA3 du MI300X (ISA gfx942), avec une dimension de tête fixée à 128 et une prise en charge de longueurs de séquence arbitraires, y compris l'attention croisée. Une pull request concrète dans SGLang a utilisé ce noyau pour accélérer la génération vidéo par le modèle Wan2.1 de 1,23× sans aucune régression de qualité. Ce résultat est significatif pour l'écosystème AMD, longtemps considéré comme en retard sur NVIDIA en matière de performance logicielle pour l'inférence de modèles de langage. Battre AMD sur son propre terrain, avec un noyau non assembleur, donc lisible et maintenable, démontre qu'il est possible d'extraire des performances compétitives du MI300X sans recourir à du code machine manuscrit opaque. Pour les équipes qui déploient des LLMs ou des modèles de diffusion vidéo sur infrastructure AMD, ce noyau représente un gain immédiat et vérifiable. La précision numérique est soigneusement préservée : chaque sortie finie reste dans une unité bf16 ULP d'AITER, les comportements NaN et Inf sont bit-identiques, et les résultats sont déterministes. Sur le plan technique, la performance provient de deux innovations principales. D'abord, une astuce d'assemblage inline qui enveloppe exactement une instruction dans une fonction forceinline, laissant le compilateur gérer l'allocation des registres tout en gardant le contrôle de l'opcode, évitant ainsi les copies de registres inutiles qui pénalisent les approches naïves. Ensuite, un placement mémoire rigoureux : K est chargé depuis la HBM vers la mémoire partagée locale (LDS) en double-buffering, V reste chaud dans le cache L1, et Q avec les accumulateurs résident dans les registres. La stratégie d'ordonnancement des vagues, huit vagues par bloc, en deux groupes de quatre décalés en phase, permet au cœur matriciel de ne jamais rester inactif, en alternant calcul et softmax à la manière de FlashAttention-3, mais adaptée aux spécificités de CDNA3 où toute opération mémoire est déjà asynchrone. Ce travail s'inscrit dans une tendance plus large de la communauté open source qui, faute de support logiciel mature d'AMD, prend elle-même en charge l'optimisation bas niveau de ces GPUs.

💬 Quand une équipe externe bat AMD sur ses propres GPUs, sans même toucher à l'assembleur, c'est que le support logiciel officiel avait un vrai problème. Ce kernel HIP lisible et maintenable qui surpasse AITER v3 sur toutes les configs, c'est exactement le signal qu'on attendait pour prendre AMD au sérieux en prod, pas juste sur les benchmarks marketing. Et le fait que ça tourne déjà dans SGLang sur de la génération vidéo, c'est pas un proof-of-concept de labo.

InfrastructureActu
1 source
L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte
31VentureBeat AI 

L'IA atteint le mur de la mémoire : il lui faut un nouveau niveau de contexte

L'intelligence artificielle fait face à un nouveau goulot d'étranglement en 2026, et ce n'est plus la puissance de calcul des GPU. Selon Jeff Harthorn, responsable de la recherche appliquée en IA chez Solidigm, le vrai frein est désormais la gestion du contexte, la mémoire persistante qui doit survivre entre les sessions d'inférence. "Les GPU sont devenus bien moins chers par FLOP, les architectures de modèles et les moteurs d'inférence sont plus efficaces. Mais ce qui a crû plus vite que tout, c'est le contexte", explique-t-il. Les fenêtres de contexte ont explosé en taille, les systèmes d'IA agentiques enchaînent désormais des dizaines voire des centaines d'appels de modèles successifs, et les entreprises exigent que les états d'inférence persistent entre les sessions à des fins d'audit, de gouvernance et de réutilisation. Ces trois tendances se cumulent et propulsent les volumes de données contextuelles bien au-delà de ce que les architectures mémoire existantes peuvent absorber. Cette évolution a des conséquences directes sur les coûts et le retour sur investissement des infrastructures d'IA en entreprise. Quand les données de cache KV (Key-Value), les informations qui permettent à un modèle de retrouver et réutiliser le contexte d'une interaction, ne sont pas disponibles dans un tier de stockage rapide, le système est obligé de les recalculer à chaque session. Ce processus de "re-prefill" mobilise des cycles GPU entiers sans produire aucun nouveau token, autrement dit sans créer aucune valeur. "Si votre stockage n'est pas à la hauteur, votre ROI en souffre directement", souligne Ace Stryker, directeur marketing IA chez Solidigm. L'architecture de stockage héritée de l'ère de l'entraînement, séquentielle, dominée par les grandes écritures en bloc, n'est tout simplement pas adaptée aux accès fins et latence-sensibles que requiert l'inférence moderne. La réponse qui émerge est une nouvelle couche dédiée, baptisée CMX par Nvidia, qui s'intercale entre la mémoire HBM des GPU et le stockage réseau en masse. Ce tier intermédiaire, constitué de SSD haute performance et haute densité optimisés pour les charges d'inférence, est conçu pour héberger et servir rapidement le cache KV ainsi que les données de récupération utilisées dans les architectures RAG. Solidigm fait partie des fabricants de stockage qui développent des produits SSD spécifiquement taillés pour cette architecture. Jusqu'ici, le stockage était traité comme une commodité dans les plans d'infrastructure IA, on cherchait simplement le meilleur prix au gigaoctet. Ce paradigme est en train de changer en profondeur, à mesure que les systèmes agentiques persistants font du stockage un composant critique de la chaîne de performance des grands modèles de langage.

InfrastructureActu
1 source
À 45°C, une percée pour refroidir les plus grandes machines de l'IA
32NVIDIA AI Blog 

À 45°C, une percée pour refroidir les plus grandes machines de l'IA

La nouvelle génération de serveurs IA de NVIDIA, la plateforme Rubin, franchit un cap technologique en devenant la première infrastructure de calcul à atteindre 100 % de refroidissement liquide, chaque puce, chaque composant réseau, sans le moindre ventilateur. Le liquide de refroidissement circule dans un circuit fermé à une température pouvant atteindre 45 degrés Celsius, soit 13 degrés de plus que la température habituelle d'un jacuzzi. Cette architecture est formalisée dans le NVIDIA DSX AI Factory Reference Design, un guide de référence pour concevoir, construire et exploiter l'ensemble de la pile d'infrastructure d'une usine d'IA. Ali Heydari, directeur du refroidissement et de l'infrastructure de centres de données chez NVIDIA, résume l'ambition : « Nous avons éliminé d'énormes quantités de consommation électrique et pratiquement toute consommation d'eau. » L'enjeu économique et environnemental est considérable. Historiquement, le seul refroidissement représente jusqu'à 40 % de la consommation électrique d'un centre de données, l'un des postes où les gains d'efficacité ont le plus d'impact. Les estimations sectorielles indiquent qu'augmenter la température des systèmes de refroidissement d'un seul degré réduit les coûts énergétiques associés d'environ 4 %. À l'échelle d'une installation hyperscale de 50 mégawatts, le passage à une infrastructure entièrement refroidie par liquide génère plus de 4 millions de dollars d'économies annuelles sur les coûts d'énergie et d'eau. Plus frappant encore : les centres de données conventionnels à refroidissement par air consomment environ 2,6 millions de gallons d'eau par mégawatt et par an via leurs tours de refroidissement évaporatives. L'architecture à 45°C de NVIDIA ramène ce chiffre à zéro dans la plupart des conditions climatiques, grâce à des refroidisseurs à sec en circuit fermé qui n'ont pas besoin de chiller la majorité de l'année. Ce virage technologique s'inscrit dans une trajectoire inévitable. Pendant des décennies, l'industrie a cru qu'un centre de données froid était un centre de données efficace, une idée désormais caduque face à la densité de puissance des puces IA modernes. Richard Whitmore, président et PDG de Motivair, la division de refroidissement avancé de Schneider Electric, partenaire de longue date de NVIDIA, le dit sans détour : « Une fois que la consommation par puce a dépassé un certain seuil, le refroidissement liquide est devenu obligatoire. » Comme la plateforme Rubin impose le 100 % liquide à l'ensemble de l'écosystème, chaque opérateur de cloud et exploitant de centre de données qui s'y connecte adopte de facto cette nouvelle norme. L'ère du refroidissement par air pour l'IA de pointe touche à sa fin.

UELes opérateurs de centres de données français et européens devront planifier une migration vers le refroidissement liquide pour rester compétitifs et se conformer aux objectifs d'efficacité énergétique et hydrique imposés par les réglementations européennes sur les data centers.

InfrastructureOpinion
1 source
Les meilleurs mini PC pour l’IA en local : faire tourner un LLM chez soi sans cloud
33Frandroid 

Les meilleurs mini PC pour l’IA en local : faire tourner un LLM chez soi sans cloud

L'article fourni est un simple teaser, il se coupe après l'introduction avec "[Lire la suite]" et ne contient aucun contenu réel : aucun mini PC mentionné, aucun prix, aucune spec technique, aucune recommandation concrète. Écrire un article autonome de 200-250 mots à partir de ça reviendrait à inventer des faits, ce que je ne ferai pas. Options : 1. Fournis le contenu complet de l'article (colle le texte intégral après le "[Lire la suite]"), je le résume immédiatement. 2. Fournis l'URL, je peux tenter de récupérer la page si tu me la donnes.

💬 Les mini PC pour faire tourner un LLM en local, c'est le sujet qui revient tous les six mois avec de nouvelles puces et les mêmes questions. Ce qui change vraiment, c'est que les modèles 7-14B commencent à tenir dans 16 Go de RAM avec des perfs acceptables, ce n'était pas le cas il y a dix-huit mois. Reste que le vrai coût, c'est pas le matériel, c'est le temps passé à optimiser la quantification pour que ça ne rame pas trop.

InfrastructureTuto
1 source
Surveiller et déboguer l'inférence IA générative avec SageMaker sur CloudWatch
34AWS ML Blog 

Surveiller et déboguer l'inférence IA générative avec SageMaker sur CloudWatch

Amazon Web Services a enrichi son service SageMaker AI d'un système de supervision avancé pour les endpoints d'inférence en temps réel : la plateforme émet désormais plus de 100 métriques détaillées couvrant la santé GPU, la latence au niveau des tokens, la pression sur le cache KV, la répartition du trafic entre zones de disponibilité et les diagnostics de démarrage à froid. Ces données alimentent automatiquement un tableau de bord intégré appelé SageMaker Insights, accessible directement depuis la console Amazon CloudWatch sous la section « Infrastructure Monitoring ». Le tableau de bord s'organise en trois vues, Performance, Capacité, Fiabilité, et exploite les métriques via une interface compatible PromQL, permettant également leur intégration dans des outils tiers comme Grafana ou Datadog. Deux architectures d'endpoints sont supportées : les endpoints mono-modèle (SME), où chaque modèle dispose de ses propres instances GPU, et les endpoints à composants d'inférence (IC), qui permettent à plusieurs modèles de partager la même infrastructure GPU avec une mise à l'échelle indépendante par modèle. Cette évolution répond à un besoin critique des équipes MLOps et SRE qui gèrent en production des dizaines de modèles sur des centaines d'instances GPU. Jusqu'ici, diagnostiquer un pic de latence P99 sur un endpoint LLM exigeait de déterminer en quelques minutes si la cause était une saturation de la mémoire GPU, un cache KV saturé, un déséquilibre de trafic entre zones ou une politique d'autoscaling trop lente, sans outillage natif pour y répondre rapidement. Le nouveau système supprime la nécessité de configurer manuellement des dashboards Grafana et des exporteurs Prometheus, ce qui représente un gain opérationnel significatif. Les métriques sont émises nativement au format OpenTelemetry, standard ouvert qui facilite l'interopérabilité avec l'écosystème d'observabilité existant des entreprises. La montée en puissance de l'inférence LLM en production a profondément modifié les priorités des équipes d'infrastructure machine learning : si l'entraînement des modèles concentrait autrefois l'essentiel de l'attention, c'est désormais le « serving » à grande échelle qui pose les défis les plus complexes, notamment en termes de coût GPU, de disponibilité et de gestion multi-modèles. L'architecture IC, recommandée par AWS pour les charges de travail IA génératives en production, permet de mutualiser l'infrastructure GPU entre plusieurs modèles et d'assurer la haute disponibilité via une distribution des répliques entre zones de disponibilité. Cette annonce s'inscrit dans une compétition accrue entre les grands fournisseurs cloud, AWS, Google Cloud et Azure, pour proposer des environnements de déploiement LLM clés en main, où l'observabilité devient un argument différenciant à mesure que les équipes industrialisent leurs pipelines d'inférence.

UELes équipes MLOps et SRE européennes industrialisant des pipelines d'inférence LLM en production bénéficient indirectement d'un outillage d'observabilité natif, réduisant la complexité opérationnelle sans configuration manuelle de Prometheus/Grafana.

InfrastructureOpinion
1 source
Le professeur de la productivité maximale : Anjney Midha, AMP
35Latent Space 

Le professeur de la productivité maximale : Anjney Midha, AMP

Lors d'un épisode enregistré chez Periodic Labs à San Francisco, Anjney Midha, fondateur d'AMP et ancien architecte de la plateforme développeur de Discord, a livré une analyse décapante de l'efficacité réelle de l'infrastructure IA mondiale. Le constat de départ est frappant : xAI, le laboratoire d'Elon Musk, fonctionnerait à moins de 10 % de MFU (Model FLOPs Utilization), soit moins d'un dixième de la puissance de calcul théorique de ses GPU effectivement convertie en progrès d'entraînement. Pour comparaison, GPT-3 atteignait déjà 21 % de MFU, Gopher 32 %, PaLM 46 %, et les meilleurs systèmes actuels se situent entre 60 et 70 % selon Midha. AMP, la société qu'il dirige, ambitionne de construire un réseau de calcul indépendant capable de délivrer 1,2 GW en charge de base, avec une capacité de pointe visée à 6 GW. Ce chiffre de sous-utilisation illustre un problème structurel plus profond : acheter davantage de GPU ne garantit pas de meilleurs modèles. L'IA de frontière est avant tout un problème de systèmes, où l'ordonnancement, les réseaux, les noyaux logiciels, les pipelines de données et la fiabilité des clusters déterminent si les FLOPs théoriques se transforment en progrès réel. Midha rappelle qu'à Google, un taux d'utilisation de 95 % était traité comme une panne, tant l'optimisation était culturellement ancrée. Il propose le concept d'"outputmaxxing" comme nouvelle discipline à part entière : maximiser les sorties utiles par flop dépensé, plutôt que d'accumuler aveuglément de la capacité brute. À mesure que les organisations s'appuient sur des couches d'abstraction et des API, elles perdent de la performance à chaque niveau de la pile, sans toujours en mesurer les conséquences sur la qualité des modèles. Investisseur dans Anthropic, Mistral, Black Forest Labs et Periodic Labs, Midha a observé de près comment un excès de capital trop précoce peut fragiliser un laboratoire plutôt que le renforcer. AMP se positionne comme un opérateur de réseau de calcul indépendant, sur le modèle des gestionnaires de réseau électrique, permettant aux FLOPs de "circuler comme des mégawatts". Cette vision implique des protocoles ouverts, une intégration communautaire autour des centres de données, et des marchés de calcul où la demande interruptible remplace l'achat brut de capacité. Midha évoque également une "défaillance de marché" pointée par des recherches non publiées de DeepMind, et défend l'idée que la prédiction de fin de vie en médecine pourrait devenir l'une des applications les plus importantes de l'IA dans les prochaines années, un sujet qu'il suit depuis quatorze ans.

InfrastructureOpinion
1 source
Avec sa puce Napier, Tensordyne veut faire 13x à 17x mieux que les GPU NVIDIA
36Next INpact 

Avec sa puce Napier, Tensordyne veut faire 13x à 17x mieux que les GPU NVIDIA

Tensordyne, une start-up germano-américaine, a présenté sa puce Napier avec des promesses qui font tourner les têtes dans l'industrie des semi-conducteurs dédiés à l'IA : jusqu'à 13 fois plus de tokens par seconde que les GPU NVIDIA, avec une efficacité pouvant atteindre 17 fois supérieure selon les configurations testées. Le coeur de cette performance repose sur une idée mathématique ancienne mais rarement appliquée au silicium à cette échelle : remplacer les multiplications en virgule flottante par des additions en espace logarithmique. Concrètement, lorsqu'on travaille avec des logarithmes, multiplier deux nombres revient à additionner leurs logarithmes, une opération nettement moins gourmande en transistors et en énergie sur un circuit intégré. C'est ce que Tensordyne appelle sa "sauce secrète", formalisée dans l'architecture de la puce Napier. L'enjeu est considérable car les modèles de langage modernes sont des machines à calcul d'une intensité rare. GPT-3, avec ses 175 milliards de paramètres, mobilise environ 350 milliards d'opérations par token généré, principalement des multiplications matricielles. Si Tensordyne tient ses promesses, la réduction du coût énergétique et matériel par inférence pourrait transformer l'économie du déploiement de l'IA en production : moins de serveurs pour le même débit, ou un débit bien plus élevé pour le même budget infrastructure. Pour les data centers, les fournisseurs cloud et les entreprises qui font tourner des modèles en continu, ce ratio performance/watt est directement traduit en dollars sur les factures électriques et en capacité de montée en charge. NVIDIA domine aujourd'hui le marché des accélérateurs IA grâce à ses GPU et surtout à son écosystème logiciel CUDA, devenu un standard de facto que les concurrents peinent à contourner. Des alternatives existent, notamment les TPU de Google ou les puces d'Intel et AMD, mais aucune n'a réussi à briser l'inertie de la base installée CUDA. Tensordyne arrive donc sur un terrain très défendu, avec une approche architecturale radicalement différente qui suppose de reconstruire une chaîne logicielle compatible. L'arithmétique logarithmique n'est pas nouvelle en informatique, mais son application systématique aux réseaux de neurones à très grande échelle est encore largement expérimentale. Les prochains mois diront si Napier tient ses benchmarks en conditions réelles et si la start-up parvient à convaincre suffisamment d'acteurs pour constituer un écosystème viable face au titan de Santa Clara.

UELa dimension germanique de cette start-up germano-américaine ouvre une piste pour l'écosystème semi-conducteur européen, mais les performances annoncées restent non vérifiées de manière indépendante.

💬 13 à 17 fois mieux que NVIDIA sur le papier, c'est le genre d'annonce qui te fait regarder à deux fois. Le vrai verrou de Tensordyne, c'est pas le silicium : c'est CUDA, un écosystème logiciel construit depuis 15 ans que les ingénieurs ne vont pas lâcher pour des benchmarks non vérifiés en conditions réelles. L'arithmétique logarithmique, c'est brillant, mais le cimetière des challengers NVIDIA est déjà bien rempli de bonnes idées architecturales.

InfrastructureOpinion
1 source
NVIDIA et ses partenaires transforment la publicité et le marketing avec l'IA à Cannes Lions
37NVIDIA AI Blog 

NVIDIA et ses partenaires transforment la publicité et le marketing avec l'IA à Cannes Lions

Au festival Cannes Lions, qui se tient du 22 au 26 juin en France, plusieurs entreprises partenaires de NVIDIA présentent leurs solutions d'intelligence artificielle pour transformer la publicité et le marketing à grande échelle. Parmi elles : Alembic, Amazon Web Services (AWS), Criteo, Higgsfield, KERV.ai et Taboola. Alembic, spécialisée dans l'IA causale, sera la première entreprise du secteur à utiliser les systèmes NVIDIA DGX Vera Rubin SuperPODs pour modéliser les véritables moteurs de croissance marketing, non plus de simples corrélations, mais des relations de causalité réelles entre canaux, marchés et audiences. Criteo, qui gère l'un des plus grands réseaux de recommandation publicitaire au monde, a quant à elle atteint une accélération d'environ deux fois plus rapide dans l'entraînement de ses modèles grâce aux GPU NVIDIA Blackwell et à la bibliothèque open source cuEmbed, libérant ainsi près de 17 000 heures de GPU par an. AWS propose de son côté une pile d'infrastructure clé en main pour les acteurs de l'adtech, permettant de faire tourner des modèles d'IA directement dans les fenêtres d'enchères en temps réel via NVIDIA Triton Inference Server. Taboola utilise ces mêmes GPU pour alimenter DeeperDive, son moteur de réponses conversationnelles. Ces annonces illustrent un basculement profond dans l'industrie publicitaire : là où le numérique avait apporté la vitesse, l'IA apporte désormais l'autonomie opérationnelle. Pour les régies et plateformes publicitaires, l'enjeu n'est plus de savoir si elles adopteront l'IA, mais si leur infrastructure pourra suivre le rythme. La capacité à enchérir, recommander et optimiser en quelques millisecondes sur des milliards de transactions quotidiennes nécessite une puissance de calcul que seuls les GPU spécialisés peuvent fournir aujourd'hui. Pour Criteo, gagner 17 000 heures GPU par an, c'est concrètement réduire les coûts de calcul tout en améliorant la pertinence des recommandations produit pour des centaines de millions d'acheteurs. Pour les annonceurs utilisant AWS, passer de règles manuelles à des modèles d'IA pour l'optimisation des prix d'enchère représente un avantage concurrentiel direct sur les marchés programmatiques. Cette convergence entre NVIDIA et l'écosystème publicitaire s'inscrit dans une dynamique plus large d'industrialisation de l'IA à l'échelle des entreprises. NVIDIA, dont les GPU dominent le marché de l'entraînement des modèles d'IA, cherche désormais à s'imposer aussi dans l'inférence à la milliseconde, le moment où l'IA doit prendre une décision en production. Cannes Lions, rendez-vous annuel de l'industrie créative et publicitaire mondiale, devient ainsi une vitrine technologique où les fournisseurs d'infrastructure rivalisent pour convaincre les grandes marques et agences que l'IA agentique, des systèmes capables de planifier, exécuter et optimiser des campagnes de manière autonome, est désormais prête pour le déploiement en entreprise.

UECriteo, acteur français majeur de l'adtech, économise 17 000 heures GPU par an grâce aux puces NVIDIA Blackwell, renforçant directement sa compétitivité sur les marchés programmatiques européens.

💬 Le festival le plus glamour de la pub qui se transforme en vitrine GPU, ça dit quelque chose sur où en est vraiment l'IA. Ce qui change ici, c'est le pivot de NVIDIA vers l'inférence temps réel : dominer l'entraînement c'était bien, mais dominer la décision à la milliseconde dans les enchères programmatiques, c'est là où se jouent les vraies marges. Criteo qui gagne 17 000 heures GPU par an sur ses modèles, c'est pas du marketing.

InfrastructureActu
1 source
Databricks et Nvidia préparent ensemble l’avenir de l’IA agentique
38Le Big Data 

Databricks et Nvidia préparent ensemble l’avenir de l’IA agentique

Databricks et Nvidia ont annoncé lors du Data + AI Summit un renforcement significatif de leur partenariat, centré sur le déploiement industriel de l'IA agentique en entreprise. Les deux groupes intègrent désormais plus profondément leurs infrastructures matérielles et logicielles, avec un accès serverless aux GPU Nvidia A10 et H100 directement dans la plateforme Databricks via un environnement baptisé AI Runtime (AIR). Les GPU Hopper, couplés au réseau Quantum InfiniBand, prennent en charge les entraînements distribués à grande échelle, tandis que la compatibilité avec l'architecture Blackwell prépare l'accès aux prochaines générations de puissance de calcul. Databricks a également annoncé la prise en charge des GPU Nvidia dans son édition gratuite, ainsi que le support prochain des conteneurs NGC et des environnements CUDA personnalisés, permettant aux équipes d'exécuter leurs stacks spécialisées sans multiplier les couches d'infrastructure externes. Ce tournant est stratégique pour les entreprises qui ne se contentent plus d'expérimenter l'IA générative : elles cherchent à industrialiser des agents capables de raisonner, d'agir et d'interagir avec leurs données métier dans des environnements sécurisés et gouvernés. L'accès GPU dans l'édition gratuite de Databricks abaisse concrètement la barrière d'entrée pour les startups, développeurs indépendants et équipes de recherche à budgets limités, ce qui pourrait accélérer significativement l'adoption de l'IA avancée hors des grandes entreprises. La réduction de la complexité opérationnelle, en rapprochant entraînement et déploiement des données gouvernées, répond à l'un des freins majeurs identifiés dans les projets d'IA en production. Le partenariat entre Databricks et Nvidia s'inscrit dans une mutation plus profonde des architectures d'IA. Les grands modèles de langage ont jusqu'ici concentré l'attention sur les GPU pour l'inférence, mais les agents autonomes de nouvelle génération exigent bien davantage : exécution d'appels d'outils, interrogation de bases de données, coordination de plusieurs étapes de raisonnement en temps réel, interaction avec des systèmes métiers hétérogènes. C'est dans ce contexte que Nvidia met en avant Vera, son futur processeur conçu pour ces charges de travail agentiques hybrides, combinant CPU et GPU dans une même puce. Databricks, valorisé 62 milliards de dollars lors de sa dernière levée de fonds en 2024, positionne ainsi sa plateforme comme la couche d'orchestration centrale pour les entreprises qui construisent la prochaine vague d'IA, au moment où la concurrence avec Snowflake, Google et Microsoft s'intensifie sur ce segment précis du marché.

UELes entreprises européennes utilisant Databricks pour leurs projets d'IA peuvent désormais accéder directement aux GPU Nvidia au sein de la plateforme sans couches d'infrastructure supplémentaires, réduisant la complexité opérationnelle de l'industrialisation de l'IA agentique.

InfrastructureOpinion
1 source
La France fait progresser l'avenir de l'IA en Europe avec les technologies NVIDIA
39NVIDIA AI Blog 

La France fait progresser l'avenir de l'IA en Europe avec les technologies NVIDIA

La France accélère son infrastructure d'intelligence artificielle à grande échelle, avec plusieurs annonces majeures dévoilées cette semaine à VivaTech 2026. Mistral, la licorne française de l'IA, a mis en service son premier centre de données à Bruyères-le-Châtel, en région parisienne, équipé de 18 000 systèmes NVIDIA GB200. Ce site de 44 mégawatts constitue la première étape d'un plan visant 200 mégawatts de capacité de calcul répartis à travers l'Europe d'ici 2027. Mistral collabore par ailleurs avec la banque publique Bpifrance, la société d'investissement MGX et NVIDIA pour développer Campus AI, un réseau d'usines d'IA dont l'élément central devrait atteindre 1,4 gigawatt. Bull et Foxconn ont annoncé la production en Europe du supercalculateur NVIDIA Vera Rubin NVL72 : les systèmes seront fabriqués en République tchèque puis assemblés et validés dans l'usine Bull d'Angers. Le fournisseur de cloud Scaleway propose désormais des instances NVIDIA Blackwell B300-SXM, et un consortium de huit entreprises françaises a soumis une candidature pour accueillir une gigafactory européenne de l'IA sur le sol français. Ces investissements positionnent la France comme l'un des pivots de l'infrastructure IA en Europe, dans un contexte de compétition mondiale intense pour la puissance de calcul. Pour les entreprises et développeurs du continent, disposer de ces ressources localement réduit la dépendance aux infrastructures américaines et répond aux exigences de souveraineté et de conformité imposées par la réglementation européenne. L'essor de modèles ouverts, adaptés aux langues et aux cadres juridiques locaux, donne aux organisations publiques et privées la capacité d'inspecter, d'adapter et d'auditer leurs systèmes d'IA. Schneider Electric, associé à NVIDIA pour concevoir des plans de déploiement de centres de données à l'échelle du gigawatt, entend industrialiser ces infrastructures pour répondre à une demande qui ne cesse d'accélérer. Ce déploiement prolonge la dynamique lancée à GTC Paris lors de VivaTech 2025, où la France avait annoncé ses ambitions nationales en matière d'IA. Le programme France 2030, le Sommet pour l'action sur l'IA de 2025 et le sommet Choose France ont depuis mobilisé des milliards d'euros d'engagements d'investissement. Sur scène à VivaTech cette année, des responsables de Gradium, H Company, LINAGORA et Pleias ont débattu du rôle des modèles ouverts dans l'écosystème européen. Pierre-Carl Langlais, directeur technique de Pleias, a résumé l'enjeu : "On passe de la construction d'un modèle isolé à une infrastructure de modèles en continu, où les modèles s'entraînent mutuellement, gèrent les données et valident l'apprentissage par renforcement." L'objectif affiché est que les pratiques de pointe en IA se diffusent à l'ensemble de l'économie européenne, en dehors de toute dépendance exclusive aux acteurs américains.

UELe déploiement de 18 000 systèmes GB200 à Bruyères-le-Châtel et la production du supercalculateur Vera Rubin à Angers réduisent concrètement la dépendance des entreprises et institutions françaises aux infrastructures cloud américaines, en ligne avec les exigences de souveraineté de l'AI Act.

💬 18 000 GB200 à Bruyères-le-Châtel, un supercalculateur assemblé à Angers, Scaleway avec du Blackwell en prod, là on parle d'infrastructure qui existe vraiment. Ce que ça change pour les entreprises européennes, c'est la possibilité de faire tourner des modèles lourds sans passer par un datacenter américain, ce qui n'est pas qu'un argument marketing quand l'AI Act t'impose des audits de tes systèmes. Bon, les gigawatts annoncés pour 2027, on verra si les délais tiennent.

InfrastructureActu
1 source
AWS rejoint la course à la couche contextuelle avec un graphe enrichi par les agents, sans curation manuelle
40VentureBeat AI 

AWS rejoint la course à la couche contextuelle avec un graphe enrichi par les agents, sans curation manuelle

Amazon Web Services a annoncé mercredi, lors du AWS Summit à New York, une série de trois nouveaux produits destinés à constituer ce que l'entreprise appelle une "pile d'intelligence contextuelle" pour les agents d'intelligence artificielle. La pièce maîtresse est AWS Context, un service de graphe de connaissances capable d'apprendre automatiquement au fil de l'usage des agents. AWS a également annoncé la disponibilité générale d'Amazon S3 Annotations et lancé en préversion les "skill assets" dans AWS Glue Data Catalog. Swami Sivasubramanian, vice-président en charge de l'IA agentique chez AWS, a présenté le tout lors de la keynote : "Vos agents deviennent plus intelligents sans que vous ayez à tout reconstruire depuis zéro." AWS Context construit automatiquement un graphe à partir des données existantes d'une entreprise, en inférant les relations entre tables, colonnes, règles métier et sources de données, puis en mettant l'ensemble à disposition des agents en temps réel. Les responsables des données supervisent le graphe via la console AWS, valident les relations inférées et y attachent des définitions métier. L'enjeu central est d'éliminer la curation manuelle, coûteuse et chronophage, qui constitue aujourd'hui le principal obstacle au déploiement des agents IA en entreprise. Le graphe s'améliore de lui-même en apprenant quelles sources produisent des résultats corrects et quelles parties sont effectivement utilisées. Côté sécurité, chaque requête hérite des permissions IAM et Lake Formation de l'utilisateur appelant, rendant les accès aux données traçables par identité. Toutes les métadonnées sont publiées en format Apache Iceberg vers Amazon S3 Tables, interrogeables via Athena, Redshift, Spark ou tout moteur compatible Iceberg, sans API propriétaire. Les agents accèdent au graphe via des API de recherche agentique et des outils MCP, compatibles avec Bedrock AgentCore, EKS ou n'importe quel framework MCP. Des connexions vers des catalogues tiers sont également prises en charge, permettant d'intégrer des données extérieures à l'écosystème AWS. La couche de contexte est devenue un champ de bataille architectural où s'affrontent désormais plusieurs acteurs majeurs. Snowflake a lancé ce mois-ci ses services Horizon Context et Cortex Sense, Microsoft propose son approche via Fabric IQ, Redis a développé une plateforme de contexte optimisée pour la récupération de données, et Pinecone commercialise Nexus, qui précompile les données d'entreprise en artefacts spécialisés avant même que les agents ne les interrogent. L'argument structurel d'AWS est simple : pour les entreprises déjà clientes de S3, Glue et Lake Formation, le graphe contextuel s'intègre nativement à une infrastructure existante, sans migration ni verrouillage propriétaire. La question qui reste ouverte est de savoir si l'apprentissage automatique du graphe tient ses promesses à l'échelle des environnements de données réels, souvent hétérogènes et mal documentés.

UELes entreprises françaises et européennes déjà clientes d'AWS pourront intégrer cette couche contextuelle agentique nativement dans leur infrastructure S3/Glue existante, sans migration vers une solution tierce.

InfrastructureOpinion
1 source
Intelligence contextuelle pour vos données et agents IA à grande échelle
41AWS ML Blog 

Intelligence contextuelle pour vos données et agents IA à grande échelle

Amazon Web Services a annoncé lors de l'AWS Summit New York City le lancement prochain d'AWS Context, un nouveau service conçu pour donner aux agents d'intelligence artificielle un accès structuré et gouverné à l'ensemble des données d'une organisation. Le service construit automatiquement un graphe de connaissances en cartographiant les relations entre les sources de données existantes, lacs de données, entrepôts, bases de données, flux en temps réel, et expose ce graphe via des API de recherche agentique et des outils MCP. Les équipes data peuvent gérer ce graphe depuis une console dédiée, valider les relations inférées automatiquement, les promouvoir en production, et y attacher des définitions métier ou des règles d'usage. AWS Context s'appuie sur la technologie qui alimente déjà Amazon QuickSight Q, un graphe de connaissances personnel utilisé quotidiennement par des centaines de milliers d'utilisateurs et traitant des millions de requêtes par jour. La nouveauté : ce graphe devient organisationnel, partagé entre tous les agents et applications d'une entreprise. Les métadonnées clés sont publiées au format Apache Iceberg dans Amazon S3, ce qui les rend interrogeables via Athena, Redshift ou Spark. L'enjeu est fondamental pour les entreprises qui déploient des agents IA en production : un agent ne peut prendre de décisions fiables que s'il dispose du bon contexte au bon moment. Aujourd'hui, ce contexte est dispersé entre des dizaines de systèmes hétérogènes, et une grande partie de la connaissance institutionnelle n'est tout simplement pas écrite. AWS Context vise à combler ce vide en créant une couche de contexte centralisée, gouvernée et accessible en temps réel. Pour les utilisateurs existants d'Amazon QuickSight Q, le bénéfice est immédiat : une fois AWS Context activé, leurs agents accèdent automatiquement au graphe étendu, incluant les relations inter-systèmes et les règles métier qui dépassent ce qu'un graphe personnel peut offrir. AWS Glue Data Catalog, Amazon SageMaker Unified Studio et AWS Lake Formation s'intègrent nativement au service. Ce lancement s'inscrit dans une course industrielle plus large autour de ce qu'AWS appelle l'« intelligence de contexte ». Les grands fournisseurs cloud rivalisent pour proposer des infrastructures permettant aux agents IA de raisonner sur des données d'entreprise réelles, sans que les équipes aient à construire des pipelines de récupération complexes. AWS Context se distingue par deux caractéristiques : son graphe apprend automatiquement de l'usage des agents, propageant les chemins de jointure corrects et les ambiguïtés résolues à l'ensemble de l'organisation sans intervention humaine ; et son architecture ouverte, basée sur Apache Iceberg, garantit que les métadonnées restent portables et auditables, indépendamment des outils choisis. Le service est également conçu pour se connecter à des catalogues tiers, étendant le graphe au-delà de l'écosystème AWS. La disponibilité générale n'a pas encore été précisée.

InfrastructureActu
1 source
☕️ Microsoft se tournerait vers AWS pour absorber l’explosion des usages IA sur GitHub
42Next INpact 

☕️ Microsoft se tournerait vers AWS pour absorber l’explosion des usages IA sur GitHub

Microsoft aurait discrètement conclu un accord avec Amazon Web Services pour absorber le trop-plein de trafic sur GitHub, selon deux sources internes citées par Business Insider. La plateforme de code, rachetée par Microsoft en 2018, subit depuis fin 2024 une pression sans précédent liée à l'explosion des outils de développement assistés par IA, notamment GitHub Copilot et ses agents autonomes. Le 3 avril 2026, Kyle Daigle, directeur des opérations de GitHub, chiffrait publiquement l'ampleur du phénomène : la plateforme enregistrait désormais 275 millions de commits par semaine, contre un milliard sur l'ensemble de l'année 2025, soit un rythme annualisé de 14 milliards. Microsoft n'a pas confirmé le recours spécifique à AWS, mais un porte-parole a reconnu une "stratégie multi-cloud", évoquant "l'incroyable pic du développement des agents" qui aurait "mis à l'épreuve les limites de l'infrastructure". La situation illustre un paradoxe industriel saisissant : ce sont les propres outils d'IA de Microsoft qui génèrent une demande que son cloud maison, Azure, ne parvient plus à satisfaire. Fin avril, plusieurs développeurs influents avaient publiquement annoncé leur intention de quitter GitHub en raison de pannes répétées imputées à cette surcharge. L'ironie est d'autant plus mordante que Microsoft avait annoncé en octobre dernier vouloir migrer intégralement GitHub vers Azure dans un délai de 24 mois, faisant de la plateforme une vitrine stratégique de sa puissance cloud. Devoir solliciter son principal concurrent pour tenir debout fragilise ce discours commercial et interroge la capacité d'Azure à accompagner les pics de croissance liés à l'IA générative, précisément le segment où Microsoft entend dominer. GitHub occupe une position centrale dans l'écosystème mondial du développement logiciel, avec plus de 100 millions de développeurs enregistrés. Son passage sous pavillon Microsoft avait déjà suscité des inquiétudes sur l'indépendance de la plateforme ; la dépendance croissante à Copilot et l'introduction récente d'une facturation à l'usage de cet outil ont ravivé ces tensions. La question du multi-cloud n'est pas nouvelle dans l'industrie, mais elle prend une dimension politique particulière quand elle oppose deux géants du secteur en compétition directe sur l'IA. Microsoft doit désormais arbitrer entre la priorité donnée à Azure comme infrastructure de référence et la nécessité opérationnelle de garantir la stabilité d'un service critique, sans quoi GitHub risque de perdre la confiance de la communauté des développeurs au profit d'alternatives comme GitLab ou Codeberg.

InfrastructureOpinion
1 source
Les puces IA moins coûteuses d'Amazon séduisent les entreprises
43The Information AI 

Les puces IA moins coûteuses d'Amazon séduisent les entreprises

Les puces d'IA maison d'Amazon séduisent un nombre croissant d'entreprises grâce à un argument massue : le prix. Selon Karol Piatek, consultant en infrastructure IA au cabinet irlandais Co Driver Labs, l'utilisation des puces Inferentia2 et Trainium2 d'Amazon pour exécuter des modèles d'IA existants, ce qu'on appelle l'inférence, peut coûter jusqu'à 80 % moins cher que les H100 de Nvidia, à charge de travail comparable. Amazon multiplie depuis plusieurs mois les discussions avec des entreprises gérant leurs propres centres de données pour leur proposer ces alternatives : Trainium pour l'entraînement de nouveaux modèles, Inferentia pour le déploiement. L'écart de prix est suffisamment significatif pour peser dans les décisions d'infrastructure, surtout dans un contexte où les budgets IA explosent. Pour les entreprises qui n'ont pas besoin des performances brutes maximales de Nvidia mais cherchent à industrialiser leurs usages IA à moindre coût, les puces Amazon représentent un compromis crédible. L'argument de la disponibilité joue aussi : les H100 restent difficiles à obtenir en grande quantité. Cette dynamique s'inscrit dans une tendance de fond : les grands hyperscalers, Amazon, Google, Microsoft, investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia, dont la domination sur le marché des accélérateurs IA est quasi totale. Amazon, qui vend déjà ces puces via AWS, tente désormais de convaincre les entreprises disposant de leurs propres infrastructures physiques, un segment jusqu'ici largement acquis à Nvidia. Si ces conversions se multiplient, la pression concurrentielle sur Jensen Huang et ses équipes pourrait s'intensifier.

UELes entreprises européennes gérant leurs propres infrastructures IA pourraient réduire leurs coûts d'inférence jusqu'à 80 % en adoptant les puces Inferentia2 d'Amazon comme alternative crédible aux H100 de Nvidia.

InfrastructureOpinion
1 source
Coherent inaugure l'extension de son site texan pour renforcer l'infrastructure optique de l'IA
44NVIDIA AI Blog 

Coherent inaugure l'extension de son site texan pour renforcer l'infrastructure optique de l'IA

Coherent, fabricant américain de composants optiques et de semi-conducteurs composés, a officiellement lancé la construction d'un bâtiment manufacturier élargi à Sherman, au Texas, ville de 45 000 habitants située à une heure au nord de Dallas. La cérémonie d'inauguration s'est tenue en présence de Jensen Huang, fondateur et PDG de NVIDIA, de Jim Anderson, PDG de Coherent, ainsi que du maire de Sherman et de la directrice exécutive du développement économique du Texas. L'expansion porte sur la production de wafers en phosphure d'indium (InP), matériau central des interconnexions optiques qui relient puces, serveurs et centres de données à la vitesse de la lumière. Coherent opère déjà ce qu'elle décrit comme la première fab 6 pouces à base d'InP au monde. L'entreprise bénéficiera d'une subvention de 50 millions de dollars dans le cadre du CHIPS Act fédéral, s'ajoutant à environ 17 millions de dollars de soutien antérieur issus du programme CHIPS du Texas et de la Sherman Economic Development Corporation. NVIDIA, de son côté, a annoncé un investissement de 2 milliards de dollars dans Coherent assorti d'un engagement d'achat pluriannuel de plusieurs milliards pour des lasers et produits de réseau optique. L'enjeu dépasse la simple extension industrielle. Les semi-conducteurs composés comme l'InP et l'arséniure de gallium constituent le système nerveux invisible de l'infrastructure IA moderne, mais leurs chaînes d'approvisionnement domestiques ont été structurellement fragiles pendant des années. Concrètement, lorsque 576 GPU s'étendent sur huit racks pour fonctionner comme un seul système, configuration prévue dans le NVIDIA Vera Rubin Ultra NVL576, le cuivre ne peut plus transporter le signal sur de telles distances sans pertes et surconsommation électrique. La photonique sur silicium et les interconnexions optiques deviennent alors incontournables : après un coût de conversion électrique-lumière, la distance est quasi gratuite en termes d'énergie. Anderson a indiqué que le site, à pleine capacité, soutiendra plus de 550 emplois directs, et des milliers d'emplois indirects. Cette inauguration s'inscrit dans un mouvement plus large de réindustrialisation du secteur des semi-conducteurs aux États-Unis, accéléré par le CHIPS Act doté d'environ 50 milliards de dollars. NVIDIA a par ailleurs annoncé la production de jusqu'à 500 milliards de dollars d'infrastructure IA sur le sol américain, avec de nouveaux sites en Arizona et au Texas. La relation entre NVIDIA et Coherent remonte à près de vingt ans, mais s'est formalisée en mars 2026 en partenariat stratégique pluriannuel. Sherman, longtemps cité anonyme du nord du Texas, s'est ainsi imposée comme l'un des symboles concrets de la course mondiale à la suprématie dans l'IA, une course qui se gagne autant dans les usines que dans les laboratoires.

InfrastructureActu
1 source
La mise en cache des conteneurs dans Amazon SageMaker AI accélère le déploiement des modèles
45AWS ML Blog 

La mise en cache des conteneurs dans Amazon SageMaker AI accélère le déploiement des modèles

Amazon Web Services vient d'annoncer une nouvelle fonctionnalité pour SageMaker AI : le cache des images de conteneurs lors des événements de mise à l'échelle. Concrètement, cette optimisation réduit jusqu'à 51 % la latence de démarrage lors du lancement de nouvelles instances, et jusqu'à 2x pour les modèles d'IA générative en conditions réelles. Pour illustrer le gain : avec le modèle Qwen3-8B (16 Go) sur une instance ml.g6.2xlarge et le conteneur LMI de SageMaker (17,7 Go compressé), la latence de démarrage passe de 525 secondes à 258 secondes. Avant le cache, le téléchargement de l'image depuis Amazon ECR prenait à lui seul 333 secondes, en parallèle du téléchargement des poids du modèle depuis S3 (168 secondes). Avec le cache, l'image est déjà disponible localement (0 seconde), et le téléchargement du modèle tombe à 77 secondes, la compétition pour la bande passante réseau étant éliminée. L'enjeu est considérable pour les équipes qui déploient des modèles de langage en production. Lors d'un pic de trafic, chaque seconde de latence au démarrage d'une nouvelle instance se traduit directement en requêtes non servies ou en surcoût d'instances pré-chauffées. Les workloads d'IA générative sont particulièrement touchés car ils utilisent des conteneurs très volumineux, LMI (basé sur vLLM), vLLM natif, NVIDIA Triton, qui pouvaient représenter la majeure partie du temps d'initialisation. La fonctionnalité s'applique aux deux architectures d'endpoints SageMaker : les endpoints à modèle unique (où chaque nouvelle instance héberge sa propre copie du modèle) et les endpoints à composants d'inférence (où de nouvelles instances sont lancées uniquement quand aucune instance existante n'a la capacité suffisante). Si le cache est indisponible, SageMaker revient automatiquement au téléchargement depuis ECR, sans interruption de service. Cette annonce s'inscrit dans une stratégie progressive d'AWS pour réduire la latence de mise à l'échelle sur SageMaker. La plateforme avait déjà introduit des métriques CloudWatch sub-minute permettant de détecter les besoins de scale-out jusqu'à 6 fois plus vite, ainsi qu'un cache de données par instance pour les composants d'inférence réutilisant des instances déjà en cours d'exécution. Mais ces solutions précédentes ne couvraient pas le cas où une toute nouvelle instance devait être lancée, le scénario le plus coûteux. Le cache de conteneurs comble précisément ce manque. Dans un contexte où la concurrence entre AWS, Google Cloud et Azure s'intensifie sur les performances d'inférence, cette optimisation renforce la position de SageMaker pour les déploiements LLM à grande échelle, notamment dans les entreprises qui font face à des pics de charge imprévisibles.

UELes entreprises françaises et européennes déployant des LLMs sur Amazon SageMaker bénéficieront directement de cette réduction de latence au scale-out, sans configuration supplémentaire.

InfrastructureActu
1 source
Databricks affirme avoir résolu le problème des pipelines de données qui freinait les agents IA depuis des décennies
46VentureBeat AI 

Databricks affirme avoir résolu le problème des pipelines de données qui freinait les agents IA depuis des décennies

Lors du Data + AI Summit de mardi, Databricks a annoncé deux nouveaux produits conçus pour résoudre un problème vieux de plusieurs décennies dans le domaine des données : la coexistence des bases de données transactionnelles et analytiques. La première annonce, Lakehouse//RT, promet une latence de requête en quelques millisecondes directement sur les tables Delta et Iceberg gouvernées, supprimant la couche de service temps réel distincte que les entreprises maintenaient en parallèle de leurs lakehouses. La seconde, LTAP (Lake Transactional/Analytical Processing), stocke les données transactionnelles natives de Postgres directement en format Delta et Iceberg dès l'écriture, éliminant ainsi les pipelines ETL qui reliaient depuis des décennies les systèmes opérationnels et analytiques. Reynold Xin, cofondateur de Databricks, a qualifié cette simplification de "saint Graal pour les agents" lors d'un entretien avec VentureBeat. L'enjeu est structurel pour les systèmes d'IA agentiques : un agent qui raisonne en continu et agit sur des données en direct ne peut pas se permettre de traverser des pipelines de transformation avant d'accéder à l'information dont il a besoin. LTAP répond à ce défi en unissant les données au niveau de la couche de stockage, là où des approches comme l'HTAP (Hybrid Transactional/Analytical Processing, popularisé par Gartner en 2014) avaient tenté une convergence au niveau des moteurs de requête. La clé technique réside dans la conversion ligne-colonne effectuée en amont, dans la couche de cache entre les instances Postgres et le stockage objet : cette compression réduit les données d'un facteur supérieur à dix, rendant viable un accès OLTP sur un stockage objet qui présente normalement des latences de l'ordre de la seconde. Databricks n'est pas le premier à tenter cette unification. Des acteurs comme SingleStore (anciennement MemSQL), SAP HANA ou Oracle MySQL HeatWave ont commercialisé des solutions HTAP sans jamais véritablement s'imposer comme standard. Xin considère d'ailleurs l'HTAP comme "un échec de l'industrie plutôt qu'un succès". Lakebase, le service PostgreSQL serverless de Databricks mis en disponibilité générale en février, constitue la fondation de cette nouvelle architecture. Avec la montée en puissance du "vibe coding" et des applications générées par IA, la complexité de l'infrastructure de données devient un goulot d'étranglement critique pour les agents qui doivent raisonner analytiquement en temps réel. La promesse de Databricks est simple : un seul exemplaire de la donnée, accessible simultanément par Postgres pour le transactionnel et par Spark pour l'analytique, sans copie, sans gouvernance fragmentée, sans pipeline intermédiaire.

UELes entreprises européennes déployant des agents IA sur des architectures lakehouse pourraient bénéficier directement de l'élimination des pipelines ETL et d'une latence réduite pour l'accès aux données transactionnelles en temps réel.

InfrastructureOpinion
1 source
Paralléliser le décodage spéculatif avec P-EAGLE sur Amazon SageMaker AI
47AWS ML Blog 

Paralléliser le décodage spéculatif avec P-EAGLE sur Amazon SageMaker AI

Amazon Web Services a mis en open source une nouvelle méthode d'inférence appelée P-EAGLE (Parallel-EAGLE), désormais intégrée nativement dans Amazon SageMaker JumpStart pour accélérer le déploiement de grands modèles de langage en production. Basée sur la technique du décodage spéculatif, P-EAGLE transforme une étape jusqu'ici séquentielle en opération entièrement parallèle : au lieu de générer les tokens candidats un par un via plusieurs passes successives, elle les prédit tous simultanément en une seule passe vers l'avant. Sur des GPU NVIDIA B200 avec quantification FP8, des benchmarks réalisés sur le modèle Qwen3-Coder-30B-A3B-Instruct montrent des gains allant jusqu'à 1,69x de débit supplémentaire par rapport à EAGLE-3, le framework de référence précédent. À une concurrence de 1, P-EAGLE avec K=11 tokens spéculatifs atteint 1 167 tokens de sortie par seconde, contre 955 pour EAGLE-3 et seulement 294 sans spéculation. Cette avancée répond à un problème concret qui freinait les déploiements à grande échelle : plus on voulait spéculer loin dans la séquence, plus la latence augmentait de façon linéaire, annulant une partie du gain. P-EAGLE casse cette contrainte en remplissant les positions intermédiaires avec des marqueurs appris, permettant de prédire plusieurs tokens à la fois sans coût séquentiel supplémentaire. Pour les entreprises qui servent des millions de requêtes quotidiennes sur des modèles de code ou de génération longue, un gain de 1,69x de débit se traduit directement en réduction de coûts d'infrastructure ou en capacité à absorber davantage de trafic sans redimensionner le parc de GPU. L'intégration dans SageMaker JumpStart simplifie encore l'adoption : les développeurs peuvent déployer un endpoint optimisé P-EAGLE sans gérer manuellement les kernels CUDA sous-jacents ni les configurations de serving distribué. Le décodage spéculatif existe depuis plusieurs années comme technique d'optimisation d'inférence, et EAGLE en était devenu l'implémentation la plus performante, avec EAGLE-3 introduisant des prédictions directes de tokens et la fusion de représentations issues de plusieurs couches du modèle cible. Mais toutes ces versions conservaient une limite architecturale fondamentale héritée de l'autoregressivité du modèle brouillon. AWS a contourné ce plafond avec P-EAGLE, qu'il a choisi de reverser à la communauté open source plutôt que d'en faire un avantage exclusif. La méthode s'inscrit dans une compétition intense entre fournisseurs cloud pour offrir l'inférence la plus rapide et la moins coûteuse, notamment sur les modèles de code et de raisonnement qui génèrent des séquences longues. Avec son intégration SageMaker, AWS positionne P-EAGLE comme la voie par défaut pour les déploiements de modèles open-weight en production, au moment où des modèles comme Qwen3 et leurs successeurs s'imposent comme alternatives sérieuses aux modèles propriétaires.

UELes équipes européennes déployant des grands modèles en production sur infrastructure cloud peuvent bénéficier indirectement d'une réduction des coûts d'inférence GPU.

InfrastructureActu
1 source
HPE AI Factory avec NVIDIA s'étend à l'ère des agents autonomes
48NVIDIA AI Blog 

HPE AI Factory avec NVIDIA s'étend à l'ère des agents autonomes

HPE et NVIDIA ont annoncé lors de la conférence HPE Discover à Las Vegas, qui se tient jusqu'au 18 juin 2026, une expansion majeure de leur plateforme conjointe HPE AI Factory with NVIDIA. Les deux groupes y introduisent plusieurs nouveautés : le processeur NVIDIA Vera CPU intégré au serveur HPE ProLiant Compute DL394 Gen12, disponible en 2027, ainsi que le NVIDIA Agent Toolkit désormais inclus dans HPE Private Cloud AI. La plateforme s'enrichit également du calcul confidentiel NVIDIA (Confidential Computing) sur l'ensemble de la gamme, et d'un nouveau système HPE Compute XD700 fondé sur l'architecture NVIDIA HGX Rubin NVL8, capable d'accueillir jusqu'à 128 GPU Rubin par rack. La Bourse de New York (NYSE), en partenariat avec Redpanda et HPE, fait partie des premiers clients entreprises à explorer le Vera CPU sur ce serveur. Ces annonces marquent un tournant dans l'industrialisation de l'IA agentique : les entreprises ne testent plus des preuves de concept, elles déploient des systèmes autonomes en production. Le Vera CPU est conçu spécifiquement pour les boucles agentiques, c'est-à-dire les appels d'outils, l'orchestration de tâches et le traitement de données en temps réel que requièrent les agents IA modernes. Le NVIDIA Agent Toolkit apporte un système d'exploitation agentique complet incluant les modèles ouverts Nemotron, un environnement d'exécution sécurisé (OpenShell) et des blueprints NemoClaw. HPE y ajoute un registre local d'agents permettant aux entreprises de valider modèles, compétences et outils avant leur déploiement, tandis que le logiciel HPE Zerto détecte les comportements aberrants et peut revenir à un état sain grâce à une protection continue des données. La sécurité des charges de travail IA constitue l'autre axe structurant de cette expansion. Le calcul confidentiel NVIDIA, désormais disponible sur toute la gamme HPE AI Factory via HPE Services, protège les modèles et les données sensibles pendant leur exécution, notamment pour les déploiements souverains ou sur site où la confidentialité est une contrainte réglementaire. Les cartes réseau NVIDIA BlueField et la pile logicielle NVIDIA DOCA assurent une politique de zéro confiance appliquée directement dans le silicium, avec chiffrement réseau et détection des menaces sans pénalité de performance. Cette orientation répond à une pression croissante des secteurs réglementés, finance, santé, défense, qui cherchent à exploiter des agents autonomes sans exposer leurs données propriétaires. La plateforme Vera Rubin, qui sous-tend ces systèmes, est elle-même calibrée pour des modèles de plus d'un trillion de paramètres, positionnant HPE et NVIDIA au cœur de la prochaine vague d'infrastructure IA à l'échelle frontier.

UELe calcul confidentiel NVIDIA et les options de déploiement souverain on-premise répondent directement aux contraintes réglementaires européennes (RGPD, AI Act) pesant sur les secteurs finance, santé et défense.

InfrastructureActu
1 source
Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0
49NVIDIA AI Blog 

Le plus rapide, le plus grand, le plus puissant : NVIDIA Blackwell domine le MLPerf Training 6.0

NVIDIA a dominé l'édition MLPerf Training 6.0, le benchmark industriel de référence pour évaluer les performances d'entraînement des modèles d'IA, en remportant chaque catégorie du classement. La plateforme Blackwell de l'entreprise a affiché les temps d'entraînement les plus rapides sur la totalité des sept benchmarks du test, dont deux nouvelles charges de travail ajoutées à cette édition : DeepSeek-V3 671B et GPT-OSS-20B, deux modèles de type mixture-of-experts (MoE). NVIDIA est également le seul acteur à avoir soumis des résultats sur l'ensemble des sept benchmarks. À grande échelle, la société a déployé un cluster de 8 192 GPU GB200 NVL72 pour entraîner le modèle DeepSeek-V3, la plus vaste soumission Blackwell jamais réalisée dans MLPerf. Les partenaires cloud ont également brillé : CoreWeave a atteint la cible de qualité pour DeepSeek-V3 671B en seulement 2,02 minutes à 8 192 GPU avec des systèmes GB300 NVL72, tandis que Microsoft Azure a entraîné Llama 3.1 405B à la même échelle en 7,07 minutes, établissant un record sur ce benchmark. Ces résultats ont une portée directe sur la compétitivité des équipes qui construisent des modèles frontier. Raccourcir un cycle d'entraînement de plusieurs heures permet d'itérer plus vite, de réduire les coûts d'infrastructure et de lancer des produits commerciaux plus tôt. Le système GB300 NVL72 s'est montré jusqu'à 1,6 fois plus rapide que son prédécesseur GB200 NVL72 à scale identique, grâce à une densité de calcul accrue via le format numérique NVFP4, une capacité mémoire élargie et une enveloppe de puissance plus haute permettant au GPU de maintenir ses performances en continu. La technologie NVLink de cinquième génération, qui connecte les 72 GPU d'un même rack en un unique pool unifié de calcul et de mémoire, s'avère déterminante pour les architectures MoE, où les tokens doivent être acheminés dynamiquement vers différents sous-réseaux experts répartis sur de nombreux GPU. MLPerf est un programme de benchmarks indépendant, soumis à une révision par les pairs, qui sert de référence commune à l'ensemble de l'industrie pour comparer les performances d'entraînement de manière reproductible. NVIDIA y participe depuis ses débuts pour valider publiquement ses avancées matérielles. Avec Blackwell, l'entreprise consolide son leadership dans un moment clé : les modèles MoE, popularisés notamment par DeepSeek et Mistral, s'imposent comme l'architecture dominante pour les grands modèles de langage, car ils permettent de réduire le coût d'inférence tout en maintenant un haut niveau de performance. La prochaine génération de systèmes Blackwell Ultra et les progrès sur l'entraînement en précision réduite (NVFP4) indiquent que NVIDIA entend rester l'infrastructure de référence pour quiconque cherche à entraîner des modèles à la frontière des capacités actuelles.

UELes équipes européennes entraînant des modèles frontier en cloud bénéficieront indirectement de ces gains de performance matérielle, mais aucune entreprise ou institution française ou européenne n'est directement impliquée dans ces résultats.

InfrastructureActu
1 source
Hydra Host lève 100 millions de dollars pour développer ses usines dédiées à l’IA
50Le Big Data 

Hydra Host lève 100 millions de dollars pour développer ses usines dédiées à l’IA

Hydra Host, une société américaine spécialisée dans les infrastructures d'intelligence artificielle, a annoncé le 15 juin 2026 une levée de fonds de 100 millions de dollars en série A. L'opération est menée par Kindred Ventures et réunit des investisseurs de premier plan : NVIDIA, ARK Invest, Founders Fund, Comcast Ventures, Magnetar, PEAK6, Sply Capital, Era Funds et 10x Founders. Cet apport de capitaux doit financer l'expansion des "AI factories" de l'entreprise, des infrastructures capables d'héberger et d'exploiter des milliers de GPU pour l'entraînement et l'inférence de modèles d'IA. Hydra Host opère déjà sur plus de 50 datacenters répartis dans les Amériques, la région Asie-Pacifique et la zone Europe-Moyen-Orient-Afrique. Son système d'exploitation propriétaire, baptisé Brokkr AI Factory, sert de couche logicielle unifiée pour transformer ces infrastructures en plateformes GPU-as-a-Service rentables. Verizon Business a déjà conduit une expérimentation avec la plateforme, validant sa capacité à monétiser des capacités de calcul existantes. L'enjeu dépasse la simple disponibilité de puces graphiques. Ce que propose Hydra Host, c'est de résoudre le problème du déploiement à grande échelle : des milliers de GPU existent dans des datacenters sous-exploités, faute d'outillage adapté pour les transformer en services IA opérationnels. En jouant le rôle d'intermédiaire entre opérateurs d'infrastructure et entreprises consommatrices de calcul, Hydra Host répond à une demande que les hyperscalers traditionnels, Amazon Web Services, Microsoft Azure, Google Cloud, peinent à absorber seuls. Pour les entreprises, l'accès à des ressources souveraines et sécurisées, hors des grands clouds américains, représente un avantage stratégique croissant, notamment en Europe où les questions de résidence des données restent sensibles. La levée s'inscrit dans un mouvement plus large de structuration du marché dit "néo-cloud" ou GPU distribué. Après une première phase dominée par la course aux puces, portée par la montée en puissance de NVIDIA, dont la participation à ce tour de table n'est pas anodine, l'industrie entre dans une phase où la valeur se déplace vers la couche opérationnelle : comment déployer vite, fiabiliser, et rendre accessible la puissance de calcul. Des acteurs comme CoreWeave, Lambda Labs ou Together AI occupent des segments proches, mais Hydra Host parie sur un modèle hybride qui sert à la fois les opérateurs et les consommateurs finaux. Avec 100 millions supplémentaires, la société dispose des ressources pour étendre son réseau de datacenters et affiner son système d'exploitation avant que la concurrence ne se consolide davantage.

UELa présence d'Hydra Host dans la zone EMEA et son modèle GPU-as-a-Service distribué hors hyperscalers américains pourraient offrir aux entreprises européennes une alternative pour l'accès à des ressources de calcul conformes aux exigences de résidence des données.

InfrastructureOpinion
1 source