Aller au contenu principal

Infrastructure — page 3

346 articles · page 3 sur 7

Infrastructure IA : data centers, puces GPU/TPU, cloud computing, énergie et hardware.

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave
101Le Big Data InfrastructureOpinion

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave

Dell a livré à CoreWeave le premier système NVIDIA Vera Rubin NVL72 opérationnel, un rack unique intégrant 72 GPU Rubin et 36 processeurs Vera personnalisés. Cette machine atteint une puissance de calcul de 3,6 exaFLOPS, soit une capacité suffisante pour entraîner et faire tourner des modèles d'intelligence artificielle comptant des milliers de milliards de paramètres. Le système adopte un refroidissement liquide intégral, désormais indispensable pour absorber la chaleur et la consommation énergétique générées par une telle densité de composants. CoreWeave, spécialiste américain du cloud GPU qui alimente déjà de nombreux acteurs de l'IA générative, devient ainsi l'un des premiers opérateurs au monde à déployer cette génération d'infrastructure dans un environnement de production réel. Ce déploiement illustre une tendance de fond qui redessine l'économie du calcul pour l'IA : la densification. Regrouper 72 GPU dans un seul rack ne relève pas de l'exploit pour la galerie, mais répond à une contrainte très concrète. Plus les modèles grossissent, plus les échanges de données entre composants deviennent un goulot d'étranglement. En rapprochant physiquement les GPU, on réduit les latences de communication et on améliore le débit global du système, ce qui se traduit directement par des temps d'inférence plus courts et une capacité d'entraînement plus élevée. Pour les opérateurs cloud qui facturent leurs clients à l'heure de GPU, cette efficacité accrue est un avantage compétitif direct. Pour les laboratoires qui entraînent les prochaines générations de modèles, c'est la condition nécessaire pour rester dans la course. Cette livraison s'inscrit dans un cycle d'escalade technologique qui s'accélère depuis le lancement de ChatGPT fin 2022. NVIDIA enchaîne les générations de puces à un rythme inédit : après les H100, les H200 et les Blackwell, la famille Vera Rubin représente la prochaine marche. Dell, longtemps perçu comme un constructeur de serveurs classiques, a clairement choisi de se repositionner comme intégrateur de référence pour les infrastructures d'IA à très grande échelle. CoreWeave, de son côté, a levé plusieurs milliards de dollars ces dernières années pour construire une alternative aux clouds hyperscalers comme AWS ou Google Cloud, spécifiquement taillée pour les charges de travail GPU intensives. La combinaison des deux acteurs sur ce premier déploiement Vera Rubin n'est pas anodine : elle signale que l'infrastructure d'IA de prochaine génération est prête à sortir des laboratoires pour entrer dans les centres de données commerciaux. À ce rythme, les 72 GPU d'aujourd'hui pourraient paraître modestes dès 2027.

UELa disponibilité commerciale de cette infrastructure GPU de prochaine génération conditionnera indirectement la compétitivité des acteurs européens de l'IA dans la course à l'entraînement de très grands modèles.

1 source
L'écosystème cloud IA de NVIDIA s'étend dans le monde entier pour répondre à la demande mondiale en calcul IA
102NVIDIA AI Blog 

L'écosystème cloud IA de NVIDIA s'étend dans le monde entier pour répondre à la demande mondiale en calcul IA

NVIDIA accélère la construction d'une infrastructure mondiale d'« usines à IA », en s'appuyant sur un écosystème croissant de partenaires cloud. Jensen Huang, fondateur et PDG de NVIDIA, a annoncé lors d'une communication officielle que cet écosystème couvre désormais six continents, avec l'arrivée de deux nouveaux partenaires : Cassava en Afrique et Claro en Amérique du Sud. Des acteurs comme CoreWeave, Firmus, IREN et Nscale élargissent leurs capacités pour répondre à la demande des laboratoires d'IA, des entreprises et des gouvernements. En Australie, Firmus Technologies déploie son « Project Southgate », un programme de data centers en Tasmanie, Melbourne, Australie-du-Sud et Nouvelle-Galles du Sud, en privilégiant les énergies renouvelables et les infrastructures modulaires. La société a également ouvert des installations à Singapour en partenariat avec ST Telemedia Global Data Centres. Cet élargissement répond à une explosion de la demande en tokens, l'unité de traitement des modèles de langage, portée par les applications d'IA agentique, les copilotes d'entreprise et les modèles frontières. Pour les nations et industries réglementées, ces clouds régionaux permettent de respecter des exigences de souveraineté numérique et de conformité locale, sans dépendre d'infrastructures centralisées aux États-Unis. Pour les développeurs et startups, ils réduisent la latence et simplifient l'accès aux GPU NVIDIA, combinés aux logiciels d'IA et aux réseaux haute performance de la marque. L'argument économique mis en avant par NVIDIA est le coût par token et le débit par watt, deux métriques déterminantes pour qui exploite des modèles d'IA en production à grande échelle. Cette expansion s'inscrit dans une stratégie plus large de NVIDIA pour s'imposer non plus seulement comme fabricant de puces, mais comme architecte de l'ensemble de la chaîne d'infrastructure IA, du silicium aux logiciels en passant par le cloud. Face à la montée en puissance de concurrents comme AMD et aux investissements massifs des hyperscalers (Google, Microsoft, Amazon) dans leurs propres puces, NVIDIA cherche à verrouiller l'écosystème via des partenariats cloud qui intègrent sa pile technologique complète. Des partenaires comme GMI Cloud, Naver Cloud, Indosat Ooredoo Hutchison ou YTL ancrent cette stratégie dans des marchés à forte croissance : Asie du Sud-Est, Moyen-Orient, Afrique. La prochaine étape sera d'observer si ces capacités régionales parviennent à absorber la demande des grands modèles frontières, dont les coûts d'entraînement continuent de croître exponentiellement.

UELes clouds régionaux NVIDIA permettent aux entreprises et industries réglementées européennes de répondre aux exigences de souveraineté numérique sans dépendre d'infrastructures centralisées aux États-Unis.

InfrastructureActu
1 source
Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA
103NVIDIA AI Blog 

Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA

Le workflow a été bloqué pour revue. Je fais la traduction directement. Taiwan abrite plus de 500 partenaires de l'écosystème NVIDIA, et c'est là que convergent plus d'un million de composants MGX destinés à la nouvelle infrastructure Vera Rubin, répartis sur 25 sites de production. Cette architecture de grande échelle implique l'ensemble de la chaîne d'approvisionnement : des acteurs de la fabrication de puces comme TSMC, SPIL, Kinsus, KYEC et UMTC aux géants de l'assemblage de serveurs que sont Foxconn, Pegatron, Quanta Cloud Technology (QCT), Wistron et Inventec. Mais ces industriels ne se contentent plus de construire l'infrastructure IA mondiale, ils l'appliquent à leurs propres usines. Foxconn déploie les blueprints NVIDIA Factory Operations et NemoClaw pour développer MoMClaw, un agent de gestion des opérations industrielles qui analyse en temps réel les signaux capteurs et machines, et fournit aux opérateurs des plans d'action en langage naturel. Les gains estimés sont substantiels : réduction de 80 % du temps d'analyse des causes racines, hausse de 15 % de la productivité, baisse de 10 % des pannes machines. La société construit par ailleurs un supercalculateur cloud à Taiwan pour 1,4 milliard de dollars, équipé de 10 000 GPU NVIDIA GB300 NVL72. L'enjeu dépasse la seule performance opérationnelle : Taiwan est en train de redéfinir ce que signifie construire de l'infrastructure IA à l'échelle industrielle. TSMC utilise les bibliothèques CUDA-X et des modèles IA pour la lithographie computationnelle, la simulation de transistors et le contrôle qualité, la bibliothèque cuLitho d'NVIDIA améliore le temps de cycle ou le coût de 20 à 50 % par rapport aux solutions CPU, tandis que cuEST accélère la simulation de matériaux semiconducteurs d'un facteur 50. QCT, de son côté, exploite des jumeaux numériques basés sur NVIDIA Omniverse pour planifier ses usines, et développe avec sa filiale Techman Robot un kit IA physique appuyé sur NVIDIA Jetson Thor et la plateforme Isaac GR00T, pour des robots humanoïdes comme le TM Xplore I, capables d'assembler des serveurs. Wistron simule des environnements de test thermique sur ses sites mondiaux grâce au framework PhysicsNeMo et à Cadence Reality DC Design. Cette dynamique s'inscrit dans une transition structurelle du secteur : NVIDIA ne se positionne plus seulement comme fournisseur de GPU, mais comme architecte d'un écosystème industriel intégré, où ses plateformes logicielles (Omniverse, Isaac, Metropolis, NeMo) pilotent autant la production que le produit final. Taiwan, qui concentre l'essentiel de la capacité mondiale de fabrication de semi-conducteurs avancés, devient ainsi le laboratoire grandeur nature de l'IA physique appliquée au manufacturing. Avec la montée en charge de Vera Rubin pour alimenter les "agentic AI factories" à l'échelle mondiale, la question n'est plus de savoir si l'IA va transformer l'industrie manufacturière, mais à quelle vitesse les acteurs qui ne participent pas à cet écosystème pourront rester compétitifs.

InfrastructureActu
1 source
NVIDIA améliore les agents IA locaux sur ses PC RTX et DGX Spark
104NVIDIA AI Blog 

NVIDIA améliore les agents IA locaux sur ses PC RTX et DGX Spark

NVIDIA a profité du salon Computex Taipei, lors de sa conférence GTC dédiée, pour annoncer une nouvelle gamme de PC Windows baptisée RTX Spark, spécialement conçue pour faire tourner des agents d'intelligence artificielle en local. Ces machines embarquent 1 pétaflop de puissance de calcul IA et 128 Go de mémoire unifiée, ce qui leur permet de gérer des agents autonomes directement sur l'appareil, sans passer par le cloud. NVIDIA a également présenté la DGX Station pour Windows, un supercalculateur de bureau destiné aux professionnels, intégrant un GPU et un CPU de niveau datacenter dans un format compact. S'ajoutent à ces annonces : le runtime NVIDIA OpenShell pour Windows, le blueprint NemoClaw étendu à toute la gamme RTX et DGX, des gains de performance d'inférence multipliés par deux sur les modèles agentiques via la prédiction multi-token dans llama.cpp et vLLM, ainsi que des outils d'utilisation informatique développés par H Company pour les PC RTX et DGX. Des partenaires comme Adobe, Blender et ComfyUI intègrent également de nouvelles capacités graphiques propulsées par NVIDIA. L'ensemble de ces mises à jour est prévu pour l'automne 2025. Ces annonces marquent un tournant dans la démocratisation des agents IA personnels, jusqu'ici freinée par l'impossibilité de les exécuter de façon sécurisée et privée sur des machines grand public. Avec RTX Spark, NVIDIA veut transformer le PC de l'utilisateur en un véritable assistant autonome capable d'automatiser des tâches complexes, de raisonner sur des flux de travail multi-applications, de générer des contenus visuels et de rechercher sémantiquement dans des fichiers locaux, le tout sans envoyer de données sensibles vers des serveurs distants. Le runtime OpenShell, développé en partenariat avec Microsoft, introduit une couche de sécurité permettant à l'utilisateur de définir précisément ce que les agents peuvent ou ne peuvent pas faire, et de masquer les informations personnelles dans les requêtes envoyées vers des modèles cloud. Ce niveau de contrôle répond à une demande forte des utilisateurs professionnels et des développeurs qui hésitaient à déployer ces technologies faute de garanties suffisantes. L'engouement pour les agents IA en local s'est surtout manifesté jusqu'ici dans les communautés open source : des projets comme OpenClaw et Hermes Agent connaissent une adoption rapide sur GitHub, preuve d'un intérêt technique réel mais encore circonscrit aux initiés. NVIDIA s'appuie sur ce momentum pour structurer un écosystème plus large, en intégrant ces outils dans ses nouvelles primitives de sécurité Windows et en les distribuant via des installateurs simplifiés sur toute sa gamme de matériel. La collaboration avec Microsoft est centrale : les nouvelles primitives de sécurité Windows apportent identité, confinement et politique d'accès pour les agents natifs, tandis qu'NVIDIA comble les lacunes côté performance et confidentialité. Face à l'essor des solutions cloud d'OpenAI, Google ou Anthropic, NVIDIA joue clairement la carte de la souveraineté locale comme différenciateur, en pariant que la prochaine vague d'adoption des agents passera par des appareils personnels puissants et de confiance.

UEH Company, startup française spécialisée en agents IA, voit ses outils d'utilisation informatique intégrés nativement dans l'écosystème NVIDIA RTX et DGX, lui offrant une distribution mondiale sur du matériel grand public.

💬 NVIDIA joue la carte de la souveraineté locale contre le cloud, et c'est plus malin qu'il n'y paraît. OpenShell avec ses politiques d'accès par agent, c'est la réponse à la vraie question des pros : pas la performance, le contrôle. Et H Company en intégration native sur toute la gamme RTX, c'est le genre de deal qui change la trajectoire d'une startup.

Microsoft et Nvidia s'associent pour des PC IA capables d'exécuter de vrais agents autonomes
105The Decoder 

Microsoft et Nvidia s'associent pour des PC IA capables d'exécuter de vrais agents autonomes

Microsoft et Nvidia s'apprêtent à dévoiler conjointement une nouvelle génération d'ordinateurs sous Windows, prévue pour la semaine prochaine lors des conférences Computex et Build. Pour la première fois, Nvidia y imposera ses propres puces en tant que processeur principal, rompant avec le monopole d'Intel et AMD sur ce segment. Les premiers appareils concernés seront des machines Dell ainsi que des modèles de la gamme Surface de Microsoft, confirmant une collaboration industrielle inédite entre les deux géants. Le tournant majeur réside dans le logiciel : Microsoft prépare une nouvelle plateforme logicielle basée sur le framework OpenClaw, conçue pour permettre à des agents IA d'exécuter des tâches directement en local sur les PC Windows. Contrairement aux assistants cloud, ces agents fonctionneraient sans connexion internet, traitant données et automatisations directement sur la machine. Pour les professionnels et entreprises soucieux de confidentialité ou de latence, cela représente un changement de paradigme concret dans l'usage quotidien de l'IA. Cette initiative s'inscrit dans la tentative de Microsoft de relancer sa vision des PC augmentés par l'IA, après l'échec commercial relatif des Copilot+ PC lancés en 2024, dont les fonctionnalités comme Recall avaient suscité plus de controverses que d'enthousiasme. En s'appuyant cette fois sur les puces Nvidia et un cadre d'agents autonomes plus opérationnel, Microsoft cherche à convaincre le marché que l'IA embarquée peut tenir ses promesses de productivité réelle. La bataille pour définir le PC de l'ère agentique ne fait que commencer.

UELes entreprises françaises et européennes, particulièrement sensibles au RGPD, bénéficieront d'agents IA fonctionnant en local sans transfert de données vers le cloud, réduisant les risques de conformité.

💬 Après le fiasco Recall, Microsoft repart avec Nvidia et des agents qui tournent en local, sans connexion. Pour les boîtes coincées entre IA et RGPD, c'est le premier truc qui tient vraiment la route depuis longtemps. Bon, faut quand même que ça tienne en prod, parce que les promesses sur les PC IA, on commence à connaître.

InfrastructureOpinion
1 source
Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production
106The Decoder 

Le code : outil de raisonnement et d'action des agents IA, pas seulement leur production

Un article de synthèse publié récemment soutient que le véritable goulot d'étranglement dans le développement d'agents IA autonomes n'est pas le modèle de langage lui-même, mais la couche logicielle qui l'entoure. Baptisée "harness", cette infrastructure regroupe les outils externes, la mémoire persistante, les systèmes de test et les mécanismes de contrôle des permissions. C'est elle, selon les auteurs, qui transforme un modèle stateless en agent opérationnel. Le laboratoire chinois Deepseek a déjà tiré les conclusions pratiques de cette thèse en montant à Pékin une équipe dédiée exclusivement au développement du harness, avec une formule qui résume tout : modèle plus harness égal agent IA. Cela repose la question fondamentale de la valeur dans l'écosystème IA. Si le modèle seul ne suffit pas, les entreprises qui maîtrisent l'orchestration logicielle autour du modèle, et non uniquement l'entraînement, détiennent un avantage concurrentiel décisif. Pour les développeurs et les équipes produit, cela signifie que construire des agents performants exige autant d'ingénierie système que de puissance brute en paramètres. Cette vision s'inscrit dans une tendance plus large où les grands laboratoires et startups investissent massivement dans les frameworks agentiques. LangChain, LlamaIndex, ou encore les outils natifs d'Anthropic et OpenAI illustrent cette course à l'infrastructure plutôt qu'au modèle. Le mouvement de Deepseek, qui structure une équipe entière autour du harness plutôt que de simplement scaler les paramètres, pourrait annoncer une réorganisation profonde des priorités dans la course à l'IA agentique.

InfrastructureOpinion
1 source
ByteDance conçoit ses puces IA façon Groq
107The Information AI 

ByteDance conçoit ses puces IA façon Groq

ByteDance, la maison mère de TikTok, développe une nouvelle puce destinée à faire tourner des modèles d'intelligence artificielle. Selon trois sources proches du dossier, cette puce s'inspirerait de l'architecture des "language processing units" (LPU) conçus par Groq, une entreprise américaine partenaire de Nvidia, réputée pour exécuter les modèles d'IA à moindre coût. ByteDance travaille également en étroite collaboration avec InnoStar Semiconductor, une startup chinoise spécialisée dans la mémoire, pour intégrer sa technologie dans cette nouvelle puce. Ce développement illustre la volonté de ByteDance de bâtir une infrastructure IA entièrement maîtrisée en interne, en s'affranchissant progressivement de la dépendance aux fournisseurs étrangers. Alors que les restrictions américaines à l'exportation de puces Nvidia vers la Chine se durcissent, cette initiative stratégique permettrait à l'entreprise de sécuriser ses capacités de calcul pour ses produits d'IA, notamment son assistant Doubao, qui compte des centaines de millions d'utilisateurs. Pour l'industrie technologique chinoise, c'est un signal fort : les géants locaux accélèrent leur montée en puissance dans le semi-conducteur. Ce projet s'inscrit dans une course plus large engagée par les entreprises technologiques chinoises pour développer des alternatives nationales aux puces américaines, dans un contexte de tensions géopolitiques croissantes entre Washington et Pékin. Huawei, avec ses puces Ascend, et Alibaba figurent parmi les acteurs déjà engagés sur cette voie. ByteDance, classé parmi les leaders de l'IA en Chine, cherche ainsi à consolider sa position tout en anticipant d'éventuelles nouvelles restrictions qui pourraient menacer son accès aux technologies occidentales.

UEL'accélération de l'autonomie technologique chinoise dans les semi-conducteurs accentue la fragmentation géopolitique des chaînes d'approvisionnement en puces IA, renforçant indirectement la pression sur l'Europe pour développer sa propre filière.

💬 S'inspirer de l'archi LPU de Groq, c'est pas anodin. Groq a bâti toute sa réputation sur l'inférence rapide et pas chère, exactement ce dont ByteDance a besoin pour faire tourner Doubao à des centaines de millions d'utilisateurs sans exploser les coûts. Les restrictions Nvidia accélèrent clairement cette montée en puissance, et je suis pas convaincu que c'était le résultat que Washington espérait.

InfrastructureActu
1 source
Bye-bye Nvidia : le coup de poker de BYD avec sa puce autonome Xuanji A3 en 4 nm
108Frandroid 

Bye-bye Nvidia : le coup de poker de BYD avec sa puce autonome Xuanji A3 en 4 nm

BYD a présenté le 28 mai 2026 sa puce Xuanji A3, gravée en 4 nanomètres, conçue entièrement en interne par ses équipes. Le constructeur chinois la positionne comme la première puce automobile domestique à ce niveau de finesse de gravure, certifiée pour la conduite autonome de niveaux 3 et 4, soit des systèmes capables de gérer seuls la route dans des conditions définies, sans intervention permanente du conducteur. BYD affirme être désormais le seul acteur au monde à maîtriser l'intégralité de la chaîne de développement du silicium pour l'automobile, de la conception à l'intégration. La portée stratégique est considérable : en développant ses propres puces, BYD s'affranchit de sa dépendance à Nvidia, dont les processeurs Drive sont au cœur de la plupart des systèmes d'assistance à la conduite haut de gamme dans l'industrie. Pour le groupe de Shenzhen, déjà premier constructeur mondial de véhicules électriques, cette intégration verticale représente un levier de différenciation massif, maîtrise des coûts, indépendance face aux restrictions d'export américaines sur les semi-conducteurs, et accélération des cycles de développement. Ce mouvement s'inscrit dans une dynamique plus large de la Chine pour conquérir son autonomie technologique dans les puces avancées. Les sanctions américaines sur l'export de composants Nvidia vers la Chine ont accéléré les investissements locaux, poussant constructeurs et géants tech à internaliser ce qui était jusqu'ici externalisé. BYD rejoint ainsi Huawei, qui développe ses propres puces automobiles via la plateforme ADS, dans une course au silicium qui redessine les alliances du secteur automobile mondial.

UEL'intégration verticale de BYD dans les puces autonomes renforce sa compétitivité face aux constructeurs européens (Renault, Stellantis, Volkswagen), qui restent dépendants de fournisseurs tiers comme Nvidia pour leurs systèmes de conduite autonome.

💬 BYD qui sort sa propre puce en 4 nm, c'est l'étape qui rend tous leurs autres investissements cohérents. Renault, Volkswagen, ils dépendent encore de Nvidia pour leurs systèmes de conduite, BYD non, et cette indépendance-là va se traduire en avantage prix très vite. C'est ça qui devrait inquiéter nos constructeurs.

InfrastructureOpinion
1 source
Faciliter l'accès externe à Amazon SageMaker MLflow via un proxy REST API
109AWS ML Blog 

Faciliter l'accès externe à Amazon SageMaker MLflow via un proxy REST API

Amazon Web Services a publié un guide technique expliquant comment construire un service proxy Flask sécurisé pour accéder à Amazon SageMaker MLflow via HTTPS, sans recourir directement au SDK MLflow. Ce tutoriel s'adresse aux équipes de machine learning dont les entreprises imposent des politiques de sécurité strictes, des restrictions réseau, ou des contraintes liées aux systèmes hérités qui rendent l'utilisation directe du SDK impossible. L'architecture proposée s'articule autour de trois composants : un Application Load Balancer (ALB) d'AWS qui gère le routage du trafic entrant, un service proxy Python/Flask qui intercepte et transforme les requêtes HTTPS, et Amazon SageMaker MLflow lui-même, disponible en deux modes de déploiement distincts, soit un serveur de suivi géré (MLflow Tracking Server), soit une application serverless (MLflowApp). Le proxy prend en charge l'authentification AWS IAM, la pré-signature des URLs et la transformation des requêtes avant de les acheminer vers SageMaker. L'intérêt concret de cette solution réside dans sa capacité à réconcilier deux réalités souvent incompatibles dans les grandes organisations : les exigences de sécurité établies et l'adoption des services cloud natifs. De nombreuses entreprises en pleine transformation cloud se retrouvent bloquées face à une incompatibilité entre leurs workflows ML existants et les nouvelles infrastructures AWS, faute de pouvoir modifier leurs politiques réseau ou de sécurité. Ce proxy offre une réponse pragmatique : les systèmes métiers continuent d'envoyer des requêtes HTTPS standard, tandis que le proxy se charge de les signer avec les identifiants IAM avant de les relayer de manière sécurisée vers SageMaker MLflow. Le résultat est une intégration qui préserve la conformité sans imposer de refonte des outils existants. MLflow est devenu un standard de facto pour la gestion du cycle de vie des modèles de machine learning, permettant de tracer les expériences, versionner les modèles et piloter les déploiements. Amazon l'a intégré à SageMaker pour offrir une version managée aux équipes déjà sur son cloud, mais cette intégration supposait jusqu'ici l'utilisation du SDK Python, un prérequis bloquant dans de nombreux contextes d'entreprise. Ce guide illustre une tendance plus large dans l'ingénierie ML en entreprise : la nécessité de bâtir des couches d'adaptation pour connecter les outils modernes aux infrastructures existantes. En s'appuyant sur Flask, un framework Python minimaliste et largement maîtrisé, ainsi que sur les mécanismes d'authentification AWS standard, la solution proposée reste à faible complexité technique, réutilisable et évolutive, réduisant la friction lors des migrations cloud sans sacrifier la sécurité.

InfrastructureTuto
1 source
Apple relance son offensive pour une IA locale, sans passer par le cloud
110The Information AI 

Apple relance son offensive pour une IA locale, sans passer par le cloud

Lors de sa conférence annuelle des développeurs (WWDC), prévue le mois prochain, Apple devrait mettre en avant une série de mises à jour d'intelligence artificielle très attendues pour l'iPhone, tout en insistant sur une capacité souvent sous-estimée : celle de faire tourner des modèles d'IA directement sur ses appareils, sans passer par le cloud. Selon des personnes proches des plans de l'entreprise, Apple entend démontrer comment ses 15 ans d'expérience dans la conception de puces personnalisées pour l'iPhone, l'Apple Watch et les Mac lui confèrent un avantage concret pour exécuter des modèles d'IA localement. Cette approche contraste avec la norme du secteur, où la plupart des traitements IA s'effectuent dans des datacenters remplis de puces coûteuses. Certaines requêtes resteront néanmoins traitées dans le cloud, notamment celles qui nécessitent une complexité élevée ou un accès à de vastes bases de données en ligne : dans le cadre d'un accord avec Google, une nouvelle version de Siri fera tourner certaines requêtes sur Google Cloud, via une version sous licence du modèle Gemini. Apple a par ailleurs récemment approuvé une technologie de confidentialité développée par Nvidia pour cet environnement, ce qui suggère que l'entreprise utilisera également des puces Nvidia pour une partie de ses besoins de calcul dans Google Cloud. L'enjeu de l'IA embarquée est considérable : exécuter des modèles localement réduit la latence, améliore la confidentialité des données et diminue la dépendance à des infrastructures cloud onéreuses. Avec des milliards d'appareils Apple en circulation, la capacité à distribuer des traitements IA à cette échelle représente un levier différenciant face à des concurrents comme Google, Microsoft ou OpenAI, dont les offres reposent quasi exclusivement sur des serveurs distants. Apple accuse un retard significatif sur ses rivaux dans la course à l'IA générative. La WWDC du mois prochain sera donc un moment clé pour démontrer que la maîtrise du matériel, via ses puces Apple Silicon, peut constituer une réponse crédible à ce retard. La coexistence d'une stratégie on-device et d'un recours au cloud via des partenaires comme Google et Nvidia illustre la complexité de la position d'Apple : rattraper rapidement les leaders du secteur tout en préservant les promesses de confidentialité qui sont au coeur de son identité de marque.

UEL'approche on-device d'Apple réduit les transferts de données vers des serveurs distants, ce qui s'aligne naturellement avec les exigences du RGPD et pourrait renforcer la conformité des milliards d'appareils Apple utilisés en Europe.

💬 L'argument confidentialité tient moins bien avec Siri qui sous-traite à Google Cloud, mais c'est à côté du sujet. Ce qui compte, c'est que quinze ans de puces custom donnent à Apple une base que Google ou Microsoft ne peuvent pas copier en six mois : faire tourner de l'IA sur des milliards d'appareils sans passer par un datacenter, c'est une infrastructure inversée que personne d'autre n'a. Reste à voir si les modèles sont à la hauteur.

InfrastructureOpinion
1 source
META découvre à son tour l’économie du compute
111FrenchWeb 

META découvre à son tour l’économie du compute

Meta Platforms envisage de commercialiser une partie de sa gigantesque infrastructure informatique, une rupture stratégique majeure pour l'entreprise fondée par Mark Zuckerberg. Depuis plus de quinze ans, le groupe utilisait ses data centers exclusivement en interne pour faire fonctionner Facebook, Instagram et WhatsApp, sans jamais vendre de capacités cloud à des tiers. L'explosion des besoins en intelligence artificielle change la donne : Meta disposerait désormais d'une surcapacité de compute suffisante pour envisager une offre commerciale externe. Ce pivot potentiel placerait Meta en concurrence directe avec Amazon Web Services, Microsoft Azure et Google Cloud, les trois géants qui dominent aujourd'hui le marché mondial du cloud, estimé à plusieurs centaines de milliards de dollars. Pour les entreprises qui développent des modèles d'IA, une quatrième alternative crédible serait une opportunité de diversification et de pression à la baisse sur les prix. Meta apporterait une infrastructure taillée pour les workloads IA les plus exigeants, notamment grâce à ses clusters de GPU massivement parallèles. Cette évolution s'inscrit dans une logique que l'histoire de la tech a déjà validée : AWS est né des excédents d'infrastructure d'Amazon, et est devenu sa division la plus rentable. Meta, qui investit des dizaines de milliards de dollars par an en capital expenditure, cherche à rentabiliser ces actifs autrement que par la seule publicité. La question reste de savoir si le groupe possède la culture commerciale B2B nécessaire pour rivaliser avec des acteurs qui ont dix à vingt ans d'avance sur ce marché.

UESi Meta lance une offre cloud commerciale, les entreprises et startups européennes disposeraient d'un quatrième fournisseur d'infrastructure IA majeur, renforçant leur capacité de négociation et potentiellement réduisant leurs coûts de compute.

💬 L'histoire AWS, Meta l'a visiblement relue attentivement. Quand tu as des clusters GPU calibrés pour entraîner des modèles à l'échelle de Facebook et Instagram, laisser ça tourner à vide serait absurde. Reste à voir si Zuckerberg a les équipes commerciales B2B pour vendre ça aux DSI, parce qu'entre avoir l'infra et savoir la packager pour des clients enterprise, il y a un vrai fossé de culture.

InfrastructureOpinion
1 source
Nvidia mise 150 milliards de dollars sur Taiwan, contrecarrant le plan de Trump pour faire des États-Unis un hub de l'IA
112Ars Technica AI 

Nvidia mise 150 milliards de dollars sur Taiwan, contrecarrant le plan de Trump pour faire des États-Unis un hub de l'IA

Le PDG de Nvidia, Jensen Huang, a annoncé mercredi que son entreprise investirait 150 milliards de dollars par an à Taïwan pour maintenir l'île au cœur de la révolution de l'intelligence artificielle. Cet investissement massif servira notamment à construire un nouveau siège social taïwanais pour Nvidia, dont les travaux débuteront cette année pour une mise en service prévue d'ici 2030. Huang a tenu à souligner l'importance stratégique de Taïwan en déclarant : "C'est d'ici que viennent les puces, les boîtiers, c'est ici que sont fabriqués les systèmes, c'est ici que les supercalculateurs d'IA ont été créés." L'objectif affiché est de consolider Taïwan comme "le hub mondial de la fabrication technologique pour longtemps". Cette annonce constitue un signal fort sur la dépendance structurelle de l'industrie de l'IA à l'égard de Taïwan, en contradiction directe avec les ambitions de l'administration Trump de rapatrier la production technologique sur le sol américain. Nvidia, dont les puces sont le carburant indispensable des grands modèles d'IA, ancre ainsi ses chaînes d'approvisionnement à Taïwan plutôt que de les relocaliser aux États-Unis. Pour les acteurs du secteur, cela confirme que malgré les pressions politiques et les milliards investis dans des usines américaines comme celles de TSMC en Arizona, Taïwan conserve un avantage industriel et logistique impossible à reproduire rapidement ailleurs. Ce repositionnement de Nvidia s'inscrit dans un contexte de tensions géopolitiques croissantes autour de Taïwan, sur fond de concurrence technologique entre les États-Unis et la Chine. L'écosystème de fabrication taïwanais, dominé par TSMC mais aussi par des centaines de sous-traitants spécialisés, représente des décennies d'expertise accumulée que ni les États-Unis ni l'Europe ne peuvent égaler à court terme. En misant publiquement et massivement sur Taïwan, Huang envoie un message clair aux investisseurs et aux gouvernements : le discours de souveraineté technologique occidentale se heurte encore à des réalités industrielles qui ne se décrètent pas.

UEL'investissement massif de Nvidia à Taïwan confirme que l'Europe ne peut pas reproduire à court terme l'écosystème de fabrication de puces asiatique, fragilisant les ambitions de souveraineté technologique européenne.

💬 150 milliards par an à Taïwan, c'est Jensen Huang qui dit à Trump de garder ses discours de rapatriement pour lui. L'écosystème taïwanais, c'est 40 ans d'expertise et des centaines de sous-traitants spécialisés qu'on ne clone pas avec quelques usines en Arizona, peu importe le montant des subventions. C'est le genre de réalité qu'on préfère ne pas dire trop fort, mais Huang vient de l'écrire en gros.

InfrastructureOpinion
1 source
Merck et Mastercard obtiennent des résultats concrets avec les agents IA : l'infrastructure d'abord
113VentureBeat AI 

Merck et Mastercard obtiennent des résultats concrets avec les agents IA : l'infrastructure d'abord

Merck accélère sa recherche médicamenteuse d'un tiers et produit ses supports marketing conformes 70 à 80 % plus vite grâce à des agents d'intelligence artificielle, selon Sean Finnerty, vice-président des plateformes digitales du groupe pharmaceutique américain, qui s'exprimait lors d'un récent événement AI Impact Series. Concrètement, les brouillons de campagnes marketing générés par l'IA sont conformes à la réglementation à 99 %, réduisant les cycles de révision de plusieurs mois à quelques jours. En recherche scientifique, un cycle de découverte médicamenteuse a été raccourci d'un tiers, soit environ un an gagné avant qu'un traitement n'atteigne les patients. Derrière ces résultats, une infrastructure imposante : 2 500 comptes AWS, de nombreux abonnements Microsoft Azure, des intégrations Google Cloud Platform, 47 sites périphériques et des centaines de bases de données stockant plusieurs pétaoctets de données structurées et non structurées, répartis entre Oracle, SQL, Excel, transcriptions téléphoniques et autres dépôts. Ces gains ne sont pas tombés du ciel. Finnerty insiste sur un principe qu'il nomme la stratégie "plomberie d'abord" : avant de déployer des agents, il faut bâtir l'infrastructure qui les rend fiables, sécurisés et interopérables. Sans cela, chaque projet isolé devient une dette technique. Pour Merck, l'enjeu est particulièrement fort dans le domaine réglementaire : une campagne vaccinale dans l'État de Géorgie répond à des règles différentes de celle lancée au Canada, et la moindre erreur peut avoir des conséquences légales. L'IA prend désormais en charge les premières ébauches, là où des équipes humaines effectuaient auparavant de longues boucles de validation, libérant du temps pour des tâches à plus forte valeur ajoutée. La leçon tirée par Merck s'appuie directement sur l'expérience du passage au cloud dans les années 2010, une période que Finnerty décrit comme chaotique, mais dont les entreprises qui ont correctement posé les bases ont finalement tiré le meilleur parti. Le groupe s'appuie aujourd'hui sur plusieurs solutions en parallèle, Databricks, Amazon Redshift et d'autres, car "il n'existe pas de solution unique pour résoudre chaque problème". L'objectif affiché est d'intégrer ces couches d'infrastructure aux protocoles émergents comme MCP (Model Context Protocol) et A2A (Agent2Agent), pour permettre aux agents de fonctionner de façon fluide quelle que soit la plateforme cloud sous-jacente. Avec des milliers d'agents à venir selon Finnerty, la question de leur enregistrement, de leur sécurisation et de leur accès aux bonnes données devient un enjeu stratégique autant que technique.

UELes entreprises pharmaceutiques et financières européennes, soumises à des réglementations strictes similaires, peuvent s'inspirer de cette approche 'infrastructure d'abord' pour sécuriser leurs déploiements d'agents IA à grande échelle.

InfrastructureOpinion
1 source
Micron dépasse les 1 000 milliards de dollars grâce à la demande en IA
114Le Big Data 

Micron dépasse les 1 000 milliards de dollars grâce à la demande en IA

Micron Technology a franchi pour la première fois le seuil symbolique des 1 000 milliards de dollars de capitalisation boursière le 26 mai 2026, après une séance boursière historique où son action a bondi de 19 %. Ce bond spectaculaire a été déclenché par une révision radicale des prévisions de la banque UBS, qui a quasiment triplé son objectif de cours pour Micron, passant de 535 à 1 625 dollars par action. Pour replacer l'ampleur de ce mouvement : il y a seulement quelques semaines, la valorisation du groupe dépassait à peine les 700 milliards de dollars, et il y a moins de 14 mois, elle s'établissait autour de 60 milliards. Depuis le début de l'année, l'action a plus que triplé, enregistrant une progression de l'ordre de 1 350 % en 413 jours. UBS justifie cette revalorisation par un changement structurel du marché de la mémoire, avec des contrats de long terme et des modèles de prix désormais plus stables. Ce franchissement du trillion illustre une bascule profonde dans la façon dont les investisseurs lisent le marché des semi-conducteurs. Le secteur de la mémoire vive (DRAM) et de la mémoire à haute bande passante (HBM) était historiquement considéré comme cyclique et volatil, soumis à des effondrements de prix réguliers. L'IA générative est en train de modifier cette équation : entraîner des modèles de grande taille, les stocker et les faire tourner en temps réel exige des quantités massives de mémoire haute performance. La demande mondiale dépasse désormais les capacités de production disponibles, ce qui permet aux fabricants d'augmenter leurs prix et de sécuriser des contrats pluriannuels. Pour les hyperscalers, les opérateurs de centres de données et les éditeurs de logiciels IA, cela signifie une pression accrue sur les coûts d'infrastructure et la nécessité de sécuriser leurs approvisionnements bien à l'avance. Pendant des années, NVIDIA et ses GPU ont capté l'essentiel de l'attention et des capitaux dans la chaîne de valeur IA. Micron incarne désormais un deuxième front : celui des infrastructures mémoire sans lesquelles les modèles ne peuvent tout simplement pas fonctionner. Le groupe américain n'est pas seul à en profiter, SK Hynix et Samsung Electronics se trouvent dans une position similaire, mais sa montée en puissance illustre une recomposition plus large de l'écosystème. Des entreprises comme AMD, Marvell Technology et Qualcomm atteignent également de nouveaux sommets, tandis qu'Intel tente de rattraper son retard. Si la dynamique se confirme, la mémoire avancée pourrait devenir un facteur aussi déterminant que les GPU dans la compétition mondiale autour de l'IA, transformant durablement les rapports de force entre fabricants de puces, fournisseurs cloud et développeurs de modèles.

UELa hausse structurelle des prix de la mémoire HBM et la sécurisation de contrats pluriannuels par les hyperscalers risquent d'alourdir les coûts d'infrastructure IA pour les opérateurs cloud et entreprises tech européens.

💬 La mémoire a toujours été le secteur ingrat des semis, cyclique, peu valorisé, qu'on regardait à peine. Là, 1 350 % en 413 jours, et c'est pas que de la spéculation : les pénuries structurelles de HBM et les contrats long terme changent vraiment le régime. C'est le genre de truc qui va rendre les budgets infra cloud bien plus douloureux à négocier.

Les fournisseurs d'inférence connaissent-ils un essor ?
115The Information AI 

Les fournisseurs d'inférence connaissent-ils un essor ?

Il y a moins d'un an, les fournisseurs d'inférence spécialisés suscitaient un scepticisme marqué dans l'industrie de l'IA. Des startups comme Fireworks AI, Baseten et Together AI, qui louent des serveurs Nvidia à des développeurs d'applications et les aident à déployer des modèles open source, avaient connu une croissance rapide, mais semblaient fragilisées face à la concurrence des grands fournisseurs cloud. Ces derniers disposent en effet d'un avantage structurel majeur : ils possèdent leurs propres puces, là où les fournisseurs d'inférence doivent d'abord les louer à AWS, Google ou Azure avant de les revendre à leurs clients, ce qui comprime mécaniquement leurs marges brutes. Pourtant, le discours dominant a changé. Ces acteurs spécialisés semblent aujourd'hui trouver leur place dans un écosystème où la demande d'inférence explose, portée par la multiplication des applications IA en production. Leur proposition de valeur, flexibilité, optimisation technique, et support des modèles open source, répond à des besoins que les clouds généralistes satisfont moins bien, notamment pour les équipes cherchant à éviter l'enfermement propriétaire et à contrôler précisément leurs coûts d'inférence. Ce retournement s'inscrit dans une dynamique plus large : avec la prolifération des modèles open source performants comme Llama ou Mistral, les développeurs disposent désormais d'alternatives crédibles aux API propriétaires d'OpenAI ou Anthropic. Les fournisseurs d'inférence se positionnent comme l'infrastructure neutre de ce marché alternatif, pariant sur le fait que la fragmentation des modèles leur garantit une demande structurelle durable face aux géants du cloud.

UELa montée en puissance des fournisseurs d'inférence open source renforce l'écosystème autour de Mistral (entreprise française), offrant aux développeurs européens une infrastructure neutre pour déployer des modèles sans dépendance aux API propriétaires.

InfrastructureOpinion
1 source
Le CPU Vera de NVIDIA s'affirme comme un concurrent redoutable
116NVIDIA AI Blog 

Le CPU Vera de NVIDIA s'affirme comme un concurrent redoutable

Les premiers benchmarks publics du processeur Vera de NVIDIA, publiés le 27 mai 2026 par le site spécialisé Phoronix, révèlent des performances qui pourraient redessiner le paysage des processeurs pour centres de données. Le CPU Vera, conçu autour de 88 cœurs personnalisés baptisés Olympus et compatibles avec l'architecture Armv9.2, affiche une bande passante mémoire de 1,2 To/s grâce à un sous-système LPDDR5X de deuxième génération. Le tout dans une enveloppe thermique de 450 watts pour le processeur, avec moins de 30 watts dédiés à la mémoire. Les tests couvrent un large spectre de charges de travail : compilation de code, compression de fichiers, transcodage vidéo, Python, Java et gestion de bases de données. Michael Larabel, fondateur de Phoronix, conclut sans ambages : "C'est la concurrence la plus redoutable jamais vue face aux processeurs Intel et AMD x86_64." Ces résultats ont une portée directe pour les entreprises qui construisent des infrastructures d'IA agentique, c'est-à-dire des systèmes où des agents autonomes exécutent simultanément du code, interrogent des bases de données et orchestrent des pipelines complexes. Sur le test STREAM TRIAD, Vera soutient 90% de sa bande passante mémoire de pointe, un taux qu'aucun autre processeur testé par Phoronix n'a atteint, tout en délivrant plus de quatre fois la bande passante mémoire par cœur comparé aux CPU x86 traditionnels. La société Prime Intellect a confirmé, dans des tests séparés, que Vera maintient une bande passante élevée et une latence mémoire faible et stable à mesure que le nombre de processus parallèles augmente. Pour les opérateurs d'infrastructures IA, cela se traduit par moins de serveurs nécessaires pour un même volume de travail, et une facture énergétique réduite. NVIDIA a présenté Vera comme la réponse architecturale au virage vers l'IA agentique, qui impose aux processeurs des contraintes différentes de celles du deep learning classique : moins de calcul matriciel massif, davantage de traitement séquentiel, de branchements conditionnels et d'accès mémoire dispersés. Par rapport au processeur Grace de génération précédente, Vera affiche un gain de 1,6x en moyenne géométrique sur l'ensemble des benchmarks Phoronix, une progression que Larabel qualifie de "constamment au-delà de ce qu'on attend d'une génération à l'autre". Ce lancement intervient dans un contexte où AMD EPYC et Intel Xeon dominent encore les data centers d'entreprise, mais où NVIDIA cherche à imposer ses propres CPU aux côtés de ses GPU dans des plateformes intégrées. La prochaine étape sera de voir si ces performances en benchmark se confirment dans des déploiements de production à grande échelle, notamment dans les grandes fermes d'IA où le coût total par inférence reste le critère ultime.

UELes opérateurs de centres de données européens pourraient réduire leur consommation énergétique et le nombre de serveurs nécessaires pour leurs charges IA agentique, un avantage concret dans le contexte des objectifs européens de sobriété numérique.

InfrastructureActu
1 source
Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore
117AWS ML Blog 

Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore

Amazon Web Services a présenté une architecture de référence pour déployer des systèmes multi-agents d'IA générative à grande échelle sur AWS, en combinant LangGraph, AWS Lambda, AWS Step Functions et les deux nouveaux services Amazon Bedrock AgentCore Memory et AgentCore Observability. L'approche repose sur une infrastructure entièrement serverless : les agents LangGraph sont packagés dans des conteneurs Docker exécutés sur Lambda, ce qui permet une montée en charge automatique sans gestion d'infrastructure. Pour illustrer le concept, AWS décrit un système concret de révision de campagnes marketing orchestrant trois agents spécialisés en parallèle, un agent "persona reviewer" qui évalue la résonance du contenu auprès de différents profils démographiques, un agent "validator" qui vérifie la conformité juridique et les chartes de marque, et un agent "finalizer" qui synthétise les retours en recommandations actionnables. Une interface React permet aux utilisateurs de télécharger leurs documents et de consulter les résultats en temps réel. Ce type d'architecture répond à un problème concret que rencontrent les entreprises en production : les agents IA performants en démo s'effondrent souvent sous la charge réelle, perdent le contexte entre les sessions et restent des boîtes noires difficiles à déboguer. AgentCore Memory résout la question de la mémoire en offrant à la fois un contexte conversationnel à court terme et une base de connaissances persistante entre sessions. AgentCore Observability capture quant à lui chaque invocation avec ses entrées et sorties LLM, la latence, et les métriques de chaîne d'outils sur l'ensemble des composants distribués. Pour les équipes en charge de systèmes critiques, c'est un changement de paradigme : il devient possible d'auditer exactement comment un agent a raisonné, quelle décision il a prise à quelle étape, et pourquoi. Cette publication s'inscrit dans une accélération visible chez AWS pour proposer une pile complète d'IA agentique cloud-native, face à la concurrence de Google (Vertex AI Agents) et Microsoft (Azure AI Foundry). LangGraph, développé par LangChain, s'impose progressivement comme standard de facto pour l'orchestration d'agents grâce à son modèle d'exécution en graphe orienté qui rend le flux de contrôle déterministe, parallélisable et conditionnel. L'intégration native avec Lambda et Step Functions est particulièrement stratégique pour les charges de travail "bursty" typiques des agents IA, où la demande est imprévisible et les coûts d'une infrastructure dédiée permanente seraient prohibitifs. La prochaine étape logique pour AWS sera d'étendre ces patterns à des workflows plus complexes impliquant des boucles de feedback humain et des agents à longue durée de vie, un segment encore largement inexploré en production.

InfrastructureActu
1 source
Comment les agentic databases redéfinissent l’IA en entreprise ?
118Le Big Data 

Comment les agentic databases redéfinissent l’IA en entreprise ?

Un nouveau concept s'impose dans les stratégies technologiques des grandes entreprises : les agentic databases. Selon une étude récente citée dans l'article, 95 % des dirigeants souhaitent transformer leur organisation en véritable plateforme d'IA et de données d'ici trois ans. Ces bases de données de nouvelle génération ne se contentent plus de stocker des informations : elles deviennent des couches actives capables d'alimenter des agents IA autonomes, de conserver leur mémoire opérationnelle et d'optimiser leurs performances en continu. Concrètement, elles doivent gérer simultanément des données relationnelles classiques, des contenus non structurés, des historiques conversationnels, de la mémoire d'agents et des données vectorielles pour la recherche sémantique. Des technologies comme PostgreSQL regagnent du terrain grâce à leur flexibilité, leur écosystème open source et leur capacité à gérer ces charges de travail hybrides. L'enjeu est considérable pour les entreprises. Aujourd'hui, la plupart fonctionnent encore avec des architectures fragmentées : données dispersées entre plusieurs outils, agents IA opérant dans des environnements cloisonnés, équipes techniques qui passent plus de temps à connecter des systèmes qu'à développer de nouveaux usages métier. Les organisations qui ont su centraliser leurs données, leurs flux et leurs agents dans une infrastructure cohérente obtiennent un retour sur investissement nettement supérieur et déploient davantage d'applications couvrant plusieurs fonctions, de la finance aux ventes en passant par le juridique. La différence de performance entre ces leaders et le reste du marché ne tient pas à la qualité des modèles LLM utilisés, mais à leur capacité à construire une couche de données unifiée fournissant un contexte fiable et une mémoire persistante aux agents. Chaque nouvel agent enrichit alors progressivement la base de connaissances commune, générant un cercle vertueux d'automatisation où les performances s'améliorent avec l'usage. Cette évolution répond aussi à une contrainte technique fondamentale : les infrastructures de données traditionnelles n'ont tout simplement pas été conçues pour des systèmes qui agissent, raisonnent et exécutent des tâches de manière autonome. La latence devient critique à mesure que les agents s'intègrent dans les opérations métier en temps réel, poussant les entreprises à adopter des systèmes de stockage multiniveaux capables de prioriser les données chaudes. Les agents doivent désormais non seulement répondre à des requêtes, mais comprendre des intentions et exécuter des actions complexes en chaîne, ce qui exige des mécanismes d'indexation hybrides avancés. L'agentic database n'est donc pas un produit unique mais une architecture complète, et les acteurs qui la maîtriseront en premier disposeront d'un avantage compétitif structurel difficile à rattraper.

InfrastructureOpinion
1 source
☕️ Les agences de renseignement américaines à court de puissance de calcul pour leurs IA
119Next INpact 

☕️ Les agences de renseignement américaines à court de puissance de calcul pour leurs IA

La Maison Blanche aurait approuvé une enveloppe de 9 milliards de dollars destinée à doter les agences de renseignement américaines en puces IA de dernière génération, selon des informations rapportées par le New York Times. Ce financement, qui doit encore passer par le Congrès, vise à permettre à la CIA, la NSA et leurs homologues de faire tourner les modèles d'intelligence artificielle les plus récents sur des infrastructures à la hauteur. L'administration Trump aurait par ailleurs déjà redirigé 800 millions de dollars pour accélérer des achats de capacités de calcul en urgence. Parallèlement, la Maison Blanche aurait autorisé la NSA à continuer d'exploiter Mythos, le modèle le plus avancé d'Anthropic, dans le cadre d'un contrat classifié en préparation qui inclurait des restrictions sur le traitement de données concernant des citoyens américains. Les agences américaines se retrouvent dans la même situation que n'importe quel acteur privé : les infrastructures capables d'accueillir les grands modèles d'OpenAI, d'Anthropic ou de Google affichent complet, et les composants les plus puissants, comme les puces Grace Blackwell de NVIDIA, exigent des centres de données dotés de systèmes d'alimentation massifs. Or les réseaux infonuagiques classifiés du gouvernement, dont ceux opérés par AWS, ne peuvent pas être modernisés rapidement. Les agences n'auraient tout simplement pas anticipé les besoins en calcul de ces modèles, et les délais de déploiement restent incompressibles même avec de l'argent disponible. Résultat : les 800 millions déjà mobilisés représentent une goutte d'eau face à l'ampleur des besoins réels, et les 9 milliards supplémentaires n'arriveraient pas immédiatement sur le terrain. Cette situation s'inscrit dans une séquence de tensions entre Washington et les labos d'IA. Le Pentagone avait exigé un accès très large aux modèles avancés d'Anthropic pour ses opérations classifiées, ce qu'Anthropic a refusé, une affaire encore devant les tribunaux. Le DoD a finalement constitué un cercle de fournisseurs IA pour ses opérations secret défense, retenant OpenAI, Google, Microsoft et AWS, mais laissant Anthropic à l'écart, du moins officiellement. Le Pentagone qualifiait même l'entreprise de "risque" pour la chaîne d'approvisionnement et la sécurité nationale, ce qui rend d'autant plus notable la décision d'autoriser la NSA à continuer d'utiliser Mythos. Cette contradiction illustre la difficulté pour les institutions américaines de concilier impératifs de souveraineté numérique, besoins opérationnels croissants en IA, et dépendance inévitable envers quelques entreprises privées qui contrôlent les modèles les plus performants.

UELe retard des agences de renseignement américaines illustre les risques de dépendance envers quelques fournisseurs privés d'IA, un avertissement indirect pour les institutions européennes engagées dans des démarches de souveraineté numérique.

💬 9 milliards pour rattraper un retard que tout le monde voyait venir. Ce qui me frappe, c'est la contradiction : le Pentagone liste officiellement Anthropic comme un "risque sécurité" pour la chaîne d'approvisionnement, et pendant ce temps la NSA continue d'utiliser Mythos via un contrat classifié. Ça dit tout sur ce que vaut la "souveraineté numérique" quand les seuls modèles utilisables sont dans les mains de trois boîtes privées.

InfrastructureOpinion
1 source
Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte
120MarkTechPost 

Together AI publie OSCAR en open source : un système de quantification KV cache 2 bits adaptatif pour les LLM à long contexte

Together AI vient de publier en open source OSCAR (Offline Spectral Covariance-Aware Rotation), un système de quantification du cache KV à 2 bits conçu pour réduire drastiquement la mémoire GPU nécessaire à l'inférence de grands modèles de langage sur de longs contextes. Le problème visé est concret : lors de l'inférence en mode autorégressif, le cache KV croît avec la longueur du contexte, la taille des lots et la profondeur du modèle. À 100 000 tokens traités par dizaines de requêtes simultanées, ce cache peut accaparer la majorité de la mémoire GPU disponible. La quantification à INT2, qui ne représente les valeurs qu'avec 4 niveaux distincts, était jusqu'ici largement inutilisable : soit elle dégradait trop la précision, soit elle était incompatible avec les architectures de cache paginé utilisées en production. OSCAR surmonte ces deux obstacles grâce à une rotation des activations fondée non pas sur leur distribution brute, mais sur les statistiques d'attention elles-mêmes. L'innovation centrale d'OSCAR réside dans le choix de la base de rotation. Pour les clés (keys), ce qui compte n'est pas l'erreur de reconstruction euclidienne, mais l'erreur sur les logits d'attention, pondérée par la covariance des requêtes. Pour les valeurs (values), c'est la covariance pondérée par les scores d'attention qui détermine quelles directions d'erreur se propagent réellement dans la sortie du modèle. OSCAR estime ces covariances sur un jeu de calibration, les décompose en vecteurs propres, et les utilise comme base de rotation optimale. La rotation finale se compose de trois éléments : l'alignement sur les directions importantes pour l'attention, une transformation de Hadamard qui uniformise les canaux, et un réordonnancement par inversion de bits qui garantit que chaque groupe de quantification reçoit un représentant de chaque niveau hiérarchique. Le système s'intègre dans la pile de serving production de SGLang comme mode INT2 natif du cache KV. Ce travail s'inscrit dans une course intense à l'efficacité mémoire pour les LLM en production. La quantification du cache KV est un levier direct sur la taille des lots traitables et donc sur le coût par requête. Les approches INT4 existantes, comme QuIP# ou QuaRot, fonctionnaient déjà correctement, mais INT2 représentait une frontière difficile à franchir sans perte de qualité rédhibitoire. En publiant OSCAR en open source avec une intégration SGLang, Together AI met cet outil à disposition de l'ensemble de la communauté de déploiement de modèles. L'enjeu est considérable : multiplier par deux la compression du cache KV peut doubler la capacité de traitement parallèle d'un serveur sans changer le matériel. Les prochaines étapes naturelles concernent la validation sur des modèles de très grande taille et l'extension à d'autres architectures d'attention.

UELes laboratoires et startups IA européens déployant des LLM peuvent adopter cette technique open source pour réduire leurs coûts d'inférence GPU et doubler leur capacité de traitement parallèle sans changer de matériel.

InfrastructureOpinion
1 source
Test du Nvidia DGX Spark : le mini PC IA 128 Go
121Frandroid 

Test du Nvidia DGX Spark : le mini PC IA 128 Go

Nvidia a lancé le DGX Spark, un mini PC dédié à l'intelligence artificielle locale, testé ici dans sa version assemblée par Dell sous le label Pro Max. Au cœur de la machine se trouve la puce maison GB10 Grace Blackwell Superchip, couplée à 128 Go de mémoire unifiée partagée entre le CPU et le GPU. Le tout tient dans un boîtier compact comparable à un Mac Mini, pour un tarif qui démarre autour de 3 000 dollars selon les configurations. Ce facteur de forme cache une puissance de calcul jusqu'ici réservée aux serveurs de datacenter : le DGX Spark est capable de faire tourner des modèles de langage de 70 milliards de paramètres et plus directement en local, sans dépendre du cloud. Pour les chercheurs, développeurs et entreprises soucieuses de confidentialité ou de latence, c'est un changement de paradigme concret. La mémoire unifiée de 128 Go élimine le goulot d'étranglement qui rendait ces modèles inaccessibles sur du matériel grand public. Le DGX Spark s'inscrit dans une offensive plus large de Nvidia pour étendre son emprise au-delà des grands clusters GPU, face à la montée en puissance des puces Apple Silicon M4 Ultra qui misent sur la même architecture de mémoire unifiée. Annoncé au CES 2025, le Spark cible une clientèle professionnelle et académique qui veut l'autonomie du local sans sacrifier la performance. Nvidia le positionne également comme point d'entrée vers son écosystème DGX, dont les versions rack coûtent des centaines de milliers de dollars.

UELes professionnels et chercheurs français et européens peuvent désormais faire tourner des modèles de 70 milliards de paramètres en local pour environ 3 000 dollars, réduisant la dépendance au cloud pour les cas d'usage sensibles en matière de confidentialité.

💬 128 Go de mémoire unifiée pour faire tourner un 70B en local, c'est le verrou qui saute. Nvidia a regardé ce qu'Apple faisait avec le M-Series et a poussé le même concept bien plus loin, sur une puce qui cible les workloads sérieux. 3 000 dollars c'est pas donné, mais pour une boîte qui veut garder ses données chez elle sans louer du GPU à la journée, le calcul se fait vite.

InfrastructureOpinion
1 source
D&B a reconstruit sa base de 642 millions d'entreprises pour les agents IA
122VentureBeat AI 

D&B a reconstruit sa base de 642 millions d'entreprises pour les agents IA

Dun & Bradstreet, entreprise vieille de 180 ans spécialisée dans les données commerciales, vient d'annoncer une refonte complète de son infrastructure de données pour la rendre compatible avec les agents d'intelligence artificielle. Son "Commercial Graph" couvre 642 millions d'entreprises, soit presque le double des 300 millions de dossiers qu'il contenait il y a cinq ans, avec 11 000 champs par enregistrement et 100 milliards de vérifications qualité effectuées chaque mois. Cette base de données, utilisée par près de 200 000 clients dans le monde, analystes crédit, gestionnaires de risques, commerciaux, était conçue pour des humains capables d'attendre quelques secondes et d'interpréter des résultats ambigus. Quand les clients de D&B ont commencé à intégrer des agents IA dans leurs workflows de crédit, d'achats et de chaîne d'approvisionnement, l'architecture existante s'est révélée incompatible. Gary Kotovets, directeur des données et de l'analytique chez D&B, a expliqué à VentureBeat que l'entreprise devait désormais considérer les agents comme une nouvelle catégorie de consommateurs à part entière. Le problème fondamental est que les agents IA ne peuvent pas fonctionner avec des systèmes fragmentés, des latences élevées ou des relations statiques entre entités. Là où un analyste humain naviguait à travers plusieurs bases de données hétérogènes via des requêtes SQL, un agent a besoin d'une réponse en moins d'une seconde, d'une résolution d'entité vérifiée, et de relations dynamiques : si un PDG quitte une entreprise pour une autre, le dossier de risque doit suivre en temps réel ; si une filiale change de propriétaire, la hiérarchie complète doit se mettre à jour automatiquement. D&B a donc migré ses bases vers le cloud, redessiné son schéma de données, construit une couche de "data fabric" unifiant les enregistrements à l'échelle mondiale tout en respectant les contraintes réglementaires régionales, puis exposé l'ensemble via des outils MCP (Model Context Protocol) qui permettent aux agents d'interroger des données structurées avec leur contexte. Un moteur de résolution d'entités valide chaque requête pour garantir qu'une demande portant sur une entreprise renvoie bien vers un enregistrement unique et vérifié. L'entreprise a également créé un nouveau modèle d'authentification spécifique aux agents, distincts des utilisateurs humains. Ce chantier illustre une réalité que Kotovets dit avoir entendue de la bouche de centaines de directeurs des données et directeurs informatiques au cours des six derniers mois : les ambitions en matière d'IA se heurtent systématiquement à des fondations de données non standardisées et inexploitables par des machines. D&B, pourtant l'une des entreprises les mieux dotées en données commerciales structurées au monde, a quand même dû tout reconstruire. La montée en puissance des agents autonomes dans les processus métier critiques, évaluation du risque fournisseur, scoring crédit, due diligence, crée une pression inédite sur les fournisseurs de données pour qu'ils passent d'une logique de consultation humaine à une logique d'alimentation machine en temps réel. D&B se positionne ainsi en infrastructure de référence pour les agents d'entreprise, à un moment où MCP s'impose progressivement comme standard d'interopérabilité entre agents et sources de données.

UELes entreprises européennes clientes de D&B pour le risque crédit ou fournisseur peuvent désormais connecter leurs agents IA à cette base via MCP, dans le respect des contraintes réglementaires régionales incluant le RGPD.

💬 Si D&B, avec 180 ans de données commerciales structurées, a quand même dû tout reconstruire pour les agents IA, ton stack de données a peu de chances de s'en tirer sans casse. C'est le vrai enseignement de cet article, pas les 642 millions d'entreprises ou les 11 000 champs par dossier. Les agents ne tolèrent pas l'ambiguïté, pas la latence, pas les silos, et ça va forcer une vague de refonte data que beaucoup n'ont pas encore budgétisée.

InfrastructureActu
1 source
L'IA chinoise cartographie l'intégralité de son réseau d'énergies renouvelables : pourquoi le reste du monde devrait s'en inspirer
123AI News 

L'IA chinoise cartographie l'intégralité de son réseau d'énergies renouvelables : pourquoi le reste du monde devrait s'en inspirer

Des chercheurs de l'Université de Pékin et du DAMO Academy d'Alibaba ont publié cette semaine dans la revue Nature une étude qui marque une première mondiale : une cartographie complète et haute résolution de toute l'infrastructure d'énergie renouvelable d'un pays entier, produite par intelligence artificielle. Le modèle de deep learning, entraîné sur des images satellites à résolution inférieure au mètre, a identifié 319 972 installations solaires photovoltaïques et 91 609 éoliennes à travers la Chine, en traitant 7,56 téraoctets d'imagerie. C'est la première fois qu'une nation dispose d'un inventaire exhaustif et automatisé de son parc renouvelable, accompagné d'un cadre analytique pour le coordonner comme un système unifié. L'enjeu dépasse la prouesse technique. L'étude montre que la complémentarité entre solaire et éolien réduit significativement la variabilité de la production, et que cette complémentarité est d'autant plus efficace que les installations coordonnées sont géographiquement éloignées : un nuage qui couvre les fermes solaires du Gansu n'obscurcit pas les corridors éoliens de Mongolie-Intérieure. Or, la Chine gère aujourd'hui son réseau à l'échelle provinciale, ce qui empêche d'exploiter ces complémentarités naturelles. Passer à une coordination nationale permettrait de stabiliser le réseau, de mieux apparier les sources d'énergie et de réduire le "curtailment", c'est-à-dire le gaspillage d'électricité renouvelable déjà produite, un problème coûteux de longue date. Liu Yu, professeur à l'École des sciences de la Terre et de l'Espace de Pékin, décrit cet inventaire comme une "vue divine" sur le paysage énergétique chinois : on ne peut pas optimiser ce qu'on ne voit pas. Cette percée intervient dans un contexte de pression extrême sur les réseaux électriques mondiaux. En Chine, la consommation électrique des centres de données a bondi de 44 % en glissement annuel au premier trimestre 2026, atteignant 22,9 milliards de kilowattheures selon le China Electricity Council, sous l'effet de la prolifération rapide des infrastructures d'IA. Ce phénomène n'est pas propre à la Chine : aux États-Unis, les prix sur le marché de capacité du PJM, le plus grand opérateur de réseau du pays, ont été multipliés par dix en deux ans, principalement à cause des centres de données. L'Agence internationale de l'énergie projette que la consommation mondiale de ces infrastructures pourrait approcher 1 000 TWh d'ici 2030. La méthode développée par l'équipe sino-chinoise offre un modèle reproductible pour d'autres pays confrontés au même défi : voir leur propre réseau renouvelable en entier, pour la première fois, et commencer à le piloter à la bonne échelle.

UECette méthode reproductible pourrait inspirer l'UE à cartographier son parc renouvelable fragmenté entre États membres, facilitant la coordination transfrontalière du réseau et la réduction du curtailment dans le cadre de la transition énergétique européenne.

💬 Un demi-million d'installations solaires et éoliennes cartographiées par satellite, d'un coup, sur tout un pays. Ce qu'ils mettent en évidence ensuite c'est presque plus important : la Chine gaspille de l'électricité renouvelable déjà produite parce qu'elle pilote son réseau province par province au lieu de le voir à l'échelle nationale. L'Europe avec ses 27 réseaux qui se regardent en chien de faïence, ce serait bien de prendre note.

InfrastructurePaper
1 source
De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer
124Latent Space 

De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer

Trois entreprises spécialisées dans l'infrastructure pour l'intelligence artificielle ont atteint simultanément des jalons majeurs cette semaine, signalant une consolidation rapide du secteur. TurboPuffer, moteur de recherche vectorielle, annonce 100 millions de dollars de revenus récurrents annuels tout en étant rentable. Exa, moteur de recherche sémantique pour les agents IA, lève 250 millions de dollars dans un tour de Série C qui valorise l'entreprise à 2,2 milliards de dollars. Modal, plateforme cloud de calcul GPU à la demande, annonce quant à elle 355 millions de dollars levés à une valorisation de 4,7 milliards de dollars en Série C. Ces trois annonces tombent dans la même fenêtre de 48 heures, les 20 et 21 mai 2026. Ces chiffres illustrent une dynamique structurelle : l'explosion de la demande en infrastructure IA n'est plus portée uniquement par les grands hyperscalers comme AWS ou Google Cloud, mais de plus en plus par des acteurs spécialisés capables de répondre précisément aux besoins des développeurs d'agents et de pipelines LLM. Modal permet d'exécuter du code Python avec des GPU en quelques secondes sans gérer de serveurs ; Exa fournit une API de recherche conçue pour les LLM plutôt que pour les humains ; TurboPuffer offre une base de données vectorielle haute performance. Que les trois atteignent ces valorisations en même temps indique que le marché des outils pour construire des applications IA génère désormais des revenus réels et prévisibles, pas seulement des promesses. Ces succès s'inscrivent dans un contexte où l'ingénierie IA est devenue une discipline à part entière, distincte de la recherche fondamentale en machine learning. L'émergence d'une couche d'infrastructure spécialisée, entre les modèles de fondation des grands labs et les applications finales, crée un espace économique autonome. Latent Space, le podcast et newsletter qui suit ces entreprises depuis leurs débuts, note avoir interviewé les fondateurs des trois sociétés bien avant ces valorisations, soulignant à quel point la communauté des praticiens IA identifie tôt les acteurs structurants. La question désormais est de savoir si ces entreprises resteront indépendantes ou deviendront des cibles d'acquisition pour les grandes plateformes cloud, qui cherchent à intégrer verticalement la chaîne de valeur du développement IA.

UELes développeurs français et européens d'applications IA disposent désormais d'une couche d'infrastructure spécialisée (compute GPU à la demande, recherche vectorielle, recherche sémantique pour LLMs) comme alternative aux grands hyperscalers pour leurs pipelines d'agents.

💬 TurboPuffer rentable à 100M ARR, Modal à 4,7 milliards, Exa à 2,2, tout ça en 48h, c'est pas du hasard. J'attendais ce signal pour confirmer que la couche infra entre les grands modèles et les applis génère vraiment de l'argent, pas juste du cashburn déguisé en croissance. Si tu construis des trucs avec des LLMs, ces outils sont soit déjà dans ta stack, soit tu vas y venir.

InfrastructureOpinion
1 source
CopilotKit redéfinit l'architecture IA à base d'agents en 2026
125MarkTechPost 

CopilotKit redéfinit l'architecture IA à base d'agents en 2026

CopilotKit, startup basée à Seattle et co-fondée par Atai Barkai et Uli Barkai, s'est imposée en 2026 comme l'un des acteurs centraux de l'infrastructure pour agents IA. La société a lancé en avril 2026 AIMock, un outil de test pour systèmes agentiques, et AG-UI, un protocole d'interaction entre agents et utilisateurs au sein des applications. AG-UI est aujourd'hui soutenu par Google, Microsoft, Amazon et Oracle, ainsi que par des frameworks majeurs comme LangChain, Mastra, PydanticAI et Agno. AWS l'a intégré dans son template FAST (Fullstack AgentCore Solution Template) et dans Bedrock AgentCore. Des SDKs communautaires couvrent déjà Kotlin, Go, Dart, Java, Rust, Ruby et C++, tandis que .NET, Nim, Flowise et Langflow sont en cours de développement. Atai Barkai enseigne par ailleurs un cours complet sur AG-UI chez DeepLearning.AI, couvrant un backend LangChain, un frontend React et AG-UI comme runtime. Ce que CopilotKit résout est concret : jusqu'ici, intégrer une IA dans une application signifiait coller un widget de chat dans un coin d'interface. L'utilisateur tapait, le modèle répondait en texte, et personne ne prenait en charge la traduction de cette réponse en action réelle. AG-UI comble le troisième maillon manquant de la pile agentique : MCP standardise l'accès aux outils externes, A2A coordonne les agents entre eux, AG-UI gère la couche d'interaction entre l'agent, l'application et l'utilisateur. Il permet le streaming en temps réel, la génération dynamique de composants d'interface, la synchronisation d'état bidirectionnelle, et les pauses "human-in-the-loop" où l'agent attend une confirmation avant d'agir. AIMock, lui, s'attaque à un problème que peu d'équipes osent admettre : les suites de tests pour agents sont, pour la plupart, de la fiction. Une requête agentique typique en 2026 traverse six ou sept services (LLM, serveur MCP, base vectorielle, reranker, API de recherche web, couche de modération, sous-agent A2A) et la plupart des équipes n'en simulent qu'un seul, laissant les autres non-déterministes et incontrôlés. L'analogie avancée par CopilotKit est parlante : AG-UI serait à la pile agentique ce que HTML est au web, la couche de présentation et d'interaction que TCP et HTTP rendent possible sans pouvoir la fournir eux-mêmes. Pendant des années, l'IA dans les logiciels est restée un outil passif, fonctionnel comme une calculatrice mais incapable d'agir de façon autonome. CopilotKit parie que l'avenir appartient aux agents qui vivent à l'intérieur des applications, comprennent le contexte de l'utilisateur, prennent des actions et génèrent des interfaces adaptées plutôt que de longs blocs de texte. Avec l'adoption par les grands fournisseurs cloud et l'entrée dans les cursus pédagogiques, la startup semble avoir franchi le cap qui sépare le protocole expérimental de l'infrastructure de production. La prochaine étape annoncée porte sur la persistance runtime, troisième chantier d'une feuille de route 2026 qui vise délibérément les angles morts de l'architecture agentique.

💬 L'idée du maillon manquant est bonne : MCP pour les outils, A2A pour la coordination, AG-UI pour l'utilisateur, la stack agentique commence à avoir une vraie colonne vertébrale. Ce qui me parle autant, c'est AIMock, parce que les suites de tests pour agents c'est de la fiction dans la plupart des équipes, et c'est enfin assumé. AWS dans Bedrock, Google et Microsoft embarqués, bon, sur le papier c'est le seuil qui sépare le protocole expérimental du vrai standard de prod.

InfrastructureOpinion
1 source
Doter les agents d'ordinateurs : Ivan Burazin, Daytona
126Latent Space 

Doter les agents d'ordinateurs : Ivan Burazin, Daytona

Ivan Burazin, PDG de Daytona, est au coeur d'une transformation silencieuse mais radicale de l'infrastructure cloud. Son entreprise, fondée sur une obsession vieille de plus d'une décennie, a opéré un pivot décisif : quitter les environnements de développement pour humains afin de fournir des sandboxes informatiques aux agents IA. Daytona peut aujourd'hui démarrer un sandbox en environ 60 millisecondes, en lancer 50 000 en 75 secondes, et son plus gros client exploite quelque 850 000 sandboxes par jour. La plateforme tourne sur du bare metal avec son propre scheduler, plutôt que sur Kubernetes, et les charges de travail liées au reinforcement learning et aux évaluations de modèles sont passées de zéro à environ 50 % de l'utilisation totale en quelques mois seulement. Ce changement illustre une bascule profonde dans les besoins de l'industrie IA. Les agents logiciels ne travaillent pas sur un laptop : ils ont besoin d'une machine accessible par API, capable de conserver un état entre les tâches, de s'adapter instantanément à des pics de charge massifs, et d'être suffisamment isolée pour rester sûre. Quand un client passe de zéro à 100 000 CPUs en quelques minutes pour une tâche d'entraînement, les architectures classiques comme EKS ou GKE montrent leurs limites. Plusieurs clients de Daytona affirment ne pas vouloir revenir à ces solutions. Au-delà du code, Burazin défend l'idée que les agents auront besoin de machines Windows et macOS, pas seulement Linux, ce qui pose des contraintes de licencing importantes, notamment du côté d'Apple. Ivan Burazin n'en est pas à son coup d'essai. Il avait fondé CodeAnywhere, l'un des premiers IDE entièrement dans le navigateur, avec l'idée déjà en tête de mettre fin au développement sur machine locale. La thèse était bonne, mais le marché n'était pas prêt. L'essor des agents IA en 2025 a changé la donne : là où les développeurs humains s'attachent à leur éditeur favori, les agents sont indifférents à l'environnement, pourvu qu'il soit rapide, fiable et pilotable par code. Daytona s'est imposé dans ce créneau en lançant un MVP la veille du Nouvel An, dont les API keys se sont arrachées en quelques heures. La vision de Burazin pour la prochaine étape du cloud IA ressemble davantage à Stripe, une infrastructure invisible et composable consommée à l'usage, qu'au modèle AWS traditionnel. Un pari sur la façon dont les agents, et non plus les humains, deviendront les principaux consommateurs de ressources informatiques.

InfrastructureOpinion
1 source
NVIDIA GTC Taipei au COMPUTEX : les dernières annonces IA en direct
127NVIDIA AI Blog 

NVIDIA GTC Taipei au COMPUTEX : les dernières annonces IA en direct

NVIDIA a remporté plusieurs prix aux COMPUTEX Best Choice Awards 2026, lors du salon GTC Taipei at COMPUTEX qui se tient à Taïwan. Trois produits ont été distingués : le Vera Rubin NVL72, superordinateur IA à l'échelle du rack, a décroché un Golden Award ainsi que le Sustainable Tech Special Award ; la plateforme Jetson Thor pour l'IA embarquée et la robotique a également obtenu un Golden Award ; et l'Alpamayo, plateforme ouverte pour le développement de véhicules autonomes, a remporté le prix de la catégorie Vehicle Technology and Smart Cockpit. Les candidatures ont été évaluées sur leur fonctionnalité, leur innovation et leur potentiel de marché. Jensen Huang, fondateur et PDG de NVIDIA, prononcera un discours inaugural le 1er juin à 11h (heure de Taïwan) au Taipei Music Center. Le Vera Rubin NVL72 concentre l'essentiel des innovations primées. Ce système connecte 36 CPU NVIDIA Vera et 72 GPU NVIDIA Rubin, unifiés via le commutateur NVLink de sixième génération, des SuperNICs ConnectX-9 et des commutateurs optiques Spectrum-X pour la mise à l'échelle. Il affiche jusqu'à 10 fois de meilleures performances d'inférence par watt et un coût par token réduit d'un facteur 10. Associé au NVIDIA Groq 3 LPX, il atteint 35 fois plus de débit par watt pour les modèles à un billion de paramètres. Conçu pour l'IA agentique, le raisonnement et les charges à long contexte, il est entièrement refroidi par liquide à 45 degrés Celsius, sans câbles ni tuyaux ni ventilateurs, réduisant le temps d'assemblage de deux heures à cinq minutes par plateau de calcul. La plateforme Jetson Thor affiche quant à elle 2 070 téraflops FP4, soit 7,5 fois la puissance de calcul et 3,5 fois l'efficacité énergétique de la génération précédente Jetson Orin, dans un module configurable entre 40 et 130 watts. Ces distinctions surviennent alors que COMPUTEX, salon de référence pour la technologie et l'informatique en Asie, accueille cette année le GTC Taipei, la conférence annuelle de NVIDIA dédiée à l'accélération de l'IA. L'événement rassemble développeurs, chercheurs et dirigeants industriels autour des thèmes des usines d'IA, de l'infrastructure à grande échelle, de l'IA physique et des systèmes autonomes. NVIDIA y consolide sa position de fournisseur incontournable pour les centres de données de nouvelle génération, à l'heure où la demande en puissance de calcul pour l'entraînement et l'inférence de grands modèles s'emballe. Les annonces du keynote de Jensen Huang du 1er juin seront scrutées de près par l'ensemble de l'industrie, qui attend des précisions sur la feuille de route de l'entreprise pour les prochains mois.

UELes futurs déploiements des hyperscalers et centres de données européens seront concernés par ces nouvelles architectures, mais aucun impact direct ou immédiat sur la France ou l'UE n'est mentionné.

InfrastructureActu
1 source
Anthropic en négociations pour utiliser les puces IA de Microsoft
128The Information AI 

Anthropic en négociations pour utiliser les puces IA de Microsoft

Anthropic serait en discussions avec Microsoft pour louer des serveurs équipés de puces d'intelligence artificielle conçues en interne par le géant de Redmond. Selon deux personnes ayant eu des échanges directs avec des dirigeants impliqués dans les négociations, la startup fondatrice de Claude cherche à augmenter sa capacité de calcul pour répondre à une demande croissante pour ses modèles d'IA. Aucun accord n'a encore été officialisé, mais les tractations sont en cours. Pour Microsoft, convaincre Anthropic d'adopter ses propres puces constituerait une victoire symbolique et commerciale majeure. L'effort de design de puces maison de l'entreprise a accusé des retards en 2024, compliquant sa stratégie d'indépendance vis-à-vis des fournisseurs externes. Séduire un acteur aussi visible qu'Anthropic permettrait à Microsoft de valider publiquement ses capacités matérielles et de diversifier les revenus issus de son infrastructure cloud Azure. La démarche s'inscrit dans une tendance de fond : les grands fournisseurs de cloud cherchent à réduire leur dépendance aux puces Nvidia, qui dominent aujourd'hui presque l'intégralité du marché des accélérateurs IA et dont la disponibilité reste contrainte. Google dispose déjà de ses TPU, Amazon de ses puces Trainium et Inferentia. Microsoft, en retard sur ce front, tente de combler l'écart. Anthropic, de son côté, bénéficie déjà d'investissements massifs d'Amazon et de Google, ce qui rend un partenariat avec Microsoft d'autant plus significatif sur le plan stratégique.

InfrastructureActu
1 source
Anthropic pourrait dépenser 1,25 milliard $ par mois sur l’infrastructure xAI
129Le Big Data 

Anthropic pourrait dépenser 1,25 milliard $ par mois sur l’infrastructure xAI

Anthropic s'apprête à verser jusqu'à 1,25 milliard de dollars par mois à xAI, la société d'intelligence artificielle d'Elon Musk, pour accéder à sa puissance de calcul. L'accord, révélé dans un dépôt S-1 de SpaceX auprès de la SEC, porte sur l'achat de la totalité de la production du centre de données Colossus 1, situé près de Memphis, dans le Tennessee. Le contrat court jusqu'en mai 2029 et pourrait représenter jusqu'à 45 milliards de dollars de revenus cumulés pour xAI, les deux parties conservant toutefois une option de résiliation avec un préavis de 90 jours. L'accord fait suite à une première annonce, quelques semaines plus tôt, selon laquelle Anthropic avait sécurisé 300 mégawatts de capacité de calcul auprès de xAI, une décision déjà jugée surprenante par le marché. Pour Anthropic, l'accès garanti à des milliers de GPU sur plusieurs années répond à une contrainte structurelle : les modèles génératifs de nouvelle génération exigent des volumes de calcul massifs, aussi bien pour l'entraînement que pour l'inférence et les usages professionnels en temps réel. Alors que la demande des entreprises s'emballe plus vite que l'offre mondiale en puces avancées, verrouiller plusieurs années de capacité permet au créateur de Claude de réduire sa dépendance aux grands fournisseurs cloud traditionnels, Amazon Web Services, Microsoft Azure et Google Cloud. L'accord réduit également le risque de goulots d'étranglement à mesure qu'Anthropic étend ses déploiements dans les produits et workflows d'entreprises. Pour xAI, en revanche, ce contrat s'inscrit dans une stratégie de monétisation agressive de sa capacité excédentaire. Selon les documents de SpaceX, l'accord permet de rentabiliser des serveurs sous-utilisés, une situation qui coïncide avec un ralentissement rapporté de l'usage de Grok, l'assistant IA de xAI, ces derniers mois. Ce modèle positionne xAI dans la catégorie des "néoclouds" : des acteurs qui construisent d'abord une infrastructure pour leurs propres modèles, puis revendent la capacité disponible à d'autres entreprises du secteur, accélérant ainsi l'amortissement des coûts colossaux liés aux GPU Nvidia et aux centres de données énergivores. Paradoxalement, la transaction illustre aussi une évolution du marché : deux concurrents directs sur le segment des modèles génératifs coopèrent désormais sur l'infrastructure, signe que les investissements nécessaires à la course à l'IA dépassent ce que même les leaders du secteur peuvent absorber seuls.

InfrastructureOpinion
1 source
Free, Orange et EDF s’allient pour créer une AI Gigafactory en France
130Le Big Data 

Free, Orange et EDF s’allient pour créer une AI Gigafactory en France

Le 20 mai 2026, huit grands groupes français ont annoncé la création du consortium AION pour porter la candidature de la France au programme européen des AI Gigafactories. Parmi eux : Iliad (la maison mère de Free), Orange, EDF, Capgemini, Scaleway, Ardian, Artefact et Bull. L'objectif est de construire une infrastructure capable d'héberger, d'entraîner et de déployer des modèles d'intelligence artificielle à très grande échelle, entièrement sur sol européen. Chaque membre apporte une brique stratégique : Bull fournit les supercalculateurs haute performance, EDF sécurise l'approvisionnement en électricité bas carbone, Orange et Scaleway assurent le cloud et l'hébergement des données, tandis que Capgemini et Artefact se concentrent sur l'intégration de l'IA en entreprise. Iliad et Ardian apportent le capital et l'expertise numérique pour soutenir un projet de très long terme. Le consortium peut également s'appuyer sur un écosystème plus large incluant Hugging Face, INRIA, Nokia, LightOn et Schneider Electric. L'enjeu est direct : aujourd'hui, l'essentiel de la puissance de calcul utilisée pour entraîner les grands modèles d'IA repose sur des infrastructures américaines, Microsoft, Google, Amazon. Pour les entreprises françaises et européennes des secteurs sensibles comme la santé, l'industrie ou les services publics, cette dépendance pose des problèmes concrets de souveraineté des données et de conformité réglementaire. Une gigafactory IA en France offrirait une alternative crédible, d'autant que le mix énergétique français, nucléaire et hydraulique, produit une électricité moins carbonée et plus stable que dans beaucoup de pays européens. Or les infrastructures IA consomment des volumes d'énergie colossaux, ce qui fait de l'accès à une énergie abondante et décarbonée un avantage compétitif aussi déterminant que les semi-conducteurs. Le consortium indique par ailleurs vouloir privilégier les technologies open source pour éviter de recréer des dépendances aux solutions propriétaires. Ce projet s'inscrit dans une dynamique européenne plus large : la Commission européenne a lancé son programme AI Gigafactories pour doter le continent d'infrastructures capables de rivaliser avec celles des États-Unis et de la Chine, dans un contexte où la course aux modèles génératifs et aux agents IA s'accélère. La France, qui abrite déjà des acteurs de premier plan comme Mistral AI et Hugging Face, tente de transformer cet avantage écosystémique en infrastructure physique souveraine. AION devra encore préciser le calendrier de déploiement et les montants d'investissement engagés, mais la mobilisation de groupes aussi diversifiés, télécoms, énergie, cloud, conseil, finance, signal que la France mise sur une approche de filière plutôt que sur un champion unique pour peser dans la prochaine phase de l'IA industrielle.

UELe consortium AION, porté par EDF, Orange, Iliad et Capgemini, vise à offrir aux entreprises françaises et européennes des secteurs sensibles (santé, industrie, services publics) une alternative souveraine aux infrastructures cloud américaines, en réponse directe au programme européen des AI Gigafactories.

💬 Bon, sur le papier, c'est exactement ce qu'il manquait. Avoir EDF dans la boucle pour sécuriser de l'énergie nucléaire bas carbone, c'est l'argument que personne d'autre en Europe ne peut vraiment sortir, et ça change tout quand tes GPU tournent 24h/24. La question maintenant : calendrier, montants, et si ce consortium reste soudé quand il faudra écrire les vrais chèques.

La puce Vera de Nvidia, le pari à 200 milliards de dollars que Jensen Huang veut mettre en avant
131AI News 

La puce Vera de Nvidia, le pari à 200 milliards de dollars que Jensen Huang veut mettre en avant

Nvidia a publié mercredi ses résultats du premier trimestre fiscal avec un chiffre d'affaires de 81,62 milliards de dollars, dépassant les 78,86 milliards attendus par les analystes. La guidance pour le deuxième trimestre est fixée à 91 milliards, là encore au-dessus des 86,84 milliards anticipés par Wall Street. Mais lors de la conférence avec les analystes, le PDG Jensen Huang a mis en avant un élément stratégique souvent éclipsé par les chiffres trimestriels : le processeur Vera. Huang estime que cette puce CPU ouvre un marché adressable de 200 milliards de dollars, entièrement distinct du marché d'un billion de dollars déjà projeté pour les GPU Blackwell et Rubin entre 2025 et 2027. Il prévoit que les revenus issus de Vera atteindront 20 milliards de dollars d'ici la fin de l'exercice fiscal en cours, ce qui en ferait le deuxième poste de revenus de l'entreprise. La plateforme complète Vera Rubin, combinant le CPU Vera avec les GPU Rubin, doit être lancée plus tard cette année. La mise sur Vera répond à une menace structurelle sur le segment de l'inférence. Google, Amazon et Microsoft devraient investir collectivement plus de 700 milliards de dollars dans l'infrastructure IA cette année, contre environ 400 milliards en 2025, mais développent simultanément leurs propres puces maison pour faire tourner les modèles d'IA à grande échelle. Les TPU de Google, Trainium d'Amazon, ainsi que les offres d'Intel et AMD positionnent désormais sérieusement leurs processeurs sur l'inférence, le maillon où la domination GPU de Nvidia est la plus exposée. Entraîner de grands modèles reste le terrain de chasse exclusif de Nvidia, mais générer des réponses en temps réel et à l'échelle, c'est là que la concurrence fait son chemin. La puce Vera a été développée en partie grâce à une technologie issue de Groq, une startup spécialisée dans l'inférence, dans le cadre d'un accord de licence estimé à environ 17 milliards de dollars. L'enjeu immédiat reste l'approvisionnement. Huang a reconnu sans détour que Nvidia sera probablement en tension sur les stocks durant toute la durée de vie de la plateforme Vera Rubin. Pour anticiper, les engagements d'approvisionnement de l'entreprise ont bondi à 119 milliards de dollars au premier trimestre, contre 95,2 milliards le trimestre précédent. Nvidia a également annoncé un programme de rachat d'actions de 80 milliards de dollars et relevé son dividende trimestriel de 1 centime à 25 cents par action. Malgré ces signaux de confiance, le titre a reculé de 1,6 % en after-hours : les analystes estiment que les performances record sont désormais intégrées dans le cours. La vraie question est de savoir si Nvidia peut convaincre que la dynamique de dépenses en IA restera solide jusqu'en 2027 et 2028, dans un contexte où les géants du cloud bâtissent activement des alternatives à ses GPU.

UELes entreprises européennes et data centers qui dépendent des GPU Nvidia pour leurs infrastructures IA pourraient être confrontés à des tensions d'approvisionnement prolongées sur la plateforme Vera Rubin, avec un impact potentiel sur les coûts et délais de déploiement.

💬 Le chiffre qui compte vraiment, c'est pas les 81 milliards de revenus. C'est que Google, Amazon et Microsoft vont dépenser 700 milliards en infra IA cette année, en bonne partie pour construire leurs propres puces et sortir de la dépendance Nvidia sur l'inférence. Vera, c'est Jensen qui joue défensif avant que les dégâts arrivent, et c'est ça que les résultats record font oublier.

IA et performance : le verdict de l’indice mondial Fivetran
132Le Big Data 

IA et performance : le verdict de l’indice mondial Fivetran

Fivetran a publié en 2026 son indice mondial de maturité des pipelines de données, et les résultats sont sans appel : si 60 % des organisations à l'échelle mondiale investissent massivement dans l'IA agentique, avec des budgets estimés à plusieurs dizaines de millions d'euros, seules 15 % d'entre elles disposent réellement d'une infrastructure de données suffisamment solide pour faire fonctionner ces systèmes en production. En France, ce chiffre tombe à 12 %, soit parmi les plus faibles des pays étudiés. George Fraser, PDG de Fivetran, pointe une erreur de diagnostic commune : les entreprises investissent dans les modèles et les interfaces, mais négligent la plomberie informatique qui les alimente. Résultat : des agents autonomes déployés sur des pipelines instables, incapables de fournir des données fiables en temps réel. L'enjeu dépasse largement la performance technique. Contrairement à l'IA générative classique qui produit du texte à la demande, l'IA agentique prend des décisions et exécute des tâches en autonomie, ce qui exige une traçabilité complète et des données de qualité à chaque instant. Or, près de 40 % des professionnels interrogés dans l'étude identifient deux blocages majeurs : l'absence de traçabilité, qui empêche de comprendre l'origine des erreurs quand un agent dérape, et les contraintes réglementaires de souveraineté des données, qui freinent les déploiements à grande échelle. Ces failles de gouvernance transforment les projets pilotes en impasses opérationnelles, avec des risques économiques et réputationnels concrets pour les organisations concernées. Gartner va plus loin en avertissant que plus de la moitié des initiatives d'IA agentique pourraient être abandonnées faute de préparation adéquate des systèmes sous-jacents. Ce rapport intervient dans un contexte d'accélération généralisée des budgets IA, où la pression sur les directions informatiques pour livrer des résultats visibles est maximale. Les entreprises les plus avancées dans leur déploiement partagent une caractéristique commune : elles ont misé sur des architectures interopérables, capables de communiquer entre différents systèmes sans dépendre d'un fournisseur unique, ce que l'industrie appelle l'évitement du "vendor lock-in". Pour les responsables data, cette capacité d'intégration est désormais un critère éliminatoire dans le choix des solutions. La leçon que tire Fivetran de cet indice est claire : la priorité de 2026 n'est plus l'acquisition de nouveaux outils d'IA, mais la consolidation et la fiabilisation des flux de données qui les alimentent. Sans cette fondation, les ambitions agentiques resteront, pour la plupart des organisations, des promesses sur slides.

UELa France affiche le taux de maturité infrastructure le plus bas de l'étude (12%), exposant les entreprises françaises à un risque élevé d'échec de leurs initiatives d'IA agentique faute de pipelines de données fiables.

InfrastructureActu
1 source
Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU
133VentureBeat AI 

Cerebras affirme que ses puces exécutent un modèle IA d'un billion de paramètres près de 7 fois plus vite que les clouds GPU

Moins d'une semaine après avoir bouclé la plus grande introduction en bourse du secteur tech en 2026, Cerebras Systems a annoncé lundi qu'il fait tourner Kimi K2.6, un modèle open-weight de mille milliards de paramètres développé par la société pékinoise Moonshot AI, à près de 1 000 tokens par seconde pour ses clients entreprises. Le chiffre exact, vérifié de manière indépendante par la firme de benchmarking Artificial Analysis, s'établit à 981 tokens par seconde en sortie, soit 6,7 fois plus rapide que le meilleur fournisseur cloud sur GPU et 23 fois plus rapide que la médiane. Sur une requête d'assistance au code impliquant 10 000 tokens en entrée, Cerebras a livré la réponse complète en 5,6 secondes, contre 163,7 secondes sur l'endpoint officiel de Kimi, soit une amélioration d'un facteur 29. La société, basée à Sunnyvale et désormais valorisée 95 milliards de dollars après avoir levé 5,55 milliards lors de son IPO, signe ici son entrée en production sur les modèles de taille maximale, un palier qu'elle n'avait jamais encore franchi. L'enjeu dépasse la performance brute. Kimi K2.6 est l'un des premiers modèles open-weight que les entreprises peuvent crédiblement utiliser comme alternative aux API fermées d'Anthropic ou d'OpenAI, notamment pour les tâches de codage et d'agents autonomes qui représentent aujourd'hui les cas d'usage les plus rentables des grands modèles de langage. James Wang, directeur marketing produit de Cerebras, est direct : les clients sont motivés avant tout par le besoin d'une alternative à Anthropic, dont les modèles sont excellents mais coûteux et régulièrement saturés. Il cite l'exemple d'une application tombée en panne un week-end faute de capacité disponible sur l'API d'Anthropic, une mésaventure qui résonne fortement auprès des acheteurs en entreprise. La rapidité de Cerebras n'est donc pas qu'un argument marketing : dans les workflows agentiques, où chaque seconde d'attente se multiplie par des dizaines d'appels successifs, la vitesse d'inférence devient un avantage compétitif structurel. Kimi K2.6 a été publié le 20 avril par Moonshot AI, une startup fondée en 2023 par des anciens de l'université Tsinghua et considérée comme l'une des entreprises "AI Tiger" de Chine. Le modèle utilise une architecture Mixture-of-Experts avec 32 milliards de paramètres activés par token sur un total de 1 000 milliards, 384 experts dont 8 sélectionnés par passe, et une fenêtre de contexte de 256 000 tokens. Il occupe la première place sur SWE-Bench Pro avec un score de 58,6, dépassant Claude Opus 4.6 et égalant GPT-5.4. Le choix de ce modèle chinois comme vitrine d'un fabricant de puces américain soulève néanmoins une dimension géopolitique que l'article laisse en suspens : Cerebras joue ici à la fois la carte de la performance et celle de l'ouverture, dans un contexte de tensions croissantes autour des technologies d'IA entre les deux pays.

UELes entreprises européennes dépendantes de solutions cloud d'inférence LLM disposent d'une nouvelle alternative matérielle avec des vitesses vérifiées jusqu'à 6,7 fois supérieures aux meilleurs fournisseurs GPU, ce qui peut réduire les risques de saturation de capacité pour les workflows agentiques.

💬 981 tokens par seconde, vérifié par un tiers indépendant, sur un modèle à 1000 milliards de paramètres. Dans les workflows agentiques où chaque appel LLM en déclenche dix autres, c'est pas un argument marketing, c'est du cash économisé et des pannes évitées. Et le truc le plus savoureux, c'est qu'un fabricant de puces américain fraîchement introduit en bourse choisit un modèle chinois comme vitrine, et que l'article passe presque dessus comme si c'était un détail.

InfrastructureOpinion
1 source
La passerelle IA : centraliser l'inférence à l'échelle d'équipes décentralisées
134InfoQ AI 

La passerelle IA : centraliser l'inférence à l'échelle d'équipes décentralisées

Face à la multiplication des modèles d'IA dans les entreprises, les équipes d'ingénierie se retrouvent confrontées à ce que Meryem Arik appelle le "chaos d'inférence" : chaque équipe choisit ses propres modèles, ses propres fournisseurs, sans coordination ni visibilité globale. Pour y remédier, une nouvelle catégorie d'infrastructure émerge : les passerelles de modèles d'IA (AI model gateways), une couche de contrôle centralisée qui s'intercale entre les équipes et les fournisseurs de LLM comme OpenAI, Anthropic ou Mistral. L'enjeu est concret : sans ce type de couche intermédiaire, les DSI et responsables techniques perdent le contrôle des coûts, de la sécurité et de la conformité. Une passerelle bien configurée permet de gérer les droits d'accès par équipe (RBAC), de suivre la consommation par projet, d'imposer des règles de routage selon les besoins, et d'éviter que des données sensibles partent vers des API externes sans supervision. Pour les grandes organisations qui déploient l'IA à l'échelle, c'est une brique devenue aussi critique qu'un API gateway classique. Deux solutions open source se distinguent dans ce segment : LiteLLM, qui offre une interface unifiée vers des dizaines de fournisseurs LLM, et Doubleword, plus récent, positionné sur le contrôle d'entreprise. Ce marché reste jeune mais s'accélère à mesure que les équipes tech passent du prototype à la production à grande échelle. Les éditeurs de plateformes MLOps comme Weights & Biases ou Databricks surveillent ce segment de près, et des acquisitions ou intégrations sont probables dans les prochains mois.

UELes entreprises européennes déployant des LLMs à grande échelle ont un intérêt direct à adopter ce type de passerelle pour satisfaire aux exigences du RGPD et de l'AI Act, en garantissant que les données sensibles restent sous contrôle avant d'être transmises à des API externes.

InfrastructureOpinion
1 source
AION : la gigafactory IA d'Orange, EDF et Capgemini
135FrenchWeb 

AION : la gigafactory IA d'Orange, EDF et Capgemini

Ardian, Orange, EDF, Capgemini, Artefact, Bull, le Groupe iliad et Scaleway ont annoncé leur regroupement au sein du consortium AION pour déposer une candidature française au programme européen des AI Gigafactories. Cette initiative, portée par la Commission européenne dans le cadre de son agenda pour la souveraineté numérique, vise à financer la construction de centres de calcul massifs dédiés à l'intelligence artificielle sur le sol européen. L'alliance réunit ainsi des acteurs complémentaires : un fonds d'investissement de premier plan, deux géants de l'énergie et des télécoms, un intégrateur IT mondial et plusieurs spécialistes du cloud français. L'enjeu est considérable pour l'écosystème européen de l'IA. L'Europe accuse un retard structurel face aux États-Unis et à la Chine en matière de puissance de calcul disponible pour entraîner et faire tourner des grands modèles de langage. Une gigafactory labellisée par Bruxelles permettrait de concentrer des milliers de GPU sur un même site, d'en garantir l'accès à des startups et laboratoires de recherche européens à des conditions compétitives, et de réduire la dépendance aux infrastructures américaines comme AWS ou Azure. Le programme AI Gigafactories s'inscrit dans le plan InvestAI annoncé par la Commission européenne début 2025, qui ambitionne de mobiliser 200 milliards d'euros pour rattraper le retard du continent. Plusieurs États membres ont déjà soumis des candidatures, et la France entend peser dans cette compétition en fédérant ses acteurs industriels et technologiques les plus solides. Le choix des lauréats par Bruxelles déterminera quels pays accueilleront les prochains piliers de l'infrastructure IA continentale.

UELe consortium AION réunit Orange, EDF, Capgemini, iliad et Scaleway pour candidater au programme européen des AI Gigafactories, ce qui pourrait permettre à la France d'accueillir un centre de calcul souverain offrant aux startups et laboratoires européens un accès compétitif à la puissance GPU nécessaire à l'entraînement de grands modèles.

💬 Du lourd dans ce consortium : Orange, EDF, Scaleway, iliad, c'est pas une candidature symbolique. Ce qui m'intéresse vraiment là-dedans, c'est pas la gigafactory en elle-même, c'est l'accès GPU garanti pour les startups et labos européens qui galèrent à se payer du compute H100. Bruxelles retient 2-3 sites max sur tout le continent, et là, faut pas se louper.

InfrastructureActu
1 source
Alibaba conçoit des puces IA pour les agents autonomes, ce qui redéfinit les enjeux de la course aux semi-conducteurs
136AI News 

Alibaba conçoit des puces IA pour les agents autonomes, ce qui redéfinit les enjeux de la course aux semi-conducteurs

Alibaba a présenté le Zhenwu M890, un processeur développé par sa filiale semi-conducteur T-Head, conçu spécifiquement pour les agents IA. Selon l'entreprise, la puce offre des performances trois fois supérieures à son prédécesseur, le Zhenwu 810E. Mais la véritable nouveauté n'est pas le bond de puissance brute : le M890 est architecturalement pensé pour les agents IA, ces systèmes logiciels qui doivent maintenir de longs contextes en mémoire, coordonner plusieurs modèles en temps réel et exécuter des tâches complexes à plusieurs étapes avec une intervention humaine minimale. Ces exigences, notamment en bande passante mémoire et en communication inter-modèles, sont fondamentalement différentes de celles des puces d'inférence classiques. En parallèle, Alibaba a annoncé Qwen 3.7-Max, la dernière version de son grand modèle de langage phare, capable de fonctionner en continu jusqu'à 35 heures sans dégradation des performances, une spec qui n'a de sens que si l'on conçoit pour une opération autonome prolongée. Ce qui change vraiment avec cette annonce, c'est la nature de la compétition. Alibaba ne comble pas un vide laissé par les contrôles à l'exportation américains : l'entreprise construit une pile IA intégrée et fermée, avec sa propre puce chez T-Head, son propre modèle chez Qwen, et sa propre plateforme de livraison cloud via Bailian. Le M890 sera disponible aux entreprises chinoises empaqueté dans le Panjiu AL128, un serveur rack intégrant 128 accélérateurs M890. T-Head annonce par ailleurs avoir déjà livré plus de 560 000 unités Zhenwu à plus de 400 clients dans 20 secteurs, dont l'automobile et la finance. Ce n'est pas du matériel de laboratoire : Alibaba dispose déjà de données de déploiement à l'échelle réelle avant même le lancement commercial du M890. La feuille de route publiée simultanément est tout aussi significative. Le M890 sera suivi du V900 au troisième trimestre 2027, promettant un nouveau gain de performances triple, puis du J900 au troisième trimestre 2028. Cette cadence délibérée rappelle les cycles tick-tock de Nvidia, et fait écho à la roadmap similaire dévoilée par Huawei pour sa ligne Ascend l'an dernier. Les deux annonces révèlent la même conclusion stratégique : les grandes entreprises technologiques chinoises ont décidé que dépendre de puces étrangères, même dans un scénario d'allègement des restrictions, représente un risque structurel inacceptable. Cette conviction se traduit en capital : Alibaba a engagé plus de 380 milliards de yuans (environ 53 milliards de dollars) dans l'infrastructure cloud et IA sur trois ans, son plus grand investissement sectoriel à ce jour. Le M890 et ses successeurs sont le résultat direct de cette mise.

UEL'autonomisation accélérée de la Chine en matière de puces IA renforce les tensions géopolitiques sur les semi-conducteurs et accentue la pression sur l'Europe pour consolider sa propre souveraineté technologique dans le cadre de l'EU Chips Act.

InfrastructureOpinion
1 source
Les puces IA d'Amazon commencent à séduire les développeurs face à Nvidia
137The Information AI 

Les puces IA d'Amazon commencent à séduire les développeurs face à Nvidia

Les puces Trainium d'Amazon commencent à séduire les développeurs d'intelligence artificielle, marquant une étape importante dans la stratégie du géant du cloud pour concurrencer Nvidia. Anthropic et OpenAI, qui ont conclu des accords d'investissement et d'infrastructure de plusieurs milliards de dollars avec Amazon, se sont déjà engagés à louer de grandes quantités de capacité Trainium, aussi bien les générations actuelles que futures. Des améliorations logicielles récentes ont en outre convaincu une demi-douzaine de développeurs plus modestes, selon des personnes qui utilisent ou travaillent avec ces puces, d'envisager de transférer davantage de leurs charges de travail vers cette architecture propriétaire d'AWS. Ce changement de perception est significatif pour l'industrie. Nvidia contrôle aujourd'hui plus de 80 % du marché des puces d'entraînement d'IA, ce qui lui confère un pouvoir de fixation des prix considérable. Si Amazon parvient à convaincre même une fraction des développeurs de basculer vers Trainium, cela pourrait réduire la dépendance structurelle de l'écosystème IA envers un seul fournisseur et faire pression sur les marges exceptionnelles de Nvidia. Amazon développe ses propres siliciums depuis plusieurs années, après le rachat d'Annapurna Labs en 2015. La stratégie repose sur l'intégration verticale : proposer des puces optimisées pour les services AWS, avec des prix potentiellement inférieurs à ceux des GPU H100 et H200 de Nvidia. L'adhésion d'acteurs aussi stratégiques qu'Anthropic, dans lequel Amazon a investi plus de 4 milliards de dollars, constitue à la fois une validation technique et un levier commercial pour attirer d'autres clients vers l'écosystème Trainium.

UELes développeurs et entreprises européennes hébergés sur AWS pourraient bénéficier d'une alternative moins coûteuse aux GPU Nvidia si l'adoption de Trainium se généralise, réduisant la dépendance structurelle de l'écosystème IA à un unique fournisseur de silicium.

💬 Quand Anthropic et OpenAI "adoptent" Trainium, faut garder en tête qu'Amazon leur a mis des milliards sur la table, donc c'est une validation arrangée autant que technique. Ce qui compte vraiment, c'est la demi-douzaine de développeurs indépendants qui commencent à y basculer des workloads pour des raisons de coût, sans deal en arrière-plan. C'est ce signal-là qui a du poids.

InfrastructureOpinion
1 source
L'infrastructure GenAI pour préparer l'avenir
138InfoQ AI 

L'infrastructure GenAI pour préparer l'avenir

Merrin Kurian, ingénieure chez Intuit, a présenté l'architecture et les processus organisationnels qui sous-tendent la transformation IA de l'entreprise, connue pour ses logiciels fiscaux et financiers comme TurboTax et QuickBooks. Au cœur de cette transformation se trouve GenOS, la plateforme d'IA générative interne d'Intuit, déployée auprès de 8 000 développeurs et ayant permis la mise en production de plus de 3 500 expérimentations. Pour piloter ce déploiement à grande échelle, Intuit a adopté un cadre en trois niveaux baptisé "fixed, flexible, free", distinguant ce qui est imposé à tous, ce qui est configurable selon les équipes, et ce qui est laissé à la libre initiative des développeurs. Cette approche structurée répond à un défi concret pour toute grande entreprise qui industrialise l'IA : comment donner de l'autonomie aux équipes sans perdre le contrôle de la qualité, de la sécurité et de la cohérence des systèmes. Kurian a notamment détaillé les modes de défaillance propres aux agents IA, ces systèmes autonomes qui enchaînent des actions, et présenté une stratégie d'évaluation dite "LLM-as-a-judge", où un modèle de langage est utilisé pour noter automatiquement les sorties d'un autre modèle. Intuit travaille également à rendre ses API "tool-ready", c'est-à-dire nativement compatibles avec des agents IA capables de les appeler sans intervention humaine. Cette présentation s'inscrit dans un mouvement plus large de structuration des infrastructures GenAI dans les grandes entreprises technologiques. Après une phase d'expérimentation, les acteurs comme Intuit cherchent désormais à industrialiser leurs pratiques, en construisant des plateformes internes capables de supporter des milliers de cas d'usage simultanément. Le passage à l'échelle exige des choix d'architecture rigoureux, une gouvernance claire et des outils d'évaluation automatisés pour maintenir la fiabilité dans des environnements de production complexes.

InfrastructureActu
1 source
L'accord Nvidia H200 avec la Chine a survécu au sommet Trump-Xi, mais pas comme prévu
139AI News 

L'accord Nvidia H200 avec la Chine a survécu au sommet Trump-Xi, mais pas comme prévu

Donald Trump s'est rendu à Pékin en mai 2026, accompagné à la dernière minute de Jensen Huang, PDG de Nvidia, et en est reparti en déclarant que "quelque chose pourrait se passer" sur les exportations de puces. Rien ne s'est passé. Pas un seul H200 de Nvidia n'a été livré en Chine depuis que Trump a autorisé ces ventes en décembre 2025. Le représentant américain au commerce, Jamieson Greer, a confirmé à Bloomberg que les contrôles sur les semi-conducteurs n'étaient même pas à l'ordre du jour bilatéral. En réalité, les licences d'exportation existent déjà : une dizaine d'entreprises chinoises, dont Alibaba, Tencent, ByteDance et JD.com, disposent chacune d'autorisations américaines pour jusqu'à 75 000 unités, avec Lenovo et Foxconn comme distributeurs agréés. Les puces ne bougent pas parce que c'est Pékin qui bloque ses propres entreprises. Le blocage repose sur une contradiction réglementaire structurelle. Les règles américaines exigent que les H200 exportés vers des clients chinois soient déployés uniquement sur le territoire chinois. Pékin, de son côté, a ordonné à ses grandes entreprises tech de réserver leurs achats de puces Nvidia à leurs opérations à l'étranger, tout en soutenant les fournisseurs domestiques. Les deux exigences s'excluent mutuellement : les puces autorisées à l'export ne peuvent légalement être déployées là où Pékin veut les déployer. Ce n'est pas une impasse accidentelle. Le secrétaire au Commerce Howard Lutnick a déclaré devant le Sénat que les firmes chinoises cherchent délibérément à concentrer leurs investissements sur les fournisseurs locaux, au premier rang desquels Huawei. Le Conseil d'État chinois a par ailleurs lancé une revue de la sécurité des chaînes d'approvisionnement visant à réduire la dépendance aux semi-conducteurs américains. Pendant que les diplomates négociaient, les données les plus significatives venaient d'ailleurs. DeepSeek a confirmé que son dernier modèle avait été optimisé pour tourner sur les processeurs Huawei. Le directeur stratégique de Tencent a annoncé que l'offre chinoise en GPU augmenterait progressivement tout au long de 2026, et Alibaba a confirmé que ses GPU propriétaires T-Head étaient désormais en production de masse. En avril, DeepSeek V4 était devenu le premier grand modèle frontier chinois adapté aux puces Ascend de Huawei dès la phase d'entraînement, et non plus seulement pour l'inférence. Le signal est clair : la substitution n'est plus expérimentale, elle est devenue une politique industrielle. Les revenus de Nvidia en Chine sont tombés à environ 5 % ces derniers trimestres, contre plus de 20 % avant le durcissement des contrôles à l'export, et la société anticipe désormais zéro revenu chinois pour le trimestre en cours. La présence de Huang à Pékin illustrait l'urgence ressentie par Nvidia ; son résultat illustre les limites de la diplomatie de PDG face à un blocage structurel.

UEL'impasse sino-américaine sur les GPU Nvidia accélère la montée en puissance d'alternatives chinoises (Huawei Ascend) et rappelle à l'Europe sa propre dépendance aux chaînes d'approvisionnement américaines, renforçant l'urgence de l'European Chips Act.

💬 Jensen Huang à Pékin avec Trump, et au final zéro H200 livré : la mise en scène était parfaite, le résultat nul. Ce qui est frappant, c'est que le blocage ne vient pas de Washington cette fois, ce sont les Chinois eux-mêmes qui freinent leurs propres entreprises pour les forcer vers Huawei. Pendant ce temps, DeepSeek optimisait sur Ascend et Alibaba lançait ses GPU en masse : la substitution n'est plus un plan B, c'est le plan A.

InfrastructureOpinion
1 source
Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA
140Le Big Data 

Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA

Blackstone et Google ont annoncé le 19 mai 2026 la création d'une coentreprise américaine dédiée aux services de calcul accéléré basés sur les TPU (Tensor Processing Units) de Google. L'accord prévoit un investissement initial de 5 milliards de dollars apportés par Blackstone en fonds propres, avec pour objectif de déployer une première capacité de 500 mégawatts d'ici 2027. Google fournit ses puces TPU, ses logiciels et ses services, tandis que Blackstone apporte son expertise dans la construction et le financement d'infrastructures à grande échelle, le fonds gère plus de 1 300 milliards de dollars d'actifs et possède une présence majeure dans les centres de données. La nouvelle entité sera dirigée par Benjamin Treynor Sloss, ancien cadre de Google avec plus de vingt ans d'expérience dans la conception d'infrastructures critiques. La capacité prévue pourrait être significativement étendue au-delà de 500 MW pour accompagner la montée en puissance des usages IA. Ce partenariat marque un tournant dans la manière dont Google monétise ses TPU, jusqu'ici cantonnées à un usage interne ou distribuées exclusivement via Google Cloud. En créant une structure commerciale indépendante, Google ouvre un nouveau canal de distribution de sa puissance de calcul, plus flexible et accessible à des entreprises qui ne souhaitent pas s'engager exclusivement avec Google Cloud. Pour les acteurs de l'IA, laboratoires de recherche, institutions financières, grandes entreprises, cela représente une alternative crédible aux GPU Nvidia, qui dominent le marché mais restent confrontés à des problèmes de disponibilité et à des coûts élevés. Cette initiative répond aussi à un besoin structurel : les grandes organisations cherchent à sécuriser des capacités de calcul stables sur le long terme, capables de soutenir des modèles d'IA toujours plus gourmands en ressources. Les TPU de Google sont développées depuis plus d'une décennie et alimentent déjà les infrastructures de Gemini ainsi que celles de nombreux partenaires technologiques. Leur ouverture à un marché plus large s'inscrit dans une logique d'industrialisation rapide de l'infrastructure IA : après la course aux modèles génératifs, la bataille se déplace vers l'accès à la puissance de calcul elle-même. Nvidia règne pour l'instant sans partage sur ce segment, mais la pression concurrentielle s'intensifie, avec des acteurs comme AMD, Intel et désormais Google qui cherchent à capter une part croissante de ce marché estimé à plusieurs centaines de milliards de dollars. L'alliance entre l'un des plus grands gestionnaires d'actifs mondiaux et le détenteur d'une technologie de calcul propriétaire de premier plan illustre comment capital financier et puissance technologique convergent pour structurer l'infrastructure de l'IA de demain.

UELes organisations et laboratoires européens de recherche en IA pourraient à terme accéder à une offre de calcul accéléré supplémentaire, mais la coentreprise est domiciliée aux États-Unis et ne cible pas spécifiquement le marché européen.

💬 5 milliards dans une JV dédiée aux TPU, ça dit clairement que la bataille pour l'infrastructure IA est lancée. Google avait ces puces depuis dix ans, les gardait pour son cloud, et il ouvre maintenant le robinet en partageant le risque avec Blackstone. Reste à voir si les TPU sont vraiment compétitifs en dehors des cas d'usage où Google a tout optimisé pour lui-même.

L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America
141AI News 

L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America

La conférence TechEx North America a réuni cette année des représentants de l'industrie autour d'une question centrale : que faut-il construire autour de l'IA avant qu'elle puisse réellement s'intégrer dans le monde physique et les environnements d'entreprise ? Organisée en quatre grandes pistes thématiques, Edge Computing, IoT, Data Centre Congress et Cybersécurité, l'événement a mis en avant des intervenants de Schneider Electric, Akamai, Spectro Cloud, Siemens, LG CNS, Boston Dynamics, Rockwell Automation ou encore Ford. Ed Doran, de l'Edge AI Foundation, a présidé la piste edge computing, dont le programme couvrait le déploiement multi-sites, l'inférence distribuée (on-premise, cloud ou hybride), les opérations réseau agentiques et l'application des principes zero-trust aux systèmes de contrôle industriel. La piste IoT industriel a, elle, abordé les usines intelligentes, la gestion d'actifs, l'IA au-delà de l'Industrie 4.0 et les jumeaux numériques. Le constat qui a dominé les échanges tient en deux mots devenus un leitmotiv du salon : "pilot purgatory". Ce phénomène désigne le gouffre entre une démonstration convaincante en salle de conférence et un déploiement réel qui tient la route face aux machines vieillissantes, aux logiciels patrimoniaux et aux organisations peu préparées. La session commune de Rockwell Automation et Ford sur l'IA physique et l'intelligence des actifs connectés a particulièrement insisté sur ce point : comment fait-on entrer l'intelligence dans les opérations quotidiennes sans qu'elle devienne un tableau de bord de plus que personne ne consulte ? Les jumeaux numériques ont subi le même examen critique, plusieurs intervenants ont plaidé pour des modèles opérationnels capables d'améliorer concrètement la maintenance et d'anticiper les décisions, plutôt que de simples répliques visuelles d'installations. Ces débats s'inscrivent dans un moment charnière pour l'industrie : l'IA générative a démontré sa valeur dans les environnements de bureau, mais son transfert vers les environnements industriels se heurte à des contraintes radicalement différentes, latence, fiabilité, sécurité des systèmes de contrôle et consommation énergétique. La piste Data Centre Congress a illustré cette dernière tension avec acuité, en mettant sur la table les crises de construction, les problèmes d'approvisionnement en électricité, le refroidissement et les besoins en réseau des futurs datacenters dédiés à l'IA. Le message transversal de TechEx North America est que les systèmes intelligents, qu'ils soient enfouis dans un site industriel ou déployés dans un back-office, doivent être conçus en cohérence avec les personnes et les machines qu'ils sont censés servir, sous peine de rester des promesses sans lendemain.

UELa présence de Schneider Electric et Siemens parmi les intervenants principaux illustre le rôle des entreprises européennes dans la définition des standards de déploiement de l'IA industrielle à l'échelle mondiale.

InfrastructureActu
1 source
L'architecture de contexte remplace le RAG à mesure que les agents IA poussent la récupération d'information en entreprise à ses limites
142VentureBeat AI 

L'architecture de contexte remplace le RAG à mesure que les agents IA poussent la récupération d'information en entreprise à ses limites

Redis a lancé lundi Redis Iris, une plateforme de contexte et de mémoire conçue pour les agents d'intelligence artificielle en production. L'annonce vient du CEO Rowan Trollope et marque une évolution majeure dans la stratégie de l'entreprise, historiquement connue comme couche de cache pour les applications web. Redis Iris se positionne entre l'agent et les données dont il a besoin pour agir, en combinant cinq composants : Redis Data Integration (désormais en disponibilité générale), qui synchronise en continu les bases relationnelles, entrepôts et documents via des connecteurs pour Oracle, Snowflake, Databricks et Postgres ; un Context Retriever (en préversion) qui génère automatiquement des outils MCP à partir de modèles de données métier définis en Pydantic, avec contrôles d'accès appliqués côté serveur ; un serveur de mémoire agent pour conserver le contexte à court et long terme entre les sessions ; et Redis Flex, un moteur de stockage réécrit faisant tourner 99 % des données sur SSD et 1 % en RAM, réduisant le coût à un dixième du stockage purement en mémoire. La raison d'être de cette architecture tient à un déséquilibre structurel entre agents et humains. Trollope le formule clairement : les entreprises auront un nombre d'agents plusieurs ordres de grandeur supérieur à celui de leurs employés humains, ce qui génère une charge équivalente sur les systèmes backend. Les pipelines RAG classiques, construits pour des requêtes humaines ponctuelles, ne tiennent pas face au volume que produisent des agents opérant en continu. Redis inverse la logique : plutôt que de présupposer quelles données injecter dans le pipeline, il laisse l'agent tirer lui-même l'information via des interfaces construites pour lui. Le marché confirme l'urgence : selon le VB Pulse RAG Infrastructure Market Tracker du premier trimestre 2026, l'intention d'adoption du retrieval hybride a triplé de 10,3 % à 33,3 % entre janvier et mars, l'optimisation du retrieval est devenue la première priorité d'investissement enterprise devant l'évaluation, et les stacks de retrieval maison sont passées de 24,1 % à 35,6 % du marché. Redis n'est pas le seul acteur à repositionner son offre autour des couches de contexte agent, plusieurs fournisseurs de plateformes de données ayant fait des annonces similaires ces dernières semaines. Trollope tire le parallèle avec l'ère mobile : quand les systèmes bancaires conçus pour les guichets ont dû absorber des millions d'utilisateurs smartphone, Redis est devenu la couche de cache qui a évité une refonte totale des backends. La différence aujourd'hui, c'est que les agents ne peuvent pas écrire leur propre middleware : ils ont besoin, au moment de l'exécution, d'interfaces préparées en amont, ou ils s'arrêtent. La transition de l'infrastructure RAG vers des architectures de contexte dédiées aux agents semble donc moins être une tendance émergente qu'un basculement déjà en cours dans les grandes entreprises.

InfrastructureOpinion
1 source
Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle
143NVIDIA AI Blog 

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

Lors du Dell Technologies World, Jensen Huang, PDG de NVIDIA, a rejoint sur scène Michael Dell pour présenter une nouvelle génération d'infrastructures dédiées à l'IA agentique. Les deux dirigeants ont annoncé plusieurs serveurs inédits, dont le Dell PowerEdge XE9812, construit autour de la puce NVIDIA Vera Rubin NVL72, qui affiche un coût par token jusqu'à dix fois inférieur à celui de l'architecture Blackwell pour les déploiements d'inférence à grande échelle. À ses côtés, les serveurs PowerEdge XE9880L, XE9885L et XE9882L s'appuient sur les modules NVIDIA HGX Rubin NVL8, premiers systèmes Dell à adopter cette architecture, supportant jusqu'à 144 GPU par rack, avec des noeuds de calcul entièrement refroidis par liquide et des performances jusqu'à 5,5 fois supérieures au HGX B200. Du côté des processeurs, les PowerEdge M9822 et R9822 intègrent le CPU NVIDIA Vera, doté d'une bande passante mémoire de 1,2 To/s, capable d'exécuter des charges agentiques 50 % plus rapidement que les processeurs x86. Dell a également dévoilé le PowerRack, un système entièrement intégré, ainsi qu'une mise à jour de son AI Data Platform incluant le moteur Starburst, qui offre un débit SQL jusqu'à trois fois supérieur sur CPU Vera. Cinq mille entreprises, dont Lilly, Samsung et Honeywell, exploitent déjà des charges de travail IA sur des Dell AI Factories avec NVIDIA. Ces annonces s'inscrivent dans un contexte de demande explosive. Michael Dell a rappelé que les dépenses mondiales en infrastructure IA pourraient atteindre entre 3 000 et 4 000 milliards de dollars d'ici 2030, avec une consommation de tokens projetée en hausse de 3 400 % sur la même période. Jensen Huang a résumé la situation sans détour : "Nous sommes entrés dans l'ère de l'IA utile, c'est pourquoi la demande est parabolique, absolument parabolique." Pour les entreprises, l'enjeu est direct : réduire le coût de l'inférence pour rendre les agents autonomes économiquement viables en production, et non plus seulement dans des environnements pilotes. La vitesse sur les bases de données est particulièrement stratégique, car les agents IA interrogent en continu ces systèmes pour accomplir leurs tâches, rendant la performance CPU aussi critique que celle des GPU. Cette conférence marque une accélération nette dans la course aux infrastructures IA d'entreprise. NVIDIA et Dell s'inscrivent dans une compétition directe avec les géants du cloud -- Amazon, Google, Microsoft -- qui proposent leurs propres puces et services managés. L'argument central de Dell est de permettre aux entreprises de faire tourner leurs modèles frontières et leurs agents autonomes dans leur propre périmètre sécurisé, sans dépendre d'un fournisseur cloud. La génération Rubin succède à Blackwell, lancée en 2024, et la cadence s'accélère : NVIDIA a maintenu un rythme d'une nouvelle architecture tous les un à deux ans. Pour des groupes comme Honeywell ou Lilly, dont les données sont sensibles et les contraintes réglementaires fortes, la promesse d'une IA souveraine et haute performance constitue un argument de poids face aux offres cloud publiques.

UELes entreprises européennes soumises aux contraintes RGPD pourraient tirer parti de l'offre d'IA souveraine on-premise Dell/NVIDIA pour réduire leur dépendance aux clouds publics américains.

InfrastructureActu
1 source
SiMa.ai lève des fonds à une valorisation de 1,4 milliard de dollars
144The Information AI 

SiMa.ai lève des fonds à une valorisation de 1,4 milliard de dollars

La startup californienne SiMa.ai, basée à San Jose, est en négociations avancées pour lever plus de 100 millions de dollars auprès d'investisseurs, à une valorisation d'environ 1,4 milliard de dollars. Cette opération représenterait une hausse de plus de 45 % par rapport à sa valorisation de 960 millions de dollars enregistrée en août 2025, selon les données de PitchBook. L'information a été confirmée par deux sources proches du dossier. SiMa.ai conçoit des puces d'inférence destinées à fonctionner directement sur des appareils embarqués comme des drones, des robots ou des caméras de surveillance, sans avoir recours à la puissance de calcul des centres de données. Cette levée de fonds illustre une conviction croissante chez certains investisseurs : l'avenir de l'IA ne se jouera pas uniquement dans les datacenters. Les puces de SiMa.ai sont optimisées pour la sobriété énergétique et l'exécution locale des modèles, ce que l'on appelle l'inférence en périphérie de réseau ("edge inference"). Pour les industriels du secteur manufacturier, de la logistique ou de la sécurité, cette approche ouvre la possibilité de déployer de l'intelligence artificielle sur le terrain, en temps réel, sans dépendre d'une connexion permanente au cloud ni des coûts associés. Si ce modèle se généralise, il pourrait remettre en question les projections actuelles sur les besoins en infrastructure numérique mondiale. SiMa.ai s'inscrit dans une vague de startups spécialisées qui cherchent à conquérir des segments du marché des puces IA laissés en dehors du champ de Nvidia, dont la domination porte essentiellement sur les GPU de datacenter. Ces challengers misent sur des cas d'usage précis et des contraintes physiques réelles, comme la consommation électrique ou la taille des appareils. Le marché de l'IA embarquée, porté par l'essor des véhicules autonomes, de la robotique industrielle et des systèmes de vision par ordinateur, devrait croître fortement dans les prochaines années, attirant capitaux et compétition dans ce segment encore dominé par aucun acteur incontournable.

UEL'essor de l'inférence embarquée pourrait à terme bénéficier aux industriels européens (manufacturier, logistique, robotique) en réduisant leur dépendance au cloud américain.

InfrastructureOpinion
1 source
Derrière la rencontre entre Trump et Xi, l’ombre de l’IA
145Next INpact 

Derrière la rencontre entre Trump et Xi, l’ombre de l’IA

Du 13 au 15 mai 2026, Donald Trump s'est rendu en Chine pour un sommet de deux jours avec Xi Jinping, emmenant avec lui une délégation d'une quinzaine de dirigeants de la tech et de la finance, parmi lesquels Jensen Huang (Nvidia), Elon Musk (Tesla) et Tim Cook (Apple). Le patron de Nvidia a même rejoint le groupe en dernière minute, lors d'une escale en Alaska, signe de l'importance stratégique de ce marché pour son entreprise malgré les restrictions américaines à l'export. Au menu des échanges : les terres rares, les puces électroniques, l'usage militaire de l'intelligence artificielle et les lignes rouges à ne pas franchir dans les conflits armés, où l'IA s'est déjà déployée sur le terrain, notamment au Venezuela et en Palestine. Trump a annoncé au retour que dix entreprises chinoises avaient obtenu l'autorisation d'acheter des puces Nvidia H200, mais que c'est désormais Pékin lui-même qui freine ces achats, au nom de l'indépendance technologique nationale. Peu d'accords concrets ont été noués à l'issue de ces deux jours. Ce sommet révèle, plus qu'il ne les résout, les fractures profondes entre deux modèles d'IA. Aux États-Unis, le développement est porté par le secteur privé, fondé sur une captation massive de données et de ressources, au point de susciter des résistances croissantes. En Chine, l'État impulse une stratégie open source, plus sobre en entraînement, aux performances comparables, et potentiellement structurante pour les standards mondiaux à venir. Le cas des puces H200 illustre cette divergence : là où Washington cherche à verrouiller l'accès aux technologies de pointe, Pékin préfère développer ses propres champions plutôt que de rester dépendant des infrastructures américaines. Derrière ces négociations se joue une bataille pour le contrôle des ressources critiques qui sous-tendent toute l'économie de l'IA. La Chine extrait plus de 60 % des terres rares mondiales et raffine près de 85 % des stocks globaux ; elle produit plus de 90 % de douze éléments critiques, dont le terbium et le dysprosium, indispensables aux composants des F-35 américains, aux moteurs de véhicules électriques et au hardware informatique. Cette mainmise constitue l'un des leviers de pression les plus puissants de Pékin dans la négociation. Les États-Unis, eux, dominent la conception des puces les plus avancées et contrôlent les chaînes logicielles qui font tourner les grands modèles. Le sommet de mai illustre ainsi une réalité durable : les deux puissances sont condamnées à s'affronter et à s'articuler simultanément, dans une interdépendance technologique dont aucune n'a encore trouvé la sortie.

UELa dépendance européenne aux terres rares chinoises (85 % du raffinage mondial) et aux puces de conception américaine expose l'UE à des vulnérabilités d'approvisionnement critiques, tandis que la rivalité sino-américaine sur les standards de l'IA risque de s'imposer sans que l'Europe ait son mot à dire.

💬 Jensen Huang qui saute dans un avion en Alaska pour rejoindre la délégation en dernière minute, ça dit tout sur ce que représente ce sommet pour Nvidia. Ce qui se joue là, c'est pas une négociation commerciale, c'est la cartographie des dépendances mutuelles : les terres rares d'un côté, les architectures de puces de l'autre. Et l'Europe regarde ça depuis les gradins, dépendante des deux.

InfrastructureOpinion
1 source
NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres
146MarkTechPost 

NVIDIA introduit une méthode de pré-entraînement en 4 bits avec NVFP4, validée sur un modèle hybride Mamba-Transformer de 12 milliards de paramètres

Des chercheurs de NVIDIA ont publié une méthodologie complète pour préentraîner des grands modèles de langage en précision 4 bits, en s'appuyant sur un format maison baptisé NVFP4, conçu pour les cœurs tensoriels Blackwell des GPU GB200 et GB300. Pour valider l'approche, l'équipe a préentraîné un modèle hybride Mamba-Transformer de 12 milliards de paramètres sur 10 000 milliards de tokens, ce que NVIDIA décrit comme la durée d'entraînement la plus longue jamais documentée publiquement en précision 4 bits. Les résultats sont frappants par leur proximité avec la référence FP8 : le modèle NVFP4 atteint 62,58 % sur le benchmark MMLU-Pro en configuration 5-shot, contre 62,62 % pour son équivalent FP8, soit un écart de seulement 0,04 point de pourcentage. Sur le plan matériel, les calculs matriciels en FP4 atteignent un débit 4 fois supérieur au BF16 sur le GB200 et 6 fois sur le GB300, ce qui se traduit par des gains de vitesse réels d'environ 2x et 3x par rapport au FP8, avec une empreinte mémoire réduite de moitié. Ce résultat ouvre une perspective concrète pour l'industrie : entraîner des modèles de la taille de 12 milliards de paramètres, et potentiellement bien plus grands, à un coût de calcul significativement inférieur, sans sacrifier la qualité mesurable. Pour les laboratoires et les entreprises qui dépensent des dizaines ou des centaines de millions de dollars en clusters GPU, réduire la consommation mémoire de moitié et doubler voire tripler le débit effectif représente des économies substantielles sur l'ensemble du cycle d'entraînement. La prise en charge est intégrée directement dans le Transformer Engine de NVIDIA, ce qui signifie que l'adoption ne nécessite pas de réingénierie complète des pipelines existants. Le passage de FP8 à FP4 pour l'entraînement, et non seulement pour l'inférence, est un problème ouvert depuis plusieurs années. Les formats 4 bits compriment la plage dynamique de représentation et amplifient les erreurs de quantification sur de longues séquences de tokens, rendant les entraînements instables. NVFP4 répond à ces problèmes par trois innovations structurelles par rapport au standard MXFP4 : une taille de bloc réduite de 32 à 16 éléments, des facteurs d'échelle par bloc stockés en E4M3 plutôt qu'en UE8M0 (gagnant en précision de mantisse), et un second niveau d'échelle par tenseur en FP32. La méthodologie d'entraînement repose ensuite sur quatre composantes complémentaires : le maintien en BF16 des couches linéaires dans les deux premiers et les huit derniers blocs du réseau (soit environ 16 % des couches au total), l'application de transformées de Hadamard aléatoires sur les gradients de poids pour lisser les valeurs aberrantes, un ajustement adaptatif des facteurs d'échelle, et une technique de delayed scaling similaire à celle déjà utilisée en FP8. Les expériences d'ablation montrent que chacun de ces éléments est indispensable à la convergence stable sur 10 000 milliards de tokens.

UELes laboratoires et entreprises européens investissant dans l'entraînement de grands modèles pourraient réduire significativement leurs coûts de calcul si cette méthode est adoptée sur du matériel Blackwell, mais sans impact réglementaire direct sur la France ou l'UE.

💬 Ça fait des années qu'on cherche à entraîner en FP4 sans que ça parte en vrille au bout de quelques milliards de tokens, et là NVIDIA montre que c'est faisable avec 0,04 point d'écart sur MMLU-Pro. Réduire la mémoire de moitié et doubler le débit réel, c'est pas du flan, c'est des économies qui changent l'équation pour ceux qui entraînent à grande échelle. Bon, faut du GB200 ou GB300, donc si tu n'as pas Blackwell, c'est pas pour toi tout de suite.

InfrastructurePaper
1 source
71 % des Américains sont opposés aux datacenters IA, 53 % aux centrales nucléaires
147Next INpact 

71 % des Américains sont opposés aux datacenters IA, 53 % aux centrales nucléaires

Sept Américains sur dix s'opposent à la construction d'un centre de données dédié à l'intelligence artificielle dans leur région, selon un sondage Gallup publié en 2025. Plus précisément, 71 % des personnes interrogées se déclarent défavorables à ces projets, dont 48 % qui s'y disent « fermement opposés ». À peine un quart des répondants y sont favorables, et seulement 7 % se montrent « très favorables ». Pour mesurer ce rejet, Gallup a utilisé la même formulation que celle employée depuis des décennies pour interroger les Américains sur le nucléaire : « Seriez-vous favorable ou opposé à la construction d'un centre de données dans votre région pour soutenir la technologie de l'intelligence artificielle ? » C'est la première fois que l'institut posait cette question sur les datacenters. En parallèle, 46 % des sondés se déclarent très inquiets de l'impact environnemental de ces infrastructures, et 24 % assez inquiets, des chiffres qui recoupent étroitement le niveau d'opposition générale. Ce résultat est d'autant plus frappant qu'il dépasse largement le rejet historique du nucléaire. En 2001, 63 % des Américains s'opposaient à la construction d'une centrale nucléaire près de chez eux ; aujourd'hui, ce chiffre est tombé à 53 %, soit 18 points de moins que le rejet des datacenters IA. Le nucléaire, longtemps perçu comme l'infrastructure la plus indésirable dans un voisinage résidentiel, est donc aujourd'hui mieux accepté que les centres de données consacrés à l'IA. Pour les entreprises technologiques qui planifient des déploiements massifs d'infrastructures aux États-Unis, Microsoft, Google, Amazon, Meta notamment, ce rejet populaire représente un obstacle politique et réglementaire concret, susceptible de ralentir ou de bloquer des projets d'expansion locale. Ce sondage s'inscrit dans un contexte de croissance explosive de la demande en datacenters, portée par le développement des grands modèles de langage et des services d'IA générative. Cette expansion a des conséquences directes sur la consommation d'eau, d'électricité et d'espace foncier, alimentant les inquiétudes des riverains et des élus locaux. La moitié des opposants citent la consommation excessive de ressources comme principal motif de rejet. Aux États-Unis, plusieurs projets ont déjà suscité des résistances locales, notamment dans des États comme la Virginie ou l'Iowa, où la concentration de ces infrastructures est déjà forte. À mesure que les besoins en calcul de l'IA continuent d'augmenter, la question de l'acceptabilité sociale des datacenters devrait s'imposer comme un enjeu politique majeur, au même titre que celui des grandes infrastructures énergétiques des décennies précédentes.

UECette tendance de rejet populaire des datacenters IA pourrait se reproduire en Europe, où les enjeux de consommation d'eau et d'énergie alimentent déjà des débats citoyens similaires autour des projets d'infrastructure numérique.

💬 Plus rejeté que le nucléaire, c'est le score des datacenters IA aux États-Unis. Et c'est pas une surprise : tu construis un truc qui boit des millions de litres d'eau et fait grimper la facture électrique de tout le quartier, forcément les gens apprécient moyen. Le vrai problème pour Microsoft, Google et les autres, c'est que ça va se transformer en levier politique local, et ça c'est beaucoup plus dur à gérer qu'un communiqué de presse sur la durabilité.

InfrastructureActu
1 source
Cerebras : une IPO à 60 milliards de dollars, lente puis soudaine
148Latent Space 

Cerebras : une IPO à 60 milliards de dollars, lente puis soudaine

Cerebras Systems a fait son entrée en bourse cette semaine avec une valorisation spectaculaire de 60 milliards de dollars, clôturant à 280 dollars par action. L'introduction s'est concrétisée après un premier dossier S-1 retiré, puis un partenariat à 750 mégawatts et un accord estimé entre 10 et 20 milliards de dollars avec OpenAI. Lors des communications accompagnant l'IPO, le directeur financier Bob Komin a tenu à corriger la perception d'un positionnement limité aux petits modèles : Cerebras sert aujourd'hui des architectures de toutes tailles, y compris des modèles à un billion de paramètres, et traite en production des modèles internes d'OpenAI, notamment les versions 5.4 et 5.5. L'investisseur Ishan N. Taneja, qui avouait avoir douté des premières annonces de l'entreprise, a publiquement concédé que ses sceptiques avaient eu raison dès le départ, saluant la persévérance de l'équipe et la qualité du silicium développé. Cette introduction en bourse constitue une validation majeure pour le marché des puces d'inférence spécialisées, longtemps perçu comme trop risqué face à la domination de Nvidia. Le fait que Cerebras traite des charges de calcul aussi critiques que les modèles internes d'OpenAI confirme que son architecture, fondée sur une puce unique de la taille d'une tranche entière de wafer, est désormais compétitive sur les workloads les plus exigeants. Le chercheur Apoorv Vyas relie explicitement l'IPO à une discussion de Stanford sur la rareté du calcul, la demande d'inférence en hausse et le routage de modèles, soulignant que l'événement est interprété dans les cercles techniques comme un signal structurant pour l'ensemble du cycle d'infrastructure IA, et non comme un simple fait de marché. Ce succès survient dans un contexte de recomposition rapide du secteur du matériel pour l'IA. Six mois plus tôt, Nvidia avait racheté Groq pour 20 milliards de dollars, un autre spécialiste de l'inférence rapide, consolidant sa position tout en signalant que ce segment attire désormais des capitaux massifs. Cerebras avait opté pour une architecture radicalement différente des GPU de Nvidia ou AMD : une puce monolithique de très grande taille, conçue spécifiquement pour les modèles de langage, plutôt que des GPU généralistes adaptés a posteriori. Ce pari industriel, considéré pendant des années comme excentrique, trouve aujourd'hui une validation boursière qui devrait encourager de nouveaux investissements dans des architectures alternatives. La suite probable est une intensification de la concurrence sur l'inférence à grande échelle et une pression croissante sur Nvidia pour défendre ses marges dans ce segment en pleine expansion.

UEL'essor des architectures de puces spécialisées pour l'inférence IA pourrait, à terme, diversifier les options d'approvisionnement matériel pour les acteurs et institutions européens du secteur.

💬 Quand Cerebras a sorti sa puce wafer-scale, beaucoup ont dit que c'était une blague industrielle. Maintenant ils font tourner les modèles internes d'OpenAI en prod, 5.4 et 5.5, et ils entrent en bourse à 60 milliards. Le marché vient de décider que l'architecture alternative à Nvidia, c'est pas un luxe, c'est une nécessité.

InfrastructureOpinion
1 source
L'action Cerebras double presque le premier jour, valorisant le fabricant de puces IA à 100 milliards de dollars
149VentureBeat AI 

L'action Cerebras double presque le premier jour, valorisant le fabricant de puces IA à 100 milliards de dollars

Cerebras Systems, le fabricant de puces basé dans la Silicon Valley, a fait une entrée fracassante au Nasdaq le 14 mai 2026 : l'action a ouvert à 350 dollars, soit presque le double du prix d'introduction fixé à 185 dollars, propulsant la capitalisation boursière de la société au-delà des 100 milliards de dollars dès les premières heures de cotation. L'entreprise a levé 5,55 milliards de dollars en vendant 30 millions d'actions, ce qui en fait la plus grande introduction en bourse technologique américaine depuis Uber en 2019. La demande des investisseurs a littéralement submergé les attentes initiales : Cerebras avait d'abord fixé une fourchette cible de 115 à 125 dollars, l'avait relevée à 150-160 dollars face à l'engouement, avant de fixer le prix final encore au-dessus de cette bande révisée. La société, dont le chiffre d'affaires a progressé de 76 % pour atteindre 510 millions de dollars en 2025, a annoncé son intention d'investir ces nouveaux capitaux dans l'expansion de son infrastructure cloud d'inférence. Ce succès boursier repose sur une architecture radicalement différente de celle de Nvidia. Le Wafer-Scale Engine WSE-3 de Cerebras est un processeur unique qui occupe un wafer de silicium entier, le disque de la taille d'une assiette à partir duquel sont normalement découpées des dizaines de puces classiques. Avec 4 000 milliards de transistors, 900 000 cœurs de calcul et 44 gigaoctets de mémoire embarquée, il est 58 fois plus grand que le B200 de Nvidia et offre 2 625 fois plus de bande passante mémoire. Cet avantage est décisif pour l'inférence d'IA, le processus qui consiste à faire tourner un modèle entraîné pour générer des réponses : chaque token produit nécessite de déplacer l'intégralité des poids du modèle entre mémoire et calcul, une opération strictement séquentielle où la bande passante est le facteur limitant. Cerebras revendique des vitesses d'inférence jusqu'à 15 fois supérieures aux solutions GPU concurrentes sur modèles open source, un chiffre confirmé par le cabinet d'analyse indépendant Artificial Analysis. Le parcours de Cerebras jusqu'à cette cotation a été tout sauf linéaire. Fondée en 2015 sur le pari que les charges de travail de l'IA seraient fondamentalement contraintes par les communications entre mémoire et calcul, la société a passé des années à résoudre un problème que l'industrie des semi-conducteurs avait tenté et abandonné à plusieurs reprises sur 75 ans d'histoire. Cerebras avait une première fois déposé son dossier d'introduction en bourse en septembre 2024, avant de se retirer face aux questions des régulateurs sur sa dépendance quasi totale à un seul client aux Émirats arabes unis. Le redépôt d'avril 2026 présentait un profil radicalement différent : des partenariats avec OpenAI et Amazon Web Services, un service d'inférence cloud en forte croissance, et une base de revenus diversifiée. La capitalisation atteinte dès le premier jour place désormais Cerebras parmi les fabricants de semi-conducteurs les plus valorisés au monde, dans un secteur où Nvidia règne encore en maître incontesté.

💬 100 milliards le premier jour, le marché n'attendait visiblement que ça. Ce qui m'intéresse plus que le chiffre boursier, c'est que leur pari de 2015 (l'inférence est bornée par la bande passante mémoire, pas par le compute) était juste, là où l'industrie avait abandonné ce problème depuis 75 ans. Les 15x sur l'inférence sont validés par des labos indépendants, c'est pas du marketing.

InfrastructureActu
1 source
Dix entreprises chinoises dont ByteDance auraient obtenu un accord américain pour des puces IA qui leur sont interdites
150The Decoder 

Dix entreprises chinoises dont ByteDance auraient obtenu un accord américain pour des puces IA qui leur sont interdites

Une dizaine d'entreprises chinoises, dont Alibaba, Tencent et ByteDance, ont reçu l'autorisation du gouvernement américain d'acquérir jusqu'à 75 000 puces Nvidia H200 chacune. Ces autorisations, révélées par le secrétaire au Commerce Howard Lutnick, représentent un assouplissement notable des restrictions américaines sur les exportations de semi-conducteurs avancés vers la Chine. Pourtant, pas une seule puce n'a encore été livrée. La raison de ce blocage ne vient pas de Washington, mais de Pékin. Selon Lutnick, c'est le gouvernement chinois lui-même qui empêche ces achats, dans le but de protéger son industrie nationale de semi-conducteurs. Cette situation crée un paradoxe inédit : des entreprises chinoises de premier plan se voient refuser par leur propre gouvernement l'accès à des composants que les États-Unis ont accepté de leur vendre. Pour ces géants technologiques, l'impossibilité d'acquérir du matériel de pointe freine directement le développement de leurs modèles d'IA. Cet épisode s'inscrit dans une guerre technologique plus large entre les deux premières puissances mondiales. Depuis 2022, Washington a progressivement renforcé ses contrôles à l'exportation de puces avancées vers la Chine, poussant Pékin à accélérer ses investissements dans des acteurs comme Huawei et SMIC pour atteindre l'autonomie technologique. En bloquant ces achats, la Chine envoie un signal fort : elle préfère consolider sa filière domestique plutôt que de rester dépendante de fournisseurs américains, même lorsque la porte est temporairement ouverte.

UECe bras de fer sino-américain renforce la prise de conscience européenne sur la nécessité d'une souveraineté dans les semi-conducteurs avancés, thème central de l'European Chips Act, sans impact opérationnel direct immédiat sur les entreprises ou institutions françaises.

InfrastructureOpinion
1 source