Aller au contenu principal

Dossier Google Cloud — page 2

139 articles · page 2 sur 3

Suivi de l'actualité IA de Google Cloud : Vertex AI, modèles Gemini, infrastructure, annonces et déploiements pour les entreprises.

Weis Markets adopte les chariots intelligents d'Instacart dans ses magasins
51AI News OutilsOutil

Weis Markets adopte les chariots intelligents d'Instacart dans ses magasins

Weis Markets, chaîne de supermarchés basée en Pennsylvanie avec 199 magasins, déploie les chariots intelligents Caper Carts d'Instacart dans plusieurs de ses points de vente. Ces chariots embarquent des caméras orientées vers le panier, des balances certifiées, des systèmes de géolocalisation et un écran tactile. Leur logiciel repose sur de l'IA entraînée sur plus de 1,6 milliard de commandes en ligne, combinée à du calcul embarqué sur l'appareil. Les clients peuvent suivre leurs dépenses en temps réel, accéder à des coupons géolocalisés, se connecter à leur compte Weis Rewards pour cumuler des avantages fidélité, et consulter une fonction "Buy It Again" qui affiche leurs achats habituels. Greg Zeh, directeur des systèmes d'information de Weis, présente ces chariots comme un moyen de fluidifier l'expérience en rayon tout en connectant les données du magasin physique à celles de la vente en ligne. Ce déploiement illustre l'accélération d'Instacart sur le segment des magasins connectés, après une période centrée sur la livraison à domicile. Les Caper Carts sont désormais présents dans plus de 100 villes, répartis dans 15 États américains, chez une douzaine d'enseignes dont Kroger, Schnucks et les bannières Wakefern comme ShopRite et Fairway Market. Des données opérationnelles commencent à émerger : chez Schnucks, un magasin équipé de seulement 10 chariots intelligents pour 160 classiques a vu ces derniers traiter plus de 10 % des ventes lors des journées chargées, selon Retail Dive. Pour les distributeurs, l'enjeu est double : améliorer l'expérience client tout en capturant des données comportementales en magasin jusqu'ici inaccessibles. Weis ne mise pas uniquement sur les chariots : en décembre 2025, la chaîne a finalisé le déploiement du système ELERA Security Suite de Toshiba sur les caisses libre-service de l'ensemble de ses 199 magasins, avec reconnaissance des fruits et légumes et outils anti-démarque inconnue basés sur l'IA embarquée. Plus de 94 % des clients ont utilisé la fonction de reconnaissance des produits. En parallèle, Albertsons, qui exploite plus de 2 000 magasins sous les enseignes Safeway, Jewel-Osco et ACME, a développé en interne un outil de contrôle qualité par vision artificielle pour détecter les fruits abîmés ou moisis avant leur mise en rayon, en commençant par les fraises et les raisins. Ce système, construit sur la plateforme Google Cloud Gemini Enterprise avec Vision AI, vise à standardiser les inspections dans les centres de distribution. La grande distribution américaine engage ainsi une transformation profonde de ses opérations, en intégrant l'IA à chaque étape de la chaîne, du centre logistique jusqu'au chariot du client.

1 source
Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP
52AWS ML Blog 

Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP

Amazon a annoncé cette semaine une extension significative des capacités d'AgentCore Gateway, son service de passerelle centralisée pour le protocole MCP (Model Context Protocol) au sein d'Amazon Bedrock. Les nouvelles fonctionnalités couvrent notamment la prise en charge étendue des schémas d'outils MCP, l'intégration des primitives MCP prompts et ressources, la découverte dynamique de serveurs MCP à l'exécution, la gestion de sessions pour les interactions temps réel, un mécanisme d'élicitation permettant des demandes d'entrée en cours d'exécution, et un échange de jetons OAuth 2.0 pour l'authentification déléguée. Ces ajouts s'appliquent à un service qui sert déjà de point d'entrée unique entre les serveurs MCP d'une organisation et les clients qui les consomment, en centralisant la gestion des identifiants, l'observabilité et la connectivité sécurisée. L'enjeu est directement opérationnel pour les équipes engineering en entreprise. Sans passerelle centralisée, chaque serveur MCP déployé, qu'il gère les contrats pour l'équipe juridique, les données financières ou les incidents opérationnels, doit gérer indépendamment ses propres mécanismes d'authentification, de contrôle d'accès et de journalisation. Cela multiplie les délais d'approbation, fragmente la visibilité sur l'usage des outils et oblige les équipes sécurité à auditer chaque serveur séparément. AgentCore Gateway réduit ce fardeau en laissant chaque équipe se concentrer sur la logique métier de son serveur MCP, tandis que la passerelle prend en charge tout le reste : agrégation des capacités, politiques d'accès basées sur les ressources, isolation réseau via AWS PrivateLink, logs d'audit centralisés, et guardrails déterministes via AgentCore Policy. MCP, le protocole lancé par Anthropic fin 2024 pour standardiser la façon dont les agents IA interagissent avec des outils et services externes, a rapidement été adopté par les grands acteurs du cloud, dont AWS, Microsoft et Google. Amazon intègre AgentCore Gateway dans son écosystème Bedrock, qui concurrence directement Azure AI et Google Cloud Vertex AI dans la course aux infrastructures d'agents IA en entreprise. La montée en puissance des architectures multi-agents, où plusieurs modèles coopèrent en orchestrant des dizaines d'outils, rend ce type de couche de gouvernance centrale de plus en plus stratégique. Les prochaines étapes probables incluent une intégration plus poussée avec les outils d'identité AWS IAM et une extension du support aux agents tiers via les flux OAuth 2.0 maintenant disponibles dans la passerelle.

InfrastructureOpinion
1 source
72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave
53Le Big Data 

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave

Dell a livré à CoreWeave le premier système NVIDIA Vera Rubin NVL72 opérationnel, un rack unique intégrant 72 GPU Rubin et 36 processeurs Vera personnalisés. Cette machine atteint une puissance de calcul de 3,6 exaFLOPS, soit une capacité suffisante pour entraîner et faire tourner des modèles d'intelligence artificielle comptant des milliers de milliards de paramètres. Le système adopte un refroidissement liquide intégral, désormais indispensable pour absorber la chaleur et la consommation énergétique générées par une telle densité de composants. CoreWeave, spécialiste américain du cloud GPU qui alimente déjà de nombreux acteurs de l'IA générative, devient ainsi l'un des premiers opérateurs au monde à déployer cette génération d'infrastructure dans un environnement de production réel. Ce déploiement illustre une tendance de fond qui redessine l'économie du calcul pour l'IA : la densification. Regrouper 72 GPU dans un seul rack ne relève pas de l'exploit pour la galerie, mais répond à une contrainte très concrète. Plus les modèles grossissent, plus les échanges de données entre composants deviennent un goulot d'étranglement. En rapprochant physiquement les GPU, on réduit les latences de communication et on améliore le débit global du système, ce qui se traduit directement par des temps d'inférence plus courts et une capacité d'entraînement plus élevée. Pour les opérateurs cloud qui facturent leurs clients à l'heure de GPU, cette efficacité accrue est un avantage compétitif direct. Pour les laboratoires qui entraînent les prochaines générations de modèles, c'est la condition nécessaire pour rester dans la course. Cette livraison s'inscrit dans un cycle d'escalade technologique qui s'accélère depuis le lancement de ChatGPT fin 2022. NVIDIA enchaîne les générations de puces à un rythme inédit : après les H100, les H200 et les Blackwell, la famille Vera Rubin représente la prochaine marche. Dell, longtemps perçu comme un constructeur de serveurs classiques, a clairement choisi de se repositionner comme intégrateur de référence pour les infrastructures d'IA à très grande échelle. CoreWeave, de son côté, a levé plusieurs milliards de dollars ces dernières années pour construire une alternative aux clouds hyperscalers comme AWS ou Google Cloud, spécifiquement taillée pour les charges de travail GPU intensives. La combinaison des deux acteurs sur ce premier déploiement Vera Rubin n'est pas anodine : elle signale que l'infrastructure d'IA de prochaine génération est prête à sortir des laboratoires pour entrer dans les centres de données commerciaux. À ce rythme, les 72 GPU d'aujourd'hui pourraient paraître modestes dès 2027.

UELa disponibilité commerciale de cette infrastructure GPU de prochaine génération conditionnera indirectement la compétitivité des acteurs européens de l'IA dans la course à l'entraînement de très grands modèles.

InfrastructureOpinion
1 source
Pourquoi les ingénieurs déployés chez les clients font fureur
54The Information AI 

Pourquoi les ingénieurs déployés chez les clients font fureur

Les ingénieurs de déploiement terrain, désignés sous l'acronyme FDE pour « forward-deployed engineers », s'imposent comme l'un des profils les plus recherchés de l'industrie technologique. Meta a récemment créé une nouvelle organisation intégrant des FDE avec pour mission de convaincre davantage d'annonceurs d'adopter ses outils d'intelligence artificielle. Dans la foulée, Google Cloud a annoncé son intention de recruter plusieurs centaines de ces profils pour accompagner ses clients dans l'utilisation des outils Gemini AI. Ces ingénieurs occupent une position charnière entre le développement produit et le terrain : là où les chercheurs en IA conçoivent les modèles, les FDE s'assurent que ces technologies sont réellement intégrées et exploitées par les entreprises clientes. Leur valeur réside dans leur capacité à transformer un outil puissant mais abstrait en solution concrète et opérationnelle, ce qui accélère directement le retour sur investissement pour les entreprises adoptant l'IA. Le terme lui-même est emprunté au vocabulaire militaire et a été popularisé dans le monde du logiciel d'entreprise par Palantir il y a plus d'une décennie. Face à la généralisation de l'IA générative, le modèle s'est diffusé à l'ensemble du secteur tech : les éditeurs ne se contentent plus de vendre des licences, ils déploient des équipes humaines pour garantir l'adoption effective de leurs plateformes. Cette tendance reflète une réalité bien connue, les technologies les plus avancées échouent souvent non pas par manque de puissance, mais par manque d'accompagnement.

💬 C'est le modèle Palantir qui gagne, 10 ans après. L'IA ne s'adopte pas seule, et Meta et Google viennent de l'admettre en recrutant des centaines de FDE. Le vrai problème n'a jamais été la puissance des modèles, c'est le fossé entre la démo et ce qui tourne chez le client.

BusinessOpinion
1 source
À peine le contrat signé, Elon Musk compte déjà virer Anthropic du data center de SpaceX
55Le Big Data 

À peine le contrat signé, Elon Musk compte déjà virer Anthropic du data center de SpaceX

Quelques semaines après l'annonce d'un accord entre Anthropic et Colossus, le data center de SpaceX et xAI situé à Memphis, Elon Musk a précisé publiquement que le contrat ne couvrait que 180 jours de location, résiliable avec un préavis de 90 jours. Cette clarification contraste nettement avec le formulaire S-1 déposé par SpaceX auprès de la Securities and Exchange Commission (SEC), qui décrit un engagement financier considérable : Anthropic devrait verser jusqu'à 1,25 milliard de dollars par mois jusqu'en mai 2029. Le document officiel mentionnait même une montée progressive des capacités prévue en mai et juin 2026, à tarif réduit. C'est donc Musk lui-même qui a précisé que la durée limitée était une exigence de SpaceX, et non d'Anthropic. Cet écart entre le contenu du document réglementaire et la communication de Musk soulève des questions sur les intentions réelles derrière cet accord. Si les termes du S-1 donnaient l'image d'un partenariat structuré sur plusieurs années, les déclarations publiques du patron de SpaceX suggèrent une logique bien différente : une démonstration de la valeur commerciale de Colossus auprès des investisseurs, plutôt qu'une alliance durable avec le créateur de Claude. Musk a également précisé que SpaceX proposerait une solution alternative à Anthropic en cas de résiliation, mais que l'entreprise pourrait récupérer les ressources si la capacité venait à manquer, laissant entendre que ses propres besoins auraient la priorité. L'accord s'inscrit dans un contexte de concurrence frontale entre xAI, la division IA de Musk, et Anthropic, deux acteurs qui se disputent à la fois les investisseurs, les talents et les marchés enterprise. Colossus est présenté comme l'un des clusters de GPU les plus puissants au monde, et sa capacité à générer des revenus locatifs stables représente un argument de poids pour la valorisation de SpaceX. Certains analystes voient dans ce contrat à durée limitée une stratégie délibérée : en gardant la main sur la résiliation à court terme, Musk préserve la possibilité de consacrer toute cette puissance de calcul à ses propres projets IA, notamment si xAI venait à accélérer le développement de Grok ou d'applications industrielles. La question de savoir si Anthropic cherchera à prolonger l'accord, ou s'orientera vers d'autres infrastructures comme AWS ou Google Cloud, reste entière.

💬 1,25 milliard par mois dans le S-1, 90 jours de préavis dans les faits, c'est pas un partenariat, c'est une location Airbnb. Musk a besoin que Colossus paraisse rentable pour valoriser SpaceX auprès des investisseurs, et un client du calibre d'Anthropic sur le papier, ça en jette. Reste qu'Anthropic loue sa puissance de calcul chez son concurrent direct, avec une clause expulsion à portée de tweet.

RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA
56Le Big Data 

RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA

La Retrieval-Augmented Generation, ou RAG, est une architecture technique qui associe un modèle de langage à une base documentaire externe, permettant à l'intelligence artificielle de consulter des informations précises avant de formuler une réponse. Concrètement, le processus se déroule en trois temps : les documents de l'entreprise sont d'abord découpés en fragments, puis convertis en représentations mathématiques appelées embeddings, qui transforment le sens d'une phrase en coordonnées numériques. Lorsqu'un utilisateur pose une question, sa requête est elle aussi encodée de cette façon, puis comparée aux vecteurs stockés pour identifier les passages les plus pertinents. Ces extraits sont ensuite injectés dans le prompt envoyé au modèle, qui rédige sa réponse à partir d'un contexte documenté et vérifiable. Contrairement à une recherche par mots-clés classique, le système reconnaît deux phrases sémantiquement proches même si elles n'ont pas de termes en commun. L'intérêt pour les entreprises est considérable. Les modèles de langage traditionnels fonctionnent uniquement à partir de leur corpus d'entraînement : toute information absente ou modifiée depuis génère inévitablement des erreurs, ce que les praticiens appellent les "hallucinations". Le RAG court-circuite ce problème en dotant l'IA d'une mémoire externe dynamique, mise à jour en temps réel. Un service client peut ainsi déployer un assistant conversationnel capable de consulter les procédures internes à jour avant chaque réponse, sans que les données quittent le périmètre de l'organisation. Pour des secteurs manipulant des documents sensibles, comme le juridique, la conformité ou l'ingénierie, cette architecture représente la différence entre un outil expérimental et un outil déployable en production. Le RAG s'est imposé comme l'une des réponses les plus pragmatiques aux limites structurelles des LLM depuis que ces modèles ont commencé à être déployés en entreprise à grande échelle. Les géants du cloud, d'AWS à Microsoft Azure en passant par Google Cloud, proposent désormais des services RAG managés, tandis qu'une constellation de startups comme Pinecone, Weaviate ou Qdrant se sont spécialisées dans les bases vectorielles qui en constituent le socle technique. La question qui reste ouverte est celle de la mise à l'échelle : indexer des dizaines de milliers de documents internes, maintenir la cohérence des embeddings lors des mises à jour, et gérer la latence de récupération sont des défis d'ingénierie non triviaux. Les prochaines évolutions du RAG s'orientent vers des architectures hybrides combinant recherche vectorielle et recherche structurée, ainsi que vers des systèmes capables de raisonner sur plusieurs documents simultanément plutôt que de simplement les concaténer.

LLMsTuto
1 source
Apple relance son offensive pour une IA locale, sans passer par le cloud
57The Information AI 

Apple relance son offensive pour une IA locale, sans passer par le cloud

Lors de sa conférence annuelle des développeurs (WWDC), prévue le mois prochain, Apple devrait mettre en avant une série de mises à jour d'intelligence artificielle très attendues pour l'iPhone, tout en insistant sur une capacité souvent sous-estimée : celle de faire tourner des modèles d'IA directement sur ses appareils, sans passer par le cloud. Selon des personnes proches des plans de l'entreprise, Apple entend démontrer comment ses 15 ans d'expérience dans la conception de puces personnalisées pour l'iPhone, l'Apple Watch et les Mac lui confèrent un avantage concret pour exécuter des modèles d'IA localement. Cette approche contraste avec la norme du secteur, où la plupart des traitements IA s'effectuent dans des datacenters remplis de puces coûteuses. Certaines requêtes resteront néanmoins traitées dans le cloud, notamment celles qui nécessitent une complexité élevée ou un accès à de vastes bases de données en ligne : dans le cadre d'un accord avec Google, une nouvelle version de Siri fera tourner certaines requêtes sur Google Cloud, via une version sous licence du modèle Gemini. Apple a par ailleurs récemment approuvé une technologie de confidentialité développée par Nvidia pour cet environnement, ce qui suggère que l'entreprise utilisera également des puces Nvidia pour une partie de ses besoins de calcul dans Google Cloud. L'enjeu de l'IA embarquée est considérable : exécuter des modèles localement réduit la latence, améliore la confidentialité des données et diminue la dépendance à des infrastructures cloud onéreuses. Avec des milliards d'appareils Apple en circulation, la capacité à distribuer des traitements IA à cette échelle représente un levier différenciant face à des concurrents comme Google, Microsoft ou OpenAI, dont les offres reposent quasi exclusivement sur des serveurs distants. Apple accuse un retard significatif sur ses rivaux dans la course à l'IA générative. La WWDC du mois prochain sera donc un moment clé pour démontrer que la maîtrise du matériel, via ses puces Apple Silicon, peut constituer une réponse crédible à ce retard. La coexistence d'une stratégie on-device et d'un recours au cloud via des partenaires comme Google et Nvidia illustre la complexité de la position d'Apple : rattraper rapidement les leaders du secteur tout en préservant les promesses de confidentialité qui sont au coeur de son identité de marque.

UEL'approche on-device d'Apple réduit les transferts de données vers des serveurs distants, ce qui s'aligne naturellement avec les exigences du RGPD et pourrait renforcer la conformité des milliards d'appareils Apple utilisés en Europe.

💬 L'argument confidentialité tient moins bien avec Siri qui sous-traite à Google Cloud, mais c'est à côté du sujet. Ce qui compte, c'est que quinze ans de puces custom donnent à Apple une base que Google ou Microsoft ne peuvent pas copier en six mois : faire tourner de l'IA sur des milliards d'appareils sans passer par un datacenter, c'est une infrastructure inversée que personne d'autre n'a. Reste à voir si les modèles sont à la hauteur.

InfrastructureOpinion
1 source
META découvre à son tour l’économie du compute
58FrenchWeb 

META découvre à son tour l’économie du compute

Meta Platforms envisage de commercialiser une partie de sa gigantesque infrastructure informatique, une rupture stratégique majeure pour l'entreprise fondée par Mark Zuckerberg. Depuis plus de quinze ans, le groupe utilisait ses data centers exclusivement en interne pour faire fonctionner Facebook, Instagram et WhatsApp, sans jamais vendre de capacités cloud à des tiers. L'explosion des besoins en intelligence artificielle change la donne : Meta disposerait désormais d'une surcapacité de compute suffisante pour envisager une offre commerciale externe. Ce pivot potentiel placerait Meta en concurrence directe avec Amazon Web Services, Microsoft Azure et Google Cloud, les trois géants qui dominent aujourd'hui le marché mondial du cloud, estimé à plusieurs centaines de milliards de dollars. Pour les entreprises qui développent des modèles d'IA, une quatrième alternative crédible serait une opportunité de diversification et de pression à la baisse sur les prix. Meta apporterait une infrastructure taillée pour les workloads IA les plus exigeants, notamment grâce à ses clusters de GPU massivement parallèles. Cette évolution s'inscrit dans une logique que l'histoire de la tech a déjà validée : AWS est né des excédents d'infrastructure d'Amazon, et est devenu sa division la plus rentable. Meta, qui investit des dizaines de milliards de dollars par an en capital expenditure, cherche à rentabiliser ces actifs autrement que par la seule publicité. La question reste de savoir si le groupe possède la culture commerciale B2B nécessaire pour rivaliser avec des acteurs qui ont dix à vingt ans d'avance sur ce marché.

UESi Meta lance une offre cloud commerciale, les entreprises et startups européennes disposeraient d'un quatrième fournisseur d'infrastructure IA majeur, renforçant leur capacité de négociation et potentiellement réduisant leurs coûts de compute.

💬 L'histoire AWS, Meta l'a visiblement relue attentivement. Quand tu as des clusters GPU calibrés pour entraîner des modèles à l'échelle de Facebook et Instagram, laisser ça tourner à vide serait absurde. Reste à voir si Zuckerberg a les équipes commerciales B2B pour vendre ça aux DSI, parce qu'entre avoir l'infra et savoir la packager pour des clients enterprise, il y a un vrai fossé de culture.

InfrastructureOpinion
1 source
Merck et Mastercard obtiennent des résultats concrets avec les agents IA : l'infrastructure d'abord
59VentureBeat AI 

Merck et Mastercard obtiennent des résultats concrets avec les agents IA : l'infrastructure d'abord

Merck accélère sa recherche médicamenteuse d'un tiers et produit ses supports marketing conformes 70 à 80 % plus vite grâce à des agents d'intelligence artificielle, selon Sean Finnerty, vice-président des plateformes digitales du groupe pharmaceutique américain, qui s'exprimait lors d'un récent événement AI Impact Series. Concrètement, les brouillons de campagnes marketing générés par l'IA sont conformes à la réglementation à 99 %, réduisant les cycles de révision de plusieurs mois à quelques jours. En recherche scientifique, un cycle de découverte médicamenteuse a été raccourci d'un tiers, soit environ un an gagné avant qu'un traitement n'atteigne les patients. Derrière ces résultats, une infrastructure imposante : 2 500 comptes AWS, de nombreux abonnements Microsoft Azure, des intégrations Google Cloud Platform, 47 sites périphériques et des centaines de bases de données stockant plusieurs pétaoctets de données structurées et non structurées, répartis entre Oracle, SQL, Excel, transcriptions téléphoniques et autres dépôts. Ces gains ne sont pas tombés du ciel. Finnerty insiste sur un principe qu'il nomme la stratégie "plomberie d'abord" : avant de déployer des agents, il faut bâtir l'infrastructure qui les rend fiables, sécurisés et interopérables. Sans cela, chaque projet isolé devient une dette technique. Pour Merck, l'enjeu est particulièrement fort dans le domaine réglementaire : une campagne vaccinale dans l'État de Géorgie répond à des règles différentes de celle lancée au Canada, et la moindre erreur peut avoir des conséquences légales. L'IA prend désormais en charge les premières ébauches, là où des équipes humaines effectuaient auparavant de longues boucles de validation, libérant du temps pour des tâches à plus forte valeur ajoutée. La leçon tirée par Merck s'appuie directement sur l'expérience du passage au cloud dans les années 2010, une période que Finnerty décrit comme chaotique, mais dont les entreprises qui ont correctement posé les bases ont finalement tiré le meilleur parti. Le groupe s'appuie aujourd'hui sur plusieurs solutions en parallèle, Databricks, Amazon Redshift et d'autres, car "il n'existe pas de solution unique pour résoudre chaque problème". L'objectif affiché est d'intégrer ces couches d'infrastructure aux protocoles émergents comme MCP (Model Context Protocol) et A2A (Agent2Agent), pour permettre aux agents de fonctionner de façon fluide quelle que soit la plateforme cloud sous-jacente. Avec des milliers d'agents à venir selon Finnerty, la question de leur enregistrement, de leur sécurisation et de leur accès aux bonnes données devient un enjeu stratégique autant que technique.

UELes entreprises pharmaceutiques et financières européennes, soumises à des réglementations strictes similaires, peuvent s'inspirer de cette approche 'infrastructure d'abord' pour sécuriser leurs déploiements d'agents IA à grande échelle.

InfrastructureOpinion
1 source
Microsoft et EY investissent 1 milliard de dollars pour accélérer l’industrialisation de l’IA
60Le Big Data 

Microsoft et EY investissent 1 milliard de dollars pour accélérer l’industrialisation de l’IA

Microsoft et EY ont annoncé le 21 mai 2026 un partenariat stratégique d'un milliard de dollars sur cinq ans pour accélérer le déploiement industriel de l'intelligence artificielle dans les grandes entreprises. L'initiative prévoit la constitution d'équipes mixtes, composées d'ingénieurs Microsoft et de consultants sectoriels EY, chargées d'accompagner les organisations dans l'intégration de l'IA au coeur de leurs opérations critiques. Les secteurs ciblés en priorité sont les services financiers, l'industrie, l'énergie, la santé, le secteur public, la distribution et les biens de consommation. EY a déjà généralisé Microsoft 365 E7 à plus de 400 000 collaborateurs dans le monde, après avoir déployé Copilot auprès de 150 000 employés avec un gain de productivité estimé à 15 %. Dans la finance, l'usage de Microsoft Power Platform et Copilot Studio aurait réduit certains délais opérationnels de 95 % et les coûts de plus de 37 %. EY a par ailleurs intégré un système multi-agents basé sur Azure, Microsoft Foundry et Microsoft Fabric dans sa plateforme d'audit EY Canvas, couvrant déjà 130 000 professionnels sur 160 000 missions. Ce partenariat répond à un blocage structurel que rencontrent aujourd'hui la plupart des grands groupes : passer des expérimentations isolées à un déploiement IA à l'échelle de l'entreprise. La majorité des organisations accumulent des pilotes sans parvenir à les industrialiser, faute de gouvernance adaptée, de formation des collaborateurs et de processus internes reconfigurés. En ciblant précisément les secteurs où l'automatisation et l'analyse de données produisent des impacts financiers rapides et mesurables, Microsoft et EY cherchent à répondre à l'exigence croissante de retour sur investissement concret que posent les directions générales avant tout nouvel engagement budgétaire dans l'IA. EY joue dans cette alliance la carte du "Client Zéro" : le cabinet teste les technologies Microsoft sur ses propres opérations avant de les proposer à ses clients, ce qui lui confère un avantage crédible dans un marché saturé de promesses non vérifiées. Ce positionnement intervient dans un contexte de compétition intense entre les grands cabinets de conseil et les éditeurs technologiques pour capter les budgets de transformation IA des entreprises du Fortune 500. Microsoft, de son côté, consolide son écosystème Azure et Copilot comme infrastructure de référence pour l'entreprise, face à la concurrence de Google Cloud et AWS. La suite dépendra de la capacité des deux groupes à démontrer des résultats reproductibles et auditables, condition sine qua non pour convaincre les directions financières d'accélérer leurs investissements au-delà des phases pilotes.

UELes grandes entreprises françaises et européennes des secteurs financier, énergétique, de la santé et du secteur public sont directement ciblées par ce programme d'industrialisation IA, susceptible d'accélérer les transformations numériques dans l'UE.

💬 Le problème qu'ils attaquent, l'industrialisation après les pilotes, c'est le vrai blocage de l'IA en entreprise depuis deux ans. EY qui joue le Client Zéro sur 400 000 collaborateurs, c'est l'argument le plus solide qu'un cabinet peut sortir face aux DG qui ont avalé trop de PowerPoints. Les 95% de réduction de délais affichés, bon, sur le papier ça claque, mais ça va être une autre histoire à reproduire sans EY dans la boucle.

BusinessOpinion
1 source
De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer
61Latent Space 

De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer

Trois entreprises spécialisées dans l'infrastructure pour l'intelligence artificielle ont atteint simultanément des jalons majeurs cette semaine, signalant une consolidation rapide du secteur. TurboPuffer, moteur de recherche vectorielle, annonce 100 millions de dollars de revenus récurrents annuels tout en étant rentable. Exa, moteur de recherche sémantique pour les agents IA, lève 250 millions de dollars dans un tour de Série C qui valorise l'entreprise à 2,2 milliards de dollars. Modal, plateforme cloud de calcul GPU à la demande, annonce quant à elle 355 millions de dollars levés à une valorisation de 4,7 milliards de dollars en Série C. Ces trois annonces tombent dans la même fenêtre de 48 heures, les 20 et 21 mai 2026. Ces chiffres illustrent une dynamique structurelle : l'explosion de la demande en infrastructure IA n'est plus portée uniquement par les grands hyperscalers comme AWS ou Google Cloud, mais de plus en plus par des acteurs spécialisés capables de répondre précisément aux besoins des développeurs d'agents et de pipelines LLM. Modal permet d'exécuter du code Python avec des GPU en quelques secondes sans gérer de serveurs ; Exa fournit une API de recherche conçue pour les LLM plutôt que pour les humains ; TurboPuffer offre une base de données vectorielle haute performance. Que les trois atteignent ces valorisations en même temps indique que le marché des outils pour construire des applications IA génère désormais des revenus réels et prévisibles, pas seulement des promesses. Ces succès s'inscrivent dans un contexte où l'ingénierie IA est devenue une discipline à part entière, distincte de la recherche fondamentale en machine learning. L'émergence d'une couche d'infrastructure spécialisée, entre les modèles de fondation des grands labs et les applications finales, crée un espace économique autonome. Latent Space, le podcast et newsletter qui suit ces entreprises depuis leurs débuts, note avoir interviewé les fondateurs des trois sociétés bien avant ces valorisations, soulignant à quel point la communauté des praticiens IA identifie tôt les acteurs structurants. La question désormais est de savoir si ces entreprises resteront indépendantes ou deviendront des cibles d'acquisition pour les grandes plateformes cloud, qui cherchent à intégrer verticalement la chaîne de valeur du développement IA.

UELes développeurs français et européens d'applications IA disposent désormais d'une couche d'infrastructure spécialisée (compute GPU à la demande, recherche vectorielle, recherche sémantique pour LLMs) comme alternative aux grands hyperscalers pour leurs pipelines d'agents.

💬 TurboPuffer rentable à 100M ARR, Modal à 4,7 milliards, Exa à 2,2, tout ça en 48h, c'est pas du hasard. J'attendais ce signal pour confirmer que la couche infra entre les grands modèles et les applis génère vraiment de l'argent, pas juste du cashburn déguisé en croissance. Si tu construis des trucs avec des LLMs, ces outils sont soit déjà dans ta stack, soit tu vas y venir.

InfrastructureOpinion
1 source
Anthropic pourrait dépenser 1,25 milliard $ par mois sur l’infrastructure xAI
62Le Big Data 

Anthropic pourrait dépenser 1,25 milliard $ par mois sur l’infrastructure xAI

Anthropic s'apprête à verser jusqu'à 1,25 milliard de dollars par mois à xAI, la société d'intelligence artificielle d'Elon Musk, pour accéder à sa puissance de calcul. L'accord, révélé dans un dépôt S-1 de SpaceX auprès de la SEC, porte sur l'achat de la totalité de la production du centre de données Colossus 1, situé près de Memphis, dans le Tennessee. Le contrat court jusqu'en mai 2029 et pourrait représenter jusqu'à 45 milliards de dollars de revenus cumulés pour xAI, les deux parties conservant toutefois une option de résiliation avec un préavis de 90 jours. L'accord fait suite à une première annonce, quelques semaines plus tôt, selon laquelle Anthropic avait sécurisé 300 mégawatts de capacité de calcul auprès de xAI, une décision déjà jugée surprenante par le marché. Pour Anthropic, l'accès garanti à des milliers de GPU sur plusieurs années répond à une contrainte structurelle : les modèles génératifs de nouvelle génération exigent des volumes de calcul massifs, aussi bien pour l'entraînement que pour l'inférence et les usages professionnels en temps réel. Alors que la demande des entreprises s'emballe plus vite que l'offre mondiale en puces avancées, verrouiller plusieurs années de capacité permet au créateur de Claude de réduire sa dépendance aux grands fournisseurs cloud traditionnels, Amazon Web Services, Microsoft Azure et Google Cloud. L'accord réduit également le risque de goulots d'étranglement à mesure qu'Anthropic étend ses déploiements dans les produits et workflows d'entreprises. Pour xAI, en revanche, ce contrat s'inscrit dans une stratégie de monétisation agressive de sa capacité excédentaire. Selon les documents de SpaceX, l'accord permet de rentabiliser des serveurs sous-utilisés, une situation qui coïncide avec un ralentissement rapporté de l'usage de Grok, l'assistant IA de xAI, ces derniers mois. Ce modèle positionne xAI dans la catégorie des "néoclouds" : des acteurs qui construisent d'abord une infrastructure pour leurs propres modèles, puis revendent la capacité disponible à d'autres entreprises du secteur, accélérant ainsi l'amortissement des coûts colossaux liés aux GPU Nvidia et aux centres de données énergivores. Paradoxalement, la transaction illustre aussi une évolution du marché : deux concurrents directs sur le segment des modèles génératifs coopèrent désormais sur l'infrastructure, signe que les investissements nécessaires à la course à l'IA dépassent ce que même les leaders du secteur peuvent absorber seuls.

InfrastructureOpinion
1 source
Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM
63AWS ML Blog 

Créez des applications vocales en temps réel avec Amazon SageMaker AI et vLLM

Depuis novembre 2025, Amazon SageMaker AI propose un mode de streaming bidirectionnel pour l'inférence en temps réel, permettant aux développeurs de faire circuler des données en continu dans les deux sens entre leurs applications et les conteneurs de modèles. Mistral AI en est l'un des premiers bénéficiaires concrets : le modèle Voxtral-Mini-4B-Realtime-2602, conçu spécifiquement pour la transcription vocale en temps réel, peut désormais être déployé sur un endpoint SageMaker via un conteneur vLLM. Le framework open source vLLM, de son côté, expose une API dite Realtime accessible via WebSocket à l'adresse /v1/realtime, qui traite l'audio de façon incrémentale et renvoie les tokens de transcription au fur et à mesure que le son arrive, sans attendre la fin de l'enregistrement. SageMaker gère la traduction de protocole entre HTTP/2 côté client et WebSocket côté conteneur sur le port 8443, de façon transparente et sans configuration supplémentaire. L'enjeu est direct pour toute une classe d'applications professionnelles qui se heurtaient jusqu'ici à la latence inhérente aux architectures requête-réponse classiques : agents vocaux, sous-titrage en direct, analytique de centres d'appels, outils d'accessibilité. Dans ces contextes, attendre que l'intégralité d'un enregistrement soit reçue avant de lancer la transcription brise l'expérience temps réel. La nouvelle architecture permet une connexion full-duplex persistante : l'audio entre en continu, la transcription sort en continu. vLLM applique par ailleurs une exécution par graphe CUDA en morceaux pour réduire la latence par token lors du streaming, tandis que SageMaker assure le monitoring via Amazon CloudWatch, les keepalives WebSocket et la résilience de connexion sans instrumentation personnalisée. Cette évolution s'inscrit dans une tendance plus large de convergence entre infrastructure cloud managée et serving open source haute performance. Amazon a progressivement enrichi SageMaker pour couvrir des cas d'usage au-delà de l'inférence batch classique, et le support du streaming bidirectionnel représente une réponse directe à la montée des LLM multimodaux et des applications temps réel. Mistral AI, avec sa gamme Voxtral, positionne ses modèles compacts sur le segment de la voix embarquée et managée, en concurrence avec des solutions propriétaires comme Whisper d'OpenAI ou les API de Google Cloud Speech. Le fait que vLLM soit open source garantit aux équipes une maîtrise totale sur la configuration, la quantisation et la compilation des modèles, sans dépendance à un fournisseur de serving. Un dépôt GitHub accompagne le tutoriel pour reproduire le déploiement complet.

UEMistral AI, entreprise française, voit ses modèles Voxtral intégrés nativement sur AWS SageMaker, renforçant la visibilité et l'adoption commerciale de ses solutions vocales sur le marché cloud mondial.

OutilsTuto
1 source
AWS s'associe à fal, startup IA générative pour la création de contenu média, et devient son fournisseur cloud privilégié
64VentureBeat AI 

AWS s'associe à fal, startup IA générative pour la création de contenu média, et devient son fournisseur cloud privilégié

fal, une startup californienne spécialisée dans la création de médias par intelligence artificielle générative, a annoncé avoir sélectionné Amazon Web Services (AWS) comme partenaire cloud privilégié. L'entreprise, valorisée à 4,5 milliards de dollars après une levée de fonds de 300 millions de dollars en Série D menée par Sequoia Capital, propose une plateforme unifiée donnant accès à plus de 1 000 modèles d'IA en production, des modèles propriétaires comme ChatGPT-Images-2.0 d'OpenAI ou Nano Banana Pro 2 de Google, jusqu'aux alternatives open source. Sa base d'utilisateurs dépasse les 2,5 millions de développeurs dans le monde, et ses clients entreprises incluent Canva, Adobe et Amazon MGM Studios. Les termes financiers de l'accord avec AWS n'ont pas été divulgués. Ce partenariat marque une étape importante dans la maturité du secteur de l'IA générative : l'enjeu n'est plus seulement de construire des modèles fondamentaux, mais de les déployer à grande échelle pour un usage commercial massif. fal joue un rôle comparable à celui de Stripe dans le paiement en ligne, abstraire toute la complexité d'infrastructure pour permettre aux développeurs de se concentrer uniquement sur l'expérience utilisateur. Grâce à AWS, la plateforme vise une disponibilité garantie à 99,99 %, avec la capacité d'absorber des millions d'appels API quotidiens. Pour les entreprises créatives et les équipes de développement, cela signifie un accès fiable et élastique à des capacités de génération d'images, vidéos, audio et contenu 3D, sans avoir à gérer soi-même des clusters GPU fragmentés. La montée en puissance de fal s'inscrit dans une transformation plus large de l'écosystème IA : à mesure que les modèles génératifs quittent le stade expérimental pour entrer en production, les infrastructures capables de tenir la charge deviennent un avantage concurrentiel déterminant. Avant ce partenariat, fal opérait sur plusieurs clouds simultanément, le fournisseur de stockage Tigris mentionnait une "flotte mondiale de GPU répartie sur de nombreux clouds", et la startup était également disponible sur le Google Cloud Marketplace depuis septembre 2025, sans que Google Cloud n'alimente pour autant son infrastructure GPU. En choisissant AWS comme couche de fiabilité et de distribution principale, fal se positionne pour capter la demande enterprise croissante en matière de génération de médias à l'échelle mondiale, dans un secteur où la course à l'infrastructure est désormais aussi stratégique que la course aux modèles.

UELes équipes techniques et créatives européennes bénéficient d'un accès simplifié à plus de 1 000 modèles de génération de médias à grande échelle, sans avoir à gérer elles-mêmes des clusters GPU fragmentés.

BusinessOpinion
1 source
Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker
65AWS ML Blog 

Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker

Amazon Web Services propose deux solutions complémentaires pour sécuriser de la capacité GPU à court terme : les EC2 Capacity Blocks for ML et les SageMaker training plans. Les Capacity Blocks permettent de réserver un nombre précis d'instances GPU pour une fenêtre temporelle définie, jusqu'à huit semaines à l'avance, avec des durées allant de 1 à 14 jours (par paliers d'un jour) ou de 15 à 182 jours (par paliers de sept jours). Chaque bloc peut couvrir jusqu'à 64 instances d'un même type, et une organisation peut cumuler jusqu'à 256 instances sur une même date en combinant plusieurs blocs au sein d'AWS Organizations. Contrairement aux réservations de capacité à la demande classiques (ODCR), ces Capacity Blocks sont entièrement en libre-service et affichent une décote de 40 à 50 % par rapport aux tarifs à la demande, tout en offrant une bien meilleure disponibilité pour les instances de type P, particulièrement recherchées. Ces solutions répondent à un besoin concret et pressant : la demande mondiale de GPU pour l'entraînement, le fine-tuning et l'inférence de modèles d'intelligence artificielle dépasse largement l'offre disponible. Pour les équipes qui ont besoin de GPU de manière ponctuelle, que ce soit pour des tests de charge, la validation de modèles, des ateliers techniques ou la préparation d'une mise en production, les options existantes présentent des limites sérieuses. Les instances à la demande ne garantissent pas la disponibilité au moment du lancement, et relâcher une instance peut signifier ne plus pouvoir la récupérer. Les instances Spot, bien que jusqu'à 90 % moins chères, peuvent être interrompues à tout moment par AWS. Les Capacity Blocks éliminent cette incertitude : la capacité est garantie pendant toute la durée réservée, ce qui permet de planifier des workloads critiques en temps contraint sans risque de pénurie de ressources. Cette pénurie de GPU n'est pas nouvelle : depuis l'explosion des usages d'IA générative à partir de 2023, les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure font face à une concurrence intense pour l'acquisition et la mise à disposition de puces Nvidia H100 et autres accélérateurs. AWS avait introduit les Capacity Blocks dès 2023 pour les instances P5, mais l'offre s'est depuis progressivement élargie. L'intégration avec les SageMaker training plans vise à couvrir également les usages managés, où AWS gère l'infrastructure sous-jacente. À terme, ces mécanismes de réservation structurée devraient devenir la norme pour toute organisation menant des expérimentations ML d'envergure, car ils permettent de concilier agilité opérationnelle et maîtrise des coûts sans recourir à des contrats pluriannuels.

UELes équipes françaises et européennes utilisant AWS pour leurs workloads ML peuvent sécuriser de la capacité GPU à court terme avec une décote de 40-50%, réduisant l'incertitude opérationnelle liée à la pénurie mondiale de GPU.

InfrastructureActu
1 source
Ruben BRYON, construire une alternative européenne au cloud américain
66FrenchWeb 

Ruben BRYON, construire une alternative européenne au cloud américain

Ruben Bryon a commencé à coder seul à l'âge de 12 ans, allant jusqu'à percer un mur dans le garage familial pour refroidir ses premiers serveurs. Quinze ans plus tard, il dirige Verda, une entreprise fondée sous le nom de DataCrunch, qui ambitionne de construire la première "Gigafactory" européenne de l'intelligence artificielle. Concrètement, il s'agit de déployer des centres de données massivement équipés en GPU, les puces indispensables à l'entraînement et à l'inférence des grands modèles d'IA, sur le sol européen, en dehors de la dépendance aux hyperscalers américains comme AWS, Azure ou Google Cloud. L'enjeu est considérable pour l'industrie technologique européenne. Les startups et laboratoires de recherche du continent paient aujourd'hui leurs coûts de calcul à des entreprises américaines, ce qui crée une dépendance structurelle tant sur le plan économique que réglementaire. Une infrastructure GPU souveraine permettrait aux acteurs européens de développer et déployer des modèles d'IA sans que leurs données transitent par des juridictions soumises au droit américain, un point particulièrement sensible depuis le Cloud Act de 2018. L'initiative de Bryon s'inscrit dans un mouvement plus large de souveraineté numérique européenne, porté aussi bien par des régulations comme le RGPD que par des initiatives industrielles telles que GAIA-X. Face à la concentration du marché du cloud d'IA entre les mains de quelques géants américains, des acteurs comme Verda cherchent à occuper le créneau de l'infrastructure de confiance en Europe, à mesure que la demande en puissance de calcul pour l'IA continue d'exploser.

UEVerda déploie des centres de données GPU sur sol européen pour permettre aux startups et laboratoires de recherche européens d'entraîner leurs modèles d'IA sans transiter par des juridictions soumises au Cloud Act américain.

💬 C'est exactement ce qu'on attendait depuis que le Cloud Act a rendu la question brûlante. Partir de l'infra GPU, pas du cadre réglementaire, c'est ce qui distingue Verda de toutes les initiatives européennes de souveraineté numérique qui finissent en comité de pilotage. Reste à voir si les capitaux suivent à l'échelle d'une gigafactory.

InfrastructureOpinion
1 source
Microsoft sort Agent 365 de sa phase de test alors que l'IA non officielle devient une menace pour les entreprises
67VentureBeat AI 

Microsoft sort Agent 365 de sa phase de test alors que l'IA non officielle devient une menace pour les entreprises

Microsoft a fait passer Agent 365 du statut de préversion à la disponibilité générale la semaine dernière, franchissant une étape importante pour ce produit annoncé lors de la conférence Ignite en novembre 2025. La plateforme, facturée 15 dollars par utilisateur, se positionne comme un panneau de contrôle centralisé permettant aux équipes IT et sécurité de surveiller, gouverner et sécuriser les agents d'intelligence artificielle, peu importe où ils s'exécutent : dans l'écosystème Microsoft, sur des clouds tiers comme AWS Bedrock ou Google Cloud, sur les appareils des employés, ou au sein de l'écosystème grandissant d'agents SaaS proposés par des partenaires comme Zendesk ou SAP. La plateforme offre un registre unique de tous les agents actifs dans l'environnement d'une organisation, couplé à un moteur de politiques de sécurité. Ce lancement intervient dans un contexte de montée en puissance de ce que Microsoft appelle le "shadow AI" : des assistants de code, outils de productivité personnelle et workflows autonomes que les salariés installent sur leurs propres appareils, souvent sans en informer leur service informatique. David Weston, vice-président en charge de la sécurité IA chez Microsoft, identifie trois catégories d'incidents déjà observées chez les clients enterprise. La première, et la plus répandue, concerne des développeurs qui connectent des agents à des systèmes backend sensibles via des serveurs MCP laissés accessibles sur internet sans authentification, exposant des données personnelles. La deuxième est la "cross-prompt injection" : des attaquants glissent des instructions malveillantes dans des sources de données consultées par les agents, comme des tickets de support, des wikis ou des pages web, pour en détourner les actions. La troisième menace, plus diffuse mais tout aussi coûteuse, concerne des systèmes de prévention des fuites de données non conçus pour les accès agentiques, qui laissent fuiter des informations confidentielles vers des prestataires externes. Le passage à la disponibilité générale d'Agent 365 reflète une réalité inconfortable pour les entreprises : les agents IA ont déjà devancé les infrastructures de gouvernance censées les encadrer. Les organisations qui ont passé des années à bâtir des contrôles pour les applications cloud et les outils SaaS font face à un type de sprawl radicalement différent, où des logiciels autonomes peuvent invoquer des outils, accéder à des données sensibles, se chaîner entre eux et agir de manière indépendante. Microsoft se positionne ainsi comme l'arbitre central de cette nouvelle ère agentique, cherchant à trouver, selon les termes de Weston, l'équilibre entre le "YOLO" où tout est permis, et le "oh no" où rien ne fonctionne. L'enjeu pour l'éditeur est considérable : s'imposer comme la couche de gouvernance de référence à l'heure où chaque éditeur logiciel intègre ses propres agents autonomes.

UELes entreprises européennes utilisant Microsoft 365 sont directement exposées aux risques de 'shadow AI' décrits (serveurs MCP non sécurisés, injections de prompts croisées), et peuvent désormais évaluer Agent 365 comme couche de gouvernance, dans un contexte où l'AI Act impose des exigences croissantes de traçabilité et de contrôle sur les systèmes IA déployés.

SécuritéOutil
1 source
Big Tech prouve l'efficacité de ses dépenses en infrastructure IA, et augmente quand même la facture
68AI News 

Big Tech prouve l'efficacité de ses dépenses en infrastructure IA, et augmente quand même la facture

Microsoft, Alphabet, Meta et Amazon ont publié leurs résultats trimestriels le même jour, offrant la première vérification à grande échelle du pari colossal qu'elles ont engagé sur l'infrastructure IA. Le verdict est sans ambiguïté : les quatre entreprises ont dépassé les attentes des analystes, et toutes quatre ont simultanément rehaussé leurs prévisions de dépenses en capital pour 2026. Ensemble, elles s'engagent désormais sur une enveloppe totale comprise entre 630 et 650 milliards de dollars pour l'année. Microsoft a enregistré un chiffre d'affaires de 82,9 milliards de dollars au premier trimestre, en hausse de 18 % sur un an, avec une croissance d'Azure à 40 % en devise constante, au-delà des 38,8 % anticipés par le consensus CNBC. Les revenus annualisés liés à l'IA dépassent désormais 37 milliards de dollars. Alphabet a affiché sa plus forte croissance trimestrielle depuis 2022, avec un bond de 63 % pour Google Cloud et un bénéfice net de 62,57 milliards de dollars, en hausse de 81 % sur un an. Meta a de son côté enregistré une croissance de 33 % de ses revenus, à 56,31 milliards de dollars, son rythme le plus rapide depuis 2021. AWS d'Amazon a connu sa croissance la plus rapide en quinze trimestres. Ces chiffres importent parce qu'ils répondent à la question que les marchés posaient depuis des mois : l'infrastructure IA génère-t-elle des retours ? La réponse est oui, mais avec une nuance cruciale. Chez Meta, c'est la plateforme publicitaire Advantage+, dopée à l'IA, qui transforme les investissements en revenus. Chez Microsoft, les obligations de performances commerciales restantes ont bondi de 99 % à 627 milliards de dollars, signe d'une demande entreprise robuste. Chez Alphabet, le PDG Sundar Pichai a lui-même reconnu que la société est "contrainte à court terme par les capacités de calcul", ce qui signifie que la demande dépasse la vitesse de construction. Pourtant, malgré des résultats opérationnels solides, le titre Microsoft a reculé de plus de 3 % en après-marché, preuve que les investisseurs scrutent désormais les dépenses autant que les revenus. Cet épisode s'inscrit dans une dynamique plus large qui s'est accélérée depuis le lancement de ChatGPT fin 2022 : les grandes plateformes technologiques ont transformé leurs bilans en paris sur l'infrastructure IA, convaincues que celui qui construit le plus vite capturera la valeur de la prochaine décennie. Microsoft relève sa prévision de capex annuel à 190 milliards de dollars, bien au-delà des 154,6 milliards attendus. Meta porte la sienne à 125-145 milliards, en partie à cause de la hausse des prix des composants. Alphabet annonce que ses dépenses 2027 "augmenteront significativement" par rapport à 2026. La question ouverte est celle de la soutenabilité : les revenus publicitaires et cloud peuvent-ils continuer à financer des engagements qui rivalisent avec le PIB de certains États, à mesure que la concurrence entre Google, Microsoft, Meta et Amazon s'intensifie sur chaque couche de la pile IA ?

UELes engagements massifs de capex des géants américains conditionnent l'offre et les tarifs cloud IA accessibles aux entreprises européennes à moyen terme.

BusinessOpinion
1 source
Le pari risqué de Larry
69The Verge AI 

Le pari risqué de Larry

Oracle se positionne aujourd'hui comme l'un des baromètres les plus fiables pour mesurer l'état réel du marché de l'intelligence artificielle. La société fondée par Larry Ellison, bien connue pour ses bases de données et ses logiciels d'entreprise, a opéré un virage stratégique radical vers l'IA, d'une nature singulière dans le paysage technologique actuel. Contrairement à OpenAI ou Anthropic, Oracle ne construit pas de modèles fondamentaux. Elle n'est pas non plus un pure player de l'infrastructure cloud nouvelle génération comme CoreWeave, même si elle s'est lancée sur le marché du bare-metal. Oracle reste avant tout une entreprise de logiciels en mode SaaS, qui a misé massivement sur une vision très précise de ce que sera l'IA demain. Ce pari est d'autant plus audacieux que le coeur historique d'Oracle, ses licences logicielles traditionnelles, connaît un déclin progressif. L'entreprise, l'une des plus anciennes du secteur tech avec Microsoft pour seul concurrent comparable en âge, a donc choisi de réinventer son modèle plutôt que de gérer une descente contrôlée. Pour les investisseurs et les analystes, Oracle devient ainsi un indicateur de choix : si son pari IA tient, c'est que la demande enterprise pour l'IA est profonde et durable ; si les résultats déçoivent, le signal sera difficile à ignorer pour l'ensemble du secteur. L'enjeu dépasse Oracle elle-même. Les grandes entreprises traditionnelles du logiciel cherchent toutes à se repositionner face aux nouveaux entrants de l'IA, et Oracle représente le cas le plus tranché de cette transition forcée. Sa capacité à convertir sa base clients historique en revenus IA, tout en concurrençant AWS, Azure et Google Cloud sur l'infrastructure, définira si les acteurs legacy peuvent survivre dans l'écosystème IA ou s'ils seront progressivement marginalisés.

UELes entreprises européennes clientes d'Oracle pourraient être indirectement affectées par ce pivot stratégique, mais l'article ne traite pas d'un impact spécifique sur le marché français ou européen.

BusinessOpinion
1 source
L'accord historique sur l'AGI entre Microsoft et OpenAI prend fin
70The Verge 

L'accord historique sur l'AGI entre Microsoft et OpenAI prend fin

Microsoft a annoncé lundi matin des modifications majeures à son partenariat historique avec OpenAI, dont la plus symbolique est la suppression officielle de la clause sur l'intelligence artificielle générale (AGI) qui régissait leur accord depuis plusieurs années. Selon les nouveaux termes, Microsoft demeure le "partenaire cloud principal" d'OpenAI, les produits de la startup étant toujours déployés en priorité sur Azure, sauf si Microsoft choisit de ne pas supporter les capacités requises. La rupture décisive: OpenAI peut désormais distribuer l'ensemble de ses produits à ses clients via n'importe quel fournisseur cloud. Ce changement libère considérablement OpenAI dans sa conquête du marché entreprise. En pouvant s'appuyer sur AWS, Google Cloud ou d'autres infrastructures concurrentes, la startup n'est plus tributaire des capacités ou des priorités commerciales de Microsoft. Pour les grandes entreprises clientes, cela signifie davantage de choix et de flexibilité pour intégrer les technologies OpenAI dans leurs environnements existants, ce qui rend OpenAI plus compétitif face à des acteurs comme Anthropic ou Google DeepMind. L'accord originel entre les deux entreprises, construit autour d'un investissement total de Microsoft dépassant treize milliards de dollars, contenait une clause AGI à la portée symbolique considérable: une fois OpenAI jugée avoir atteint l'AGI, les termes du partenariat devaient être renégociés. Sa suppression intervient alors qu'OpenAI finalise sa transformation en société à but lucratif classique et cherche activement à diversifier ses revenus et ses alliances technologiques dans un marché de l'IA de plus en plus concurrentiel.

UELes entreprises européennes clientes d'OpenAI gagnent en flexibilité pour déployer ses technologies sur des infrastructures cloud alternatives, potentiellement incluant des fournisseurs européens, réduisant leur dépendance à Azure.

BusinessOpinion
1 source
Google prêt à investir 40 milliards dans Anthropic pour rivaliser avec OpenAI
71Le Big Data 

Google prêt à investir 40 milliards dans Anthropic pour rivaliser avec OpenAI

Google s'apprête à injecter au minimum 10 milliards de dollars dans Anthropic, avec une enveloppe totale pouvant atteindre 40 milliards si la startup atteint certains objectifs de performance. L'annonce, révélée par Bloomberg le 24 avril 2026, propulse la valorisation d'Anthropic à 350 milliards de dollars. Ce mouvement intervient quelques jours après qu'Amazon a lui-même engagé 5 milliards supplémentaires dans la même entreprise. Côté infrastructure, Google s'engage également à fournir 5 gigawatts de puissance de calcul via ses TPU sur cinq ans, une ressource aussi stratégique que le capital financier pour une startup dont les modèles tournent en permanence à pleine capacité. Google n'est pas un nouvel entrant dans le capital d'Anthropic, mais l'ampleur de cet engagement marque un changement d'échelle radical. Cet investissement révèle une logique qui dépasse le simple pari financier. Google cherche à sécuriser un accès privilégié aux technologies d'Anthropic pour combler son retard face à OpenAI, dont ChatGPT domine encore les usages professionnels et grand public. En échange, Anthropic consomme les infrastructures cloud et les puces de ses investisseurs, ce qui génère en retour des revenus pour Google Cloud, lesquels dépasseraient déjà ceux produits par Gemini selon des données de marché citées dans l'annonce. La startup attire ces capitaux grâce à la traction réelle de ses produits : les modèles Claude et notamment Claude Code connaissent une adoption rapide dans les environnements de développement logiciel, même si les gains de productivité restent inégaux selon les cas d'usage. La croissance brutale de la demande a cependant généré des tensions opérationnelles, avec des pannes et des limitations de service aux heures de pointe que l'entreprise tente de réguler en bridant certaines fonctionnalités pour les offres d'entrée de gamme. Cette opération s'inscrit dans une recomposition profonde du marché de l'IA, où les géants du cloud ne développent plus uniquement leurs propres modèles mais financent des acteurs indépendants pour diversifier leurs positions. Microsoft applique la même stratégie avec OpenAI depuis 2019, combinant investissement massif et fourniture d'infrastructures Azure. Amazon multiplie les paris avec Anthropic et d'autres startups. Google joue désormais sur les deux tableaux : Gemini en interne, Claude en externe. Ce modèle d'alliance hybride devient la norme dans une industrie où les coûts d'entraînement et d'inférence à grande échelle dépassent ce que même les mieux financés peuvent absorber seuls. La prochaine étape pour Anthropic sera de démontrer que cette valorisation de 350 milliards se justifie par des revenus récurrents solides, dans un marché où la concurrence entre OpenAI, Google, Meta et les challengers comme Mistral ne laisse aucune place à la stagnation.

UECet investissement massif consolide la domination américaine dans l'IA générative et intensifie la pression concurrentielle sur les acteurs européens, notamment Mistral, dans la course aux modèles fondateurs.

OpenAI intensifie sa présence sur AWS alors que ses clients se tournent vers la concurrence
72The Information AI 

OpenAI intensifie sa présence sur AWS alors que ses clients se tournent vers la concurrence

Amazon Web Services a annoncé un accord pour intégrer les modèles d'OpenAI à sa plateforme cloud, via une nouvelle offre orientée vers l'exécution d'agents IA. L'annonce, attendue depuis plusieurs années, marque la première présence officielle d'OpenAI sur AWS, le plus grand fournisseur de cloud au monde. Six entreprises interrogées, clientes d'AWS ou consultantes pour ses clients, ont réagi avec un enthousiasme modéré, soulignant qu'elles n'ont pas attendu pour trouver des alternatives. L'arrivée tardive d'OpenAI sur AWS change peu de chose pour une partie des acteurs du marché : beaucoup se sont déjà organisés autour d'autres modèles disponibles via le service Bedrock d'Amazon, notamment ceux d'Anthropic et les modèles maison Amazon Nova, réputés pour leur rapport qualité-prix. Certaines entreprises accèdent déjà aux modèles OpenAI via Microsoft Azure ou Google Cloud, rendant l'accord AWS moins stratégique qu'il n'y paraît. Pour elles, le changement de fournisseur représente un coût de migration difficile à justifier. Cet accord intervient trois ans après qu'OpenAI a déclenché la course mondiale à l'IA avec le lancement de ChatGPT, période durant laquelle les concurrents ont comblé une grande partie de l'écart technologique. Amazon a massivement investi dans Anthropic, et les clients ont eu le temps de construire des intégrations solides avec ces modèles alternatifs. L'enjeu pour OpenAI est désormais de convaincre un marché qui a appris à se passer de lui, dans un contexte où la fidélité aux fournisseurs cloud se construit sur des mois d'intégration technique.

UELes entreprises européennes hébergées sur ce cloud disposent désormais d'un canal supplémentaire pour accéder aux modèles d'OpenAI, mais l'impact pratique reste limité car la majorité a déjà construit des intégrations solides avec des alternatives compétitives.

BusinessOpinion
1 source
Google I/O : les entreprises veulent de l'aide pour exploiter l'IA
73The Information AI 

Google I/O : les entreprises veulent de l'aide pour exploiter l'IA

Lors de la conférence Google Cloud Next, le discours dominant a changé de cap par rapport à l'année précédente. En 2025, les dirigeants de Google vantaient la puissance brute de leurs modèles d'IA pour les entreprises. En 2026, le message central est devenu : comment aider concrètement les entreprises à faire fonctionner ces modèles. Des entretiens menés sur place auprès de clients et de revendeurs Google Cloud révèlent que de nombreuses organisations buttent sur des obstacles concrets dans leur adoption de l'IA, certaines peinent encore à déployer leur premier agent, tandis que d'autres se retrouvent à gérer une multitude d'agents dont la coordination devient ingérable. Ce glissement de priorité illustre un problème structurel de l'industrie : l'écart entre la promesse marketing des outils d'IA et leur déploiement opérationnel réel. Les entreprises ne manquent pas de modèles ni d'accès aux API, elles manquent d'expertise pour intégrer ces briques dans leurs processus métier, gérer les erreurs, orchestrer plusieurs agents en parallèle et maintenir des systèmes fiables en production. C'est un frein majeur à la monétisation pour les fournisseurs de cloud, qui misent sur la consommation à grande échelle. Google Cloud se retrouve dans une position partagée par ses concurrents Microsoft Azure et Amazon Web Services : après avoir massivement investi dans la course aux modèles, les hyperscalers doivent maintenant construire la couche de services, d'outillage et d'accompagnement qui transforme la puissance brute en valeur business. La conférence Next marque ainsi une maturité nouvelle du marché, où l'implémentation devient le vrai champ de bataille.

UELes entreprises européennes font face aux mêmes obstacles d'adoption de l'IA, et pourraient bénéficier des nouvelles couches de services et d'outillage que les hyperscalers développent pour faciliter le déploiement opérationnel.

BusinessOpinion
1 source
Transformation IA : DeepMind renforce ses partenariats pour industrialiser l’adoption de l’IA
74Le Big Data 

Transformation IA : DeepMind renforce ses partenariats pour industrialiser l’adoption de l’IA

Google DeepMind a annoncé le 22 avril 2026 un renforcement significatif de ses partenariats avec cinq des plus grands cabinets de conseil mondiaux : Accenture, Bain & Company, Boston Consulting Group, Deloitte et McKinsey & Company. L'objectif affiché est d'accélérer le déploiement de l'IA en production dans les grandes entreprises, alors que seulement 25 % des organisations ont aujourd'hui réussi à passer du pilote au déploiement industriel à grande échelle. La stratégie repose sur trois leviers : le développement de capacités d'IA adaptées aux spécificités sectorielles, un accès anticipé aux derniers modèles de la gamme Gemini, et un accompagnement au niveau des comités exécutifs et des conseils d'administration. En toile de fond, le potentiel économique estimé à 15 700 milliards de dollars de valeur générée par l'IA d'ici 2030 sert de justification à l'urgence d'industrialiser ces technologies. Ce rapprochement entre chercheurs et consultants répond à un problème concret que les entreprises rencontrent massivement : elles disposent déjà d'outils performants, mais peinent à les intégrer dans leurs processus opérationnels, à former leurs équipes et à démontrer un retour sur investissement mesurable. En combinant la recherche de pointe de DeepMind avec l'expertise sectorielle des cabinets partenaires, l'initiative vise à réduire le délai entre innovation et application terrain. Les secteurs ciblés en priorité sont la finance, l'industrie manufacturière, la distribution, les médias et le divertissement, tous des domaines où les gains de productivité et d'aide à la décision peuvent être immédiats et quantifiables. Le modèle prévoit que les consultants travaillent directement avec les équipes de DeepMind, ce qui permet également aux retours du terrain de nourrir l'amélioration des modèles eux-mêmes. Cette initiative s'inscrit dans une stratégie plus large portée par Google Cloud, qui cherche depuis plusieurs années à structurer un écosystème de partenaires capables de diffuser ses technologies IA dans les organisations à l'échelle mondiale. Les cabinets de conseil deviennent ainsi des relais indispensables, transformant des avancées de laboratoire en outils opérationnels ancrés dans les décisions stratégiques des entreprises. DeepMind insiste sur la dimension responsable du déploiement, une façon de se démarquer dans un contexte où les critiques sur les biais algorithmiques et les risques liés à l'automatisation se multiplient. La question qui reste ouverte est celle de la mesure effective de l'impact : l'annonce de partenariats prestigieux ne garantit pas que le fossé entre les 25 % d'organisations matures et les 75 % restantes se comblera rapidement, surtout dans des secteurs où la transformation culturelle est souvent plus lente que la technologie elle-même.

UELes grandes entreprises françaises et européennes constituent les cibles directes de ces nouvelles offres d'accompagnement, déployées via les bureaux locaux des cinq cabinets partenaires présents dans toute l'UE.

BusinessActu
1 source
Google lance ses TPU v8 et spécialise ses puces pour l’IA : enjeux et comparatif maison
75Next INpact 

Google lance ses TPU v8 et spécialise ses puces pour l’IA : enjeux et comparatif maison

Google a annoncé sa huitième génération de Tensor Processing Units (TPU), ses puces spécialisées dans les calculs d'intelligence artificielle. Pour la première fois dans l'histoire de la gamme, la firme de Mountain View propose deux variantes distinctes basées non plus sur le niveau de performance, mais sur le type d'usage : le TPU v8t, orienté vers l'entraînement des modèles, et le TPU v8i, dédié à l'inférence. C'est une rupture notable avec les générations précédentes, comme les v5e et v5p, qui se différenciaient uniquement par l'efficacité énergétique contre la puissance brute. Cette spécialisation par usage représente un changement de stratégie significatif pour Google. Selon la firme elle-même, "les deux puces peuvent gérer différentes charges de travail, mais la spécialisation permet d'obtenir des gains significatifs". En séparant l'entraînement de l'inférence au niveau matériel, Google cherche à optimiser le rapport performances/coût pour chaque étape du cycle de vie d'un modèle d'IA. Pour les entreprises clientes de Google Cloud, cela se traduit potentiellement par des coûts d'exploitation réduits et une meilleure efficacité dans le déploiement de modèles génératifs à grande échelle. Cette annonce s'inscrit dans une course aux puces IA qui s'est considérablement intensifiée depuis 2018, date des TPU v3. En huit générations, Google a construit une alternative crédible aux GPU de Nvidia, qui dominent encore largement le marché de l'accélération IA. La firme utilise ses TPU en interne pour entraîner ses propres modèles Gemini, ce qui lui confère un avantage compétitif double : maîtrise du hardware et du software. Face à la montée en puissance de concurrents comme les puces Trainium d'Amazon ou les Gaudi d'Intel, la spécialisation des TPU v8 pourrait devenir un argument commercial décisif pour attirer les grandes entreprises vers Google Cloud plutôt que vers AWS ou Azure.

UELes entreprises européennes qui s'appuient sur Google Cloud pour entraîner ou déployer des modèles d'IA pourraient bénéficier d'une réduction des coûts d'exploitation grâce à la spécialisation matérielle des TPU v8.

InfrastructureOpinion
1 source
NVIDIA et Google réduisent les coûts d'inférence en IA
76AI News 

NVIDIA et Google réduisent les coûts d'inférence en IA

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé une nouvelle génération d'infrastructure destinée à réduire drastiquement le coût de l'inférence IA à grande échelle. Les deux entreprises ont présenté les instances A5X bare-metal, reposant sur les systèmes rack NVIDIA Vera Rubin NVL72. Cette architecture promet une réduction jusqu'à dix fois du coût d'inférence par token par rapport aux générations précédentes, tout en multipliant par dix le débit de tokens par mégawatt. Pour atteindre ces performances, les instances A5X combinent les SuperNICs NVIDIA ConnectX-9 avec la technologie réseau Google Virgo, permettant de connecter jusqu'à 80 000 GPU NVIDIA Rubin au sein d'un même site, et jusqu'à 960 000 GPU dans un déploiement multi-sites. Mark Lohmeyer, VP et directeur général de l'infrastructure IA chez Google Cloud, a résumé l'enjeu : "La prochaine décennie de l'IA sera façonnée par la capacité des entreprises à faire tourner leurs charges de travail les plus exigeantes sur une infrastructure vraiment intégrée et optimisée pour l'IA." Ces annonces ont un impact direct sur les secteurs fortement réglementés, comme la finance et la santé, qui butent régulièrement sur des contraintes de souveraineté des données. Google et NVIDIA y répondent avec plusieurs initiatives concrètes : les modèles Gemini fonctionnant sur GPU NVIDIA Blackwell et Blackwell Ultra sont désormais disponibles en préversion sur Google Distributed Cloud, ce qui permet aux organisations de garder les modèles frontier entièrement dans leur environnement contrôlé, au plus près de leurs données sensibles. La sécurité est assurée par NVIDIA Confidential Computing, un protocole de chiffrement matériel qui protège les données d'entraînement et les prompts y compris vis-à-vis des opérateurs cloud eux-mêmes. Pour les environnements cloud public multi-tenant, des VM Confidential G4 équipées de GPU NVIDIA RTX PRO 6000 Blackwell sont également introduites en préversion, marquant la première offre de confidential computing cloud pour des GPU Blackwell. Cette collaboration s'inscrit dans une course plus large à l'optimisation de l'inférence, alors que les coûts opérationnels de l'IA générative restent un frein majeur à son adoption industrielle. Au-delà du matériel, le partenariat couvre aussi la couche logicielle : NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform, permettant aux développeurs de construire des systèmes agentiques complexes capables de raisonner, planifier et agir en chaîne. L'ensemble de la plateforme NVIDIA sur Google Cloud est optimisé pour les familles de modèles Gemini et Gemma. Avec des clusters dépassant le million de GPU et une ambition affichée de simplifier le déploiement d'IA souveraine, Google et NVIDIA repositionnent l'infrastructure cloud non plus comme un simple fournisseur de puissance de calcul, mais comme un levier stratégique pour les entreprises qui veulent industrialiser l'IA sans sacrifier performance, coût ou conformité réglementaire.

UELes entreprises européennes des secteurs réglementés (finance, santé) disposent désormais d'options d'infrastructure IA souveraine compatibles avec les exigences RGPD, réduisant un frein concret à l'industrialisation de l'IA en Europe.

InfrastructureActu
1 source
Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud
77Interesting Engineering 

Google lance ses puces TPU 8, trois fois plus puissantes, pour accélérer l'entraînement IA et réduire les coûts cloud

Google a dévoilé la huitième génération de ses Tensor Processing Units lors de la conférence Google Cloud Next, en introduisant deux puces d'IA distinctes : la TPU 8t, dédiée à l'entraînement des modèles, et la TPU 8i, optimisée pour l'inférence. La TPU 8t peut s'étendre jusqu'à 9 600 puces dans un seul superpod, atteignant 121 exaflops de puissance de calcul, soit près de trois fois les performances de la génération précédente, baptisée Ironwood. Elle vise un taux de "goodput" supérieur à 97 %, c'est-à-dire un temps de calcul productif maximisé, limitant les pauses dues aux pannes ou aux goulots d'étranglement. La TPU 8i, quant à elle, embarque 288 Go de mémoire haute bande passante et 384 Mo de SRAM on-chip, et affiche une amélioration de 80 % du rapport performance/dollar par rapport à la génération précédente, permettant de traiter presque deux fois plus de charge à coût équivalent. Les deux puces seront disponibles en accès général via Google Cloud d'ici la fin de l'année. Cette annonce marque une rupture dans la façon dont l'industrie conçoit l'infrastructure IA. En séparant les cas d'usage entraînement et inférence en deux architectures matérielles distinctes, Google reconnaît que les charges de travail modernes ont des profils radicalement différents. Les agents IA, qui enchaînent des raisonnements, appellent des outils et interagissent en boucle avec d'autres modèles, exigent des temps de réponse très courts et une mémoire rapide proche du processeur, ce que la TPU 8i cible directement. Pour les entreprises clientes, le gain de performance par dollar est concret : gérer deux fois plus d'utilisateurs simultanés sans augmenter la facture cloud change l'équation économique du déploiement de modèles à grande échelle. Google développe ses TPU depuis 2016 pour ses propres systèmes internes, dont Gemini, mais les ouvre désormais plus largement aux clients cloud face à une demande explosive en calcul IA. La stratégie est claire : offrir une alternative intégrée à l'écosystème Nvidia en combinant silicium propriétaire, réseaux personnalisés, frameworks logiciels et services cloud en un seul stack. Les deux puces supportent JAX, PyTorch, SGLang et vLLM, abaissant la barrière à la migration pour les développeurs. Sur le plan énergétique, les TPU 8 offrent jusqu'à deux fois plus de performance par watt que la génération Ironwood et utilisent un refroidissement liquide de quatrième génération. La bataille pour l'infrastructure IA de prochaine génération s'intensifie, avec Google, Microsoft, Amazon et Meta qui investissent massivement dans leurs propres puces pour réduire leur dépendance à Nvidia tout en contrôlant les coûts d'exploitation à long terme.

UELes entreprises européennes déployant des modèles IA sur Google Cloud pourraient bénéficier d'une réduction significative de leurs coûts d'inférence grâce au gain de 80 % du rapport performance/dollar annoncé pour les TPU 8i.

Google dévoile deux nouveaux TPU conçus pour l'ère des agents autonomes
78Ars Technica AI 

Google dévoile deux nouveaux TPU conçus pour l'ère des agents autonomes

Google a dévoilé sa huitième génération de puces TPU (Tensor Processing Units), marquant une évolution significative dans l'architecture de ses accélérateurs d'intelligence artificielle. Contrairement à une simple amélioration itérative, cette génération se décline en deux variantes distinctes : le TPU 8t, dédié à l'entraînement des modèles, et le TPU 8i, optimisé pour l'inférence. L'annonce fait suite au lancement de l'Ironwood, la septième génération, présenté en 2025. Selon Google, le TPU 8t permettrait de réduire la durée d'entraînement des modèles d'IA frontier de plusieurs mois à quelques semaines seulement. Cette bifurcation matérielle reflète une lecture stratégique de l'évolution de l'IA : les systèmes dits "agentiques", capables d'agir de façon autonome sur des tâches complexes, génèrent des charges de travail très différentes de celles des modèles conversationnels classiques. Séparer l'entraînement de l'inférence au niveau du silicium permet d'optimiser chaque phase indépendamment, avec des gains attendus en vitesse et en efficacité énergétique. Pour les entreprises clientes de Google Cloud, cela se traduit potentiellement par des coûts réduits et des cycles de développement accélérés. Google se distingue depuis longtemps du reste de l'industrie en misant sur ses propres puces plutôt que sur les accélérateurs Nvidia, qui dominent largement le marché de l'IA. Cette stratégie verticale lui confère un avantage en termes de contrôle de la chaîne d'approvisionnement et d'optimisation logicielle, mais implique des investissements considérables en R&D. La montée en puissance des agents IA, capables d'enchaîner des raisonnements et d'interagir avec des outils externes, intensifie la demande en inférence continue et à faible latence, un terrain sur lequel le TPU 8i est précisément conçu pour s'imposer. La prochaine étape sera de savoir si ces puces tiennent leurs promesses face aux solutions Nvidia dans des benchmarks réels.

UELes entreprises européennes utilisant Google Cloud pourraient bénéficier de coûts d'entraînement réduits et de cycles de développement accélérés grâce à ces nouvelles puces.

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs
79VentureBeat AI 

Google échappe à la taxe Nvidia grâce à ses nouveaux TPUs

Google a dévoilé mardi soir sa huitième génération de puces TPU (Tensor Processing Units) lors d'une présentation privée au F1 Plaza de Las Vegas. Contrairement aux générations précédentes, cette fois Google lance deux puces distinctes : le TPU 8t, conçu pour l'entraînement de grands modèles d'IA, et le TPU 8i, taillé pour l'inférence agentique à faible latence. Le TPU 8t affiche 2,8 fois les EFlops FP4 par pod par rapport à la génération précédente (121 contre 42,5), double la bande passante scale-up à 19,2 Tb/s par puce, et permet de relier plus d'un million de TPUs dans un seul job d'entraînement grâce à une nouvelle architecture réseau baptisée Virgo. Le TPU 8i, lui, multiplie par 9,8 les EFlops FP8 par pod (11,6 contre 1,2), par 6,8 la capacité HBM (331,8 To contre 49,2), et fait quadrupler la taille des pods (de 256 à 1 152 puces). Les deux chips doivent être disponibles courant 2025. L'enjeu pour Google est d'abord économique. En fabriquant ses propres puces, Google échappe aux marges d'Nvidia, qui a transformé sa position de quasi-monopole sur les accélérateurs IA en l'une des valorisations boursières les plus élevées au monde. Amin Vahdat, vice-président senior et chief technologist AI & Infrastructure chez Google, a insisté sur l'intégration verticale totale de la stack Google, du silicium au logiciel, comme levier de compétitivité sur le coût par token. Pour les clients enterprise qui entraînent des modèles ou déploient des agents en production sur Google Cloud et Vertex AI, cela se traduit concrètement : jusqu'à présent, les mêmes accélérateurs servaient à la fois pour l'entraînement et l'inférence, avec les inefficacités que cela implique. La génération v8 est la première à traiter ces deux charges de travail comme des problèmes distincts, avec deux siliciums dédiés. La décision de scinder la feuille de route en deux puces a été prise en 2024, soit un an avant que le reste de l'industrie ne pivote massivement vers les modèles de raisonnement, les agents et le reinforcement learning. "Deux ans avant tout le monde, nous avions compris qu'une puce par an ne suffirait plus", a résumé Vahdat. Pour le TPU 8i, Google a développé avec Google DeepMind une topologie réseau inédite appelée Boardfly, conçue pour réduire la latence plutôt que de maximiser le débit, un choix crucial pour les agents IA qui doivent répondre en temps réel. Le TPU 8t introduit également le TPU Direct Storage, qui achemine les données depuis le stockage directement dans la mémoire HBM sans passer par le CPU, réduisant le temps nécessaire à chaque epoch d'entraînement. Google positionne clairement cette génération comme une rupture technologique destinée à creuser l'écart avec ses concurrents sur le marché du cloud IA.

UELes entreprises européennes utilisant Google Cloud pour l'entraînement de modèles IA ou le déploiement d'agents en production pourraient bénéficier d'un coût par token réduit grâce à la spécialisation des puces TPU v8.

InfrastructureOpinion
1 source
Google refond sa data stack pour les agents autonomes, non plus pour les humains
80VentureBeat AI 

Google refond sa data stack pour les agents autonomes, non plus pour les humains

Google a dévoilé mercredi lors de sa conférence Cloud Next une refonte majeure de son infrastructure de données d'entreprise, baptisée "Agentic Data Cloud". L'annonce, portée par Andi Gutmans, vice-président et directeur général de Data Cloud chez Google Cloud, repose sur trois piliers : le Knowledge Catalog, un nouveau catalogue sémantique automatisé ; un data lakehouse multi-cloud ; et le Data Agent Kit, un ensemble d'outils MCP intégrables directement dans VS Code, Claude Code et Gemini CLI. Le Knowledge Catalog est une évolution de Dataplex, le produit de gouvernance de données existant de Google, mais avec une architecture profondément différente : là où les anciens catalogues exigeaient qu'une équipe de data stewards étiquette manuellement les tables et définisse les termes métier, le nouveau système utilise des agents pour automatiser entièrement ce travail. Il couvre nativement BigQuery, Spanner, AlloyDB et Cloud SQL, et s'interconnecte avec des catalogues tiers comme Collibra, Atlan et Datahub, ainsi qu'avec des applications SaaS telles que SAP, Salesforce Data360, ServiceNow et Workday, sans déplacement de données. Ce changement architectural répond à un problème concret qui touche les équipes data des grandes entreprises : les plateformes actuelles ont été conçues pour des humains qui posent des questions, pas pour des agents IA qui agissent en continu et de manière autonome. Avec le Data Agent Kit, les ingénieurs data peuvent désormais décrire des résultats attendus plutôt qu'écrire des pipelines, ce qui représente un changement de paradigme dans le quotidien des équipes techniques. Sur le plan de l'infrastructure, la nouvelle approche multi-cloud est particulièrement significative : BigQuery peut désormais interroger des tables au format Apache Iceberg stockées sur Amazon S3, via la couche réseau privée Cross-Cloud Interconnect de Google, sans frais de sortie de données et avec des performances comparables à celles d'un entrepôt natif AWS. Toutes les fonctions IA de BigQuery s'appliquent à ces données distantes sans modification. Une fédération bidirectionnelle est également en cours de déploiement avec Databricks Unity Catalog, Snowflake Polaris et AWS Glue Data Catalog. Cette annonce s'inscrit dans une course que se livrent les grands acteurs du cloud pour capter le marché de l'infrastructure IA d'entreprise. Les architectures de données actuelles ont été pensées pour des cycles de reporting et de tableaux de bord, ce que Google qualifie d'"intelligence réactive". Mais à mesure que les agents IA sont déployés pour prendre des décisions et déclencher des actions directement dans les systèmes métier, cette approche montre ses limites. Google n'est pas seul sur ce terrain : Databricks, Snowflake et AWS investissent massivement dans des architectures similaires. En intégrant ses outils directement dans des environnements de développement comme VS Code et Claude Code, Google cherche à s'imposer comme la couche de données de référence dans un monde où l'IA opère à l'échelle de l'entreprise, vingt-quatre heures sur vingt-quatre.

UELes entreprises européennes opérant en multi-cloud AWS/GCP pourront interroger leurs données sans frais de transfert sortant, et les équipes data pourront intégrer le Data Agent Kit dans VS Code pour automatiser leurs pipelines sans réécriture de code.

InfrastructureOpinion
1 source
Stellantis et Microsoft : un partenariat de 5 ans pour révolutionner l’IA automobile
81Le Big Data 

Stellantis et Microsoft : un partenariat de 5 ans pour révolutionner l’IA automobile

Stellantis et Microsoft ont officialisé le 16 avril 2026 un partenariat stratégique de cinq ans destiné à accélérer la transformation numérique du constructeur automobile franco-italo-américain. L'accord prévoit le co-développement de plus de 100 cas d'usage concrets intégrant l'intelligence artificielle dans des domaines aussi variés que le développement produit, la validation, les tests, la maintenance prédictive et la relation client. Sur le plan infrastructure, Stellantis migre l'essentiel de son système informatique vers le cloud Azure de Microsoft, avec un objectif de réduction de 60 % de l'empreinte de ses centres de données d'ici 2029. Le groupe a également déployé 20 000 licences Microsoft 365 Copilot auprès de ses collaborateurs, accompagnées de programmes de formation pour ancrer l'IA dans les pratiques quotidiennes des équipes d'ingénierie, de production et de support. Ce partenariat aura des répercussions concrètes à plusieurs niveaux. Pour les équipes internes, l'IA permettra de détecter plus tôt les anomalies en production, de raccourcir les cycles de validation et d'accélérer la mise sur le marché de nouvelles fonctionnalités logicielles. Pour les clients, certains véhicules pourront suggérer des modes de conduite plus économes ou anticiper des besoins de maintenance avant même qu'une panne survienne. En matière de cybersécurité, Stellantis prévoit de renforcer son centre mondial de cyberdéfense en s'appuyant sur des analyses pilotées par l'IA, couvrant à la fois les systèmes informatiques internes, les véhicules connectés, les sites industriels et les services numériques, dans le but d'anticiper les menaces et de protéger les données clients. Ce rapprochement s'inscrit dans une dynamique de fond qui secoue l'ensemble de l'industrie automobile traditionnelle. Face à la montée en puissance des constructeurs chinois, structurellement plus agiles sur le logiciel et les données, les acteurs historiques comme Stellantis, Volkswagen ou Renault intensifient leurs alliances technologiques pour combler un retard accumulé depuis des années. Ned Curic, directeur de l'ingénierie et de la technologie de Stellantis, a explicitement présenté cette collaboration comme un levier pour « accélérer le déploiement de l'IA dans toute l'entreprise ». La dépendance croissante des véhicules modernes aux logiciels rend cette transformation à la fois urgente et risquée : plus une voiture est connectée, plus elle constitue une cible potentielle pour des cyberattaques, ce qui explique la place centrale accordée à la sécurité dans l'accord. Microsoft, de son côté, consolide ainsi sa position dans le secteur automobile, un marché stratégique où Azure et ses outils d'IA générative sont en concurrence directe avec Google Cloud et AWS.

UEStellantis, maison-mère de Peugeot, Citroën et DS, intègre l'IA dans ses opérations françaises et migre vers Azure, ce qui aura un impact direct sur ses dizaines de milliers de salariés en France et sur la compétitivité de la filière automobile hexagonale face aux constructeurs chinois.

BusinessActu
1 source
82InfoQ AI 

AWS lance un registre d'agents en aperçu pour gérer la prolifération des agents IA en entreprise

Amazon Web Services a lancé Agent Registry en version préliminaire, une nouvelle fonctionnalité intégrée à Amazon Bedrock AgentCore, destinée à répondre à un problème croissant dans les grandes entreprises : la prolifération incontrôlée d'agents IA déployés en silo. Concrètement, cette solution propose un catalogue centralisé permettant de découvrir, gouverner et réutiliser des agents IA, des outils et des serveurs MCP au sein d'une même organisation, quel que soit l'endroit où ces agents s'exécutent. Le registre prend en charge nativement les protocoles MCP (Model Context Protocol) et A2A (Agent-to-Agent). Pour les équipes techniques des grandes entreprises, l'enjeu est considérable : sans inventaire central, les organisations se retrouvent avec des dizaines d'agents redondants, difficiles à auditer, à maintenir ou à faire évoluer. Agent Registry entend résoudre ce problème de gouvernance en offrant une visibilité unifiée sur l'ensemble du parc d'agents, facilitant ainsi la réutilisation des composants existants et réduisant les coûts de développement. Cette initiative s'inscrit dans une course entre les grands fournisseurs cloud pour imposer leur standard de gestion d'agents IA. Microsoft et Google Cloud proposent leurs propres solutions concurrentes, tandis que l'ACP Registry constitue une alternative indépendante. Le choix d'intégrer nativement les protocoles MCP et A2A signale la volonté d'AWS de s'aligner sur les standards émergents de l'industrie, dans un contexte où l'interopérabilité entre agents de différentes plateformes devient un critère décisif pour les entreprises qui multiplient les déploiements.

UELes grandes entreprises européennes utilisant AWS peuvent désormais centraliser la gouvernance de leurs agents IA via ce registre, facilitant l'audit et la conformité dans un contexte de multiplication des déploiements.

OutilsActu
1 source
Les bons résultats de TSMC confirment l'élan de l'IA
83The Information AI 

Les bons résultats de TSMC confirment l'élan de l'IA

TSMC, le géant taïwanais de la fabrication de puces électroniques, a publié jeudi ses résultats du premier trimestre 2026 avec une croissance de revenus de 40,6%, dépassant le haut de sa fourchette de prévisions. Le PDG C.C. Wei a relevé l'objectif de croissance annuel à plus de 30%, et déclaré que "la demande liée à l'IA continue d'être extrêmement robuste." Cette évaluation repose sur les retours directs des clients de TSMC, au premier rang desquels Nvidia, ainsi que des grandes firmes cloud qui achètent ces puces. Ces résultats constituent un signal fort pour l'ensemble du secteur technologique. Si TSMC, qui fabrique les puces pour pratiquement tous les grands acteurs de l'IA, affiche une telle croissance, cela laisse présager des résultats solides pour les grandes entreprises tech qui publieront leurs chiffres trimestriels plus tard en avril. Les marchés ont déjà anticipé cette dynamique : depuis fin mars, Microsoft a progressé de 18%, Nvidia de 20%, et le Nasdaq dans son ensemble de 16%. La vigueur de TSMC s'inscrit dans un contexte de multiplication des signaux haussiers autour de l'IA, malgré les incertitudes macroéconomiques mondiales. Le fabricant taïwanais occupe une position unique dans la chaîne de valeur : il est le maillon indispensable entre les concepteurs de puces comme Nvidia ou AMD et les déploiements massifs des hyperscalers comme Microsoft Azure, Google Cloud ou Amazon AWS. La robustesse de sa demande suggère que les investissements en infrastructure IA ne montrent aucun signe de ralentissement, alimentant l'optimisme avant une saison de résultats qui s'annonce décisive pour valider, ou nuancer, l'enthousiasme des marchés.

InfrastructureOpinion
1 source
NewBird AI : comment le virage technologique d’Allbirds a fait bondir son action de 600 %
84Le Big Data 

NewBird AI : comment le virage technologique d’Allbirds a fait bondir son action de 600 %

Le 15 avril 2026, Allbirds, fabricant américain de chaussures durables, a annoncé l'abandon total de son activité historique pour se repositionner sous le nom NewBird AI, avec pour nouvelle mission de fournir des infrastructures de calcul dédiées à l'intelligence artificielle. L'annonce a provoqué une envolée boursière spectaculaire : le titre a bondi jusqu'à 876 % en séance avant de clôturer à 16,99 dollars, soit une progression de 582 % en une seule journée depuis les 2,49 dollars du matin. Concrètement, l'entreprise a cédé l'ensemble de ses marques et actifs liés à la chaussure à American Exchange Group pour 39 millions de dollars, et a simultanément sécurisé une facilité de financement convertible de 50 millions de dollars auprès d'un investisseur institutionnel. Ces fonds serviront à acquérir des GPU haute performance et à construire une offre de type GPU-as-a-Service, c'est-à-dire la location de puissance de calcul à des entreprises souhaitant entraîner ou faire tourner des modèles d'IA. Ce pivot illustre de façon saisissante comment la pénurie mondiale de ressources de calcul est devenue un levier de création de valeur capable de transformer instantanément la perception d'une entreprise sur les marchés, même si celle-ci n'avait aucun lien historique avec la technologie. Pour les entreprises confrontées à des délais et des contraintes d'accès aux GPU chez les grands fournisseurs cloud, une offre alternative flexible représente une réponse concrète à un goulot d'étranglement structurel. NewBird AI ne cherche pas à concurrencer AWS, Google Cloud ou Azure frontalement, mais à occuper les interstices du marché : des clients qui ne peuvent pas obtenir de capacités de manière fiable ou rapide auprès des hyperscalers traditionnels. La proposition de valeur repose sur la disponibilité immédiate et des contrats de location à long terme. Allbirds avait été introduite en Bourse en novembre 2021 à 15 dollars l'action, levant près de 348 millions de dollars sur la promesse d'une marque de chaussures éco-responsables. Depuis, la trajectoire avait été régulièrement pénalisée par la baisse des ventes, des pertes croissantes et un recul d'image, ramenant le titre à moins de 3 dollars début 2026. Ce pivot radical s'inscrit dans une tendance plus large où des sociétés cotées en difficulté cherchent à capter l'enthousiasme des investisseurs pour l'IA en procédant à des rebranding agressifs, parfois sans historique technique ni infrastructure préexistante. La capacité de NewBird AI à réellement déployer des actifs GPU compétitifs et à attirer une clientèle stable face à des acteurs déjà établis dans le GPUaaS, comme CoreWeave, reste à démontrer dans les prochains trimestres.

BusinessOpinion
1 source
L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox
85AI News 

L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox

OpenAI vient d'annoncer de nouvelles fonctionnalités pour son Agents SDK, avec notamment l'introduction de l'exécution en sandbox et d'un environnement d'exécution natif au modèle. Ces ajouts visent à permettre aux équipes de gouvernance en entreprise de déployer des workflows automatisés avec un contrôle accru des risques. Concrètement, le SDK intègre désormais une mémoire configurable, une orchestration adaptée aux environnements sandbox, et des outils de gestion de fichiers similaires à ceux de Codex. Les développeurs peuvent également utiliser des primitives standardisées comme l'appel d'outils via MCP, des instructions personnalisées via un fichier AGENTS.md, et un outil d'application de correctifs pour les modifications de fichiers. Une abstraction baptisée "Manifest" permet de décrire l'espace de travail de manière normalisée, avec la possibilité de connecter directement des environnements à des fournisseurs de stockage majeurs : AWS S3, Azure Blob Storage, Google Cloud Storage et Cloudflare R2. Ces évolutions répondent à un problème concret rencontré lors du passage des prototypes en production : les équipes devaient jusqu'ici choisir entre des frameworks agnostiques offrant de la flexibilité mais ne tirant pas pleinement parti des modèles frontier, ou des SDK propriétaires proches du modèle mais manquant de visibilité sur la couche de contrôle. Le résultat était souvent la construction de connecteurs maison fragiles. Le cas d'Oscar Health illustre bien l'impact potentiel : ce prestataire de santé américain a utilisé le nouveau SDK pour automatiser un workflow de traitement de dossiers cliniques que les approches précédentes ne pouvaient pas gérer de façon fiable. Rachael Burns, Staff Engineer et AI Tech Lead chez Oscar Health, précise que la différence n'était pas seulement d'extraire les bonnes métadonnées, mais de comprendre correctement les limites de chaque consultation au sein de longs dossiers médicaux complexes, permettant ainsi d'accélérer la coordination des soins et d'améliorer l'expérience patient. Ces avancées s'inscrivent dans une tendance plus large : la course à la standardisation des infrastructures pour agents IA en entreprise. OpenAI, face à la concurrence de frameworks comme LangChain, LlamaIndex ou les offres cloud de Google et Microsoft, cherche à imposer son SDK comme la référence native pour les équipes qui utilisent ses modèles. L'introduction du Manifest et de l'exécution en sandbox signale une ambition claire : capter les déploiements en production, segment où les enjeux de sécurité, de traçabilité et de gouvernance sont déterminants. En standardisant la couche d'infrastructure, OpenAI libère les équipes techniques de la maintenance des "plomberies" et les oriente vers la logique métier à valeur ajoutée. La prochaine étape sera de voir dans quelle mesure ces outils s'intègrent avec les systèmes legacy et si l'abstraction Manifest tient ses promesses à grande échelle.

86AWS ML Blog 

AWS propose un cadre pratique pour réussir son adoption de l'IA générative

Amazon Web Services a publié un cadre méthodologique baptisé "Generative AI Path-to-Value" (P2V), conçu pour aider les entreprises à transformer leurs projets pilotes d'IA générative en systèmes opérationnels créateurs de valeur durable. Cette initiative intervient alors qu'un nombre croissant d'organisations constatent un écart entre la phase d'expérimentation, souvent prometteuse, et le déploiement en production à grande échelle. Le cadre identifie quatre catégories de blocages récurrents : la valeur (absence de ROI clairement défini et de critères de succès mesurables), le risque (exposition légale, confidentialité des données, conformité réglementaire), la technologie (intégration avec les systèmes existants, qualité des données, observabilité, scalabilité, gestion des coûts cloud) et les ressources humaines (résistance au changement, manque de compétences, redéfinition des rôles). L'enjeu est considérable pour les équipes techniques et les directions métier : sans méthode structurée, la majorité des initiatives d'IA générative restent bloquées entre le prototype et la mise en production, sans jamais produire de bénéfices mesurables. Le cadre P2V repositionne la mise en production non pas comme une finalité, mais comme une étape intermédiaire sur un chemin plus long vers la création de valeur pérenne. Concrètement, cela oblige les organisations à définir des métriques d'évaluation, à constituer des jeux de données de test, à mettre en place un monitoring continu de la qualité, et à intégrer des pratiques FinOps pour maîtriser les coûts d'infrastructure. Pour les utilisateurs finaux et les équipes IT, cela se traduit par des projets mieux gouvernés, des déploiements plus stables et un retour sur investissement plus facile à justifier auprès des décideurs. Ce travail de formalisation s'inscrit dans une dynamique plus large : après l'euphorie des années 2023-2024 marquées par l'explosion des POC, les grandes entreprises entrent dans une phase de maturité où l'accent passe de l'expérimentation à l'industrialisation. AWS n'est pas seul sur ce terrain, Microsoft Azure, Google Cloud et des cabinets de conseil comme McKinsey ou Accenture publient des cadres similaires pour accompagner cette transition. La bataille se joue désormais sur l'adoption en entreprise, et les hyperscalers qui fourniront les meilleures méthodologies d'intégration auront un avantage décisif. La prochaine étape pour AWS sera probablement d'ancrer ce cadre P2V dans ses offres de services managés et de conseil, transformant une publication méthodologique en levier commercial concret.

UELes entreprises européennes utilisant AWS peuvent s'appuyer sur ce cadre méthodologique pour structurer l'industrialisation de leurs projets d'IA générative et mieux justifier leur ROI auprès des décideurs.

OutilsOutil
1 source
87AWS ML Blog 

Déploiements par cas d'usage sur SageMaker JumpStart

Amazon a annoncé le lancement des déploiements optimisés sur SageMaker JumpStart, une nouvelle fonctionnalité qui permet aux entreprises utilisant AWS de configurer leurs modèles d'intelligence artificielle en fonction de cas d'usage précis plutôt que de simples paramètres techniques génériques. Disponible dès maintenant dans SageMaker Studio, cette mise à jour concerne une trentaine de modèles au lancement, dont plusieurs variantes de Meta Llama 3.1 et 3.2 (de 1B à 70B paramètres), Mistral 7B et Mistral Small 24B, les modèles Qwen3 d'Alibaba (jusqu'à 32B), Phi-3 de Microsoft, Gemma de Google et Falcon3 de TII. Les utilisateurs choisissent d'abord un cas d'usage textuel, rédaction générative, interaction de type chat, résumé de contenu, questions-réponses, puis sélectionnent une contrainte d'optimisation parmi quatre options : coût, débit, latence ou performance équilibrée. Une configuration de déploiement préconfigurée est alors générée automatiquement pour l'endpoint SageMaker. Ce changement répond à une limite concrète du système précédent : JumpStart proposait jusque-là de configurer les déploiements selon le nombre d'utilisateurs simultanés attendus, avec visibilité sur la latence P50, le temps avant le premier token (TTFT) et le débit en tokens par seconde. Ce modèle était utile pour des scénarios généralistes, mais ignorait que les performances optimales varient radicalement selon le type de tâche. Un système de résumé de documents longs n'a pas les mêmes besoins qu'un chatbot temps réel ou qu'un pipeline de génération de contenu en batch. En exposant directement ces dimensions aux équipes produit et data, AWS réduit la friction entre la sélection d'un modèle et sa mise en production effective, sans exiger d'expertise fine en infrastructure GPU ni en tuning de serving. Cette évolution s'inscrit dans la compétition acharnée que se livrent les grands fournisseurs cloud, AWS, Google Cloud et Microsoft Azure, pour capter les budgets d'inférence IA des entreprises. SageMaker JumpStart existe depuis plusieurs années comme point d'entrée vers les modèles pré-entraînés sur AWS, mais la plateforme cherche à monter en valeur face à des alternatives comme Vertex AI Model Garden ou Azure AI Studio qui proposent également des expériences de déploiement guidées. Le support des modèles image et vidéo est annoncé comme prochaine étape, et la liste des modèles compatibles est présentée comme amenée à s'élargir rapidement. Pour les entreprises déjà dans l'écosystème AWS, cette simplification pourrait accélérer les cycles de mise en production de modèles open-source sans passer par des équipes MLOps dédiées.

UELes entreprises européennes déployant des modèles open-source sur AWS peuvent réduire leur dépendance aux équipes MLOps grâce à cette simplification du cycle de mise en production.

OutilsOutil
1 source
88VentureBeat AI 

Des dirigeants de Google, dont Demis Hassabis, contestent les allégations d'une adoption inégale de l'IA en interne

Un post publié le 13 avril sur X par Steve Yegge, ancien ingénieur Google reconverti en directeur de l'ingénierie chez Sourcegraph, a déclenché une vive polémique dans la Silicon Valley. Yegge y relayait les propos d'un ami, ingénieur actuel chez Google, selon lesquels l'adoption interne de l'IA chez Google serait bien plus banale que ce que l'entreprise laisse entendre. Selon cette source anonyme, les équipes de Google suivraient une distribution classique : 20 % de refractaires à l'IA, 60 % d'utilisateurs intermédiaires cantonnés aux assistants de code basiques, et seulement 20 % d'ingénieurs véritablement engagés dans des workflows agentiques avancés. Le post a rapidement enflammé les réseaux, atteignant 4 500 likes, 458 commentaires et 1,9 million de vues en moins de 24 heures. L'ami en question aurait également affirmé que certains Googlers ne pouvaient pas utiliser Claude Code d'Anthropic, perçu en interne comme "l'ennemi", et que Gemini n'était pas encore à la hauteur pour les cas d'usage les plus avancés. La réaction du côté de Google a été immédiate et tranchante. Demis Hassabis, cofondateur et PDG de Google DeepMind, a répondu directement à Yegge : "Dis à ton ami de faire un vrai travail plutôt que de propager des absurdités. Ce post est complètement faux, du pur clickbait." Addy Osmani, directeur chez Google Cloud AI, a livré une réfutation plus détaillée, affirmant que "plus de 40 000 ingénieurs utilisent des outils de codage agentiques chaque semaine" et que les équipes ont accès à des modèles personnalisés, des CLIs et des MCPs maison. Il a précisé que les Googlers peuvent même utiliser les modèles d'Anthropic via Vertex AI, concluant que "Google est tout sauf dans la moyenne." L'ingénieure Jaana Dogan a abondé dans ce sens, décrivant un usage quasi continu des outils IA dans son environnement quotidien. L'écho considérable de ce débat s'explique en grande partie par le profil de Yegge : avec treize ans chez Google, des passages chez Amazon et Grab, il s'est construit au fil des années une réputation d'insider-outsider au franc-parler, dont les analyses circulent largement dans les milieux tech. Un mémo interne qu'il avait rédigé chez Google en 2011 avait fuité et fait le tour des médias spécialisés, lui conférant un statut particulier. La polémique s'inscrit dans un contexte plus large : alors que les grandes entreprises tech rivalisent de communication autour de leur adoption de l'IA, la question de ce qui se passe réellement derrière les portes devient un enjeu de crédibilité. Pour Google, dont Gemini est à la fois un produit stratégique et un outil interne, toute suggestion d'un usage tiède en interne touche directement à la cohérence de son discours public.

BusinessOpinion
1 source
89MarkTechPost 

Tutoriel Google ADK : pipeline multi-agents pour chargement de données, tests statistiques, visualisation et rapports en Python

Google a publié son Agent Development Kit (ADK), un framework Python open source permettant de construire des systèmes multi-agents capables de réaliser des analyses de données complexes de bout en bout. Un tutoriel détaillé illustre comment assembler un pipeline complet en Python, en utilisant Google ADK aux côtés de bibliothèques établies comme pandas, numpy, scipy, matplotlib et seaborn, ainsi que le modèle GPT-4o-mini d'OpenAI via l'interface LiteLLM. Le système s'articule autour d'un agent analyste central qui orchestre plusieurs agents spécialisés, chacun responsable d'une tâche précise : chargement des données, exploration statistique, tests d'hypothèses, transformations de tableaux, génération de visualisations et production de rapports. L'installation ne nécessite que quelques commandes pip, et l'accès à l'API est sécurisé dès le départ via des variables d'environnement ou les secrets Colab. Ce type d'architecture multi-agents représente un changement concret dans la façon dont les data scientists et les équipes analytiques peuvent automatiser leurs flux de travail. Plutôt que d'enchaîner manuellement des scripts disparates, un agent coordinateur distribue les tâches à des spécialistes, ce qui rend le pipeline modulaire, testable et extensible sans réécriture complète. L'utilisation d'un DataStore centralisé sous forme de singleton garantit que tous les agents partagent le même état et que les résultats intermédiaires restent accessibles tout au long du processus. Pour les entreprises qui manipulent régulièrement de grands volumes de données, ce modèle réduit la friction opérationnelle et ouvre la voie à des analyses reproductibles pilotées par des LLMs, sans dépendre d'une infrastructure lourde. L'annonce s'inscrit dans une tendance plus large : depuis début 2025, plusieurs acteurs majeurs ont lancé leurs propres frameworks d'agents IA, notamment Microsoft avec AutoGen, Anthropic avec son Model Context Protocol, et OpenAI avec ses Assistants API. Google ADK se distingue par son intégration native avec l'écosystème Google Cloud et sa compatibilité avec des modèles tiers via LiteLLM, ce qui le rend agnostique au fournisseur. Le tutoriel cible explicitement un usage en production, avec gestion des erreurs, sérialisation JSON robuste et sessions en mémoire via InMemorySessionService. La prochaine étape logique serait l'intégration avec des sources de données réelles, des bases de données SQL ou des API métier, transformant ce pipeline pédagogique en socle d'une véritable plateforme d'analyse autonome.

OutilsOutil
1 source
90AWS ML Blog 

Amazon Bedrock AgentCore Runtime introduit des capacités MCP client avec état

Amazon a introduit des capacités client MCP (Model Context Protocol) avec état dans son service AgentCore Runtime sur Amazon Bedrock, marquant une évolution majeure pour les développeurs d'agents IA. Jusqu'à présent, les serveurs MCP hébergés sur cette plateforme fonctionnaient en mode sans état : chaque requête HTTP était traitée de façon indépendante, sans mémoire entre les appels. Le nouveau mode avec état, activé via un simple paramètre stateless_http=False, provision une microVM dédiée par session utilisateur, persistant jusqu'à 8 heures ou 15 minutes d'inactivité. Cette architecture permet désormais trois capacités clés du protocole MCP : l'élicitation (demander une saisie utilisateur en cours d'exécution), le sampling (solliciter du contenu généré par un LLM côté client), et les notifications de progression (streamer des mises à jour en temps réel). La continuité de session est assurée via un en-tête Mcp-Session-Id, échangé lors de l'initialisation et inclus dans toutes les requêtes suivantes. Ces nouvelles capacités transforment fondamentalement la nature des workflows agents. Là où les implémentations sans état forçaient les agents à s'exécuter de bout en bout sans interruption, les agents peuvent désormais mener de véritables conversations bidirectionnelles avec leurs clients : s'arrêter pour demander une clarification à l'utilisateur au milieu d'un appel d'outil, déléguer dynamiquement la génération de contenu au LLM présent côté client, ou signaler l'avancement d'opérations longues en temps réel. Pour les équipes qui construisent des assistants IA complexes, des pipelines de traitement de documents ou des agents d'automatisation nécessitant validation humaine intermédiaire, c'est un changement de paradigme concret qui élimine des contournements architecturaux souvent coûteux à maintenir. Le Model Context Protocol, standard ouvert définissant comment les applications LLM se connectent à des outils et sources de données externes, gagne rapidement en adoption depuis son lancement par Anthropic fin 2024. Amazon avait déjà intégré l'hébergement de serveurs MCP sans état dans AgentCore Runtime dans une version précédente ; cette mise à jour complète l'implémentation bidirectionnelle du protocole. L'isolation entre sessions via des microVMs dédiées garantit la sécurité et l'indépendance des contextes, chaque session bénéficiant de CPU, mémoire et système de fichiers séparés. Si une session expire ou que le serveur redémarre, les clients reçoivent une erreur 404 et doivent réinitialiser la connexion. Cette approche positionne AWS comme un acteur central dans l'infrastructure d'agents IA d'entreprise, en rivalité directe avec les offres similaires de Microsoft Azure et Google Cloud dans la course à standardiser les architectures agentiques.

UELes équipes européennes développant des agents IA sur des plateformes cloud peuvent désormais implémenter des workflows agentiques bidirectionnels natifs sans contournements architecturaux coûteux.

OutilsActu
1 source
Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche
91MarkTechPost 

Google AI Research présente PaperOrchestra, un cadre multi-agents pour la rédaction automatisée d'articles de recherche

Une équipe de chercheurs de Google Cloud AI Research a présenté PaperOrchestra, un système multi-agents conçu pour automatiser la rédaction complète d'articles scientifiques. À partir de matériaux non structurés, un résumé d'idée brut et des journaux d'expérimentation, le système produit un manuscript LaTeX prêt à soumettre à une conférence, incluant une revue de littérature, des figures générées automatiquement et des citations vérifiées via API. Le pipeline orchestre cinq agents spécialisés travaillant en séquence, dont deux en parallèle : un agent d'organisation produit d'abord un plan JSON structuré, puis un agent de visualisation génère les figures pendant qu'un agent de revue bibliographique identifie et vérifie les références via l'API Semantic Scholar, en calculant la distance de Levenshtein pour détecter les titres approximatifs et en éliminant les citations hallucinations. Un quatrième agent rédige ensuite les sections restantes, et un cinquième assemble le tout en LaTeX final. Ce système comble un vide réel dans l'outillage de la recherche académique. Les solutions existantes souffraient toutes de limitations structurelles : PaperRobot ne gérait que des séquences de texte incrémentales, AI Scientist (v1 et v2, de Sakana AI) automatise la boucle expérimentale entière mais son module de rédaction reste couplé à ses propres pipelines internes et ne peut pas traiter des données extérieures. Les systèmes spécialisés comme AutoSurvey2 ou LiRA produisent de bonnes revues de littérature mais sont incapables de positionner une méthode spécifique face à l'état de l'art. CycleResearcher, lui, exige un fichier BibTeX structuré en entrée, un artefact rarement disponible en début de rédaction. PaperOrchestra est le premier système à accepter les matériaux tels qu'un chercheur les aurait réellement après ses expériences, sans pré-traitement. L'enjeu derrière ce type d'outil dépasse la simple automatisation : la rédaction académique représente souvent plusieurs semaines de travail après la fin des expériences, et c'est précisément là que de nombreux papiers n'aboutissent jamais, notamment pour les chercheurs moins expérimentés. En industrialisant cette étape, Google s'inscrit dans une course plus large à l'automatisation de la recherche scientifique, où Sakana AI, Anthropic et d'autres tentent de réduire le cycle entre idée et publication. La contrainte imposée par PaperOrchestra, au moins 90 % du corpus bibliographique identifié doit être activement cité, et la vérification systématique des références montrent une volonté de ne pas sacrifier la rigueur à la vitesse. La prochaine étape naturelle serait l'intégration avec des pipelines expérimentaux réels, ce qui rapprocherait encore davantage ce système d'une automatisation complète du cycle de recherche.

UELes chercheurs académiques en France et dans l'UE pourraient bénéficier de cet outil pour réduire le temps de rédaction de leurs articles scientifiques, mais aucun déploiement européen spécifique n'est annoncé.

RecherchePaper
1 source
Nebius en discussions pour racheter la startup israélienne AI21 après l'échec des négociations avec Nvidia
92The Information AI 

Nebius en discussions pour racheter la startup israélienne AI21 après l'échec des négociations avec Nvidia

Nebius, fournisseur cloud soutenu par Nvidia et valorisé à 32 milliards de dollars, est en discussions pour racheter la startup israélienne AI21 Labs, selon des sources proches du dossier. La société, basée à Amsterdam, cherche à élargir ses services d'intelligence artificielle au-delà de son activité principale de location de serveurs GPU. AI21 Labs, dont la dernière valorisation connue était de 1,4 milliard de dollars en 2023, développe des grands modèles de langage et des systèmes d'agents pour les entreprises. Ce rachat potentiel permettrait à Nebius de monter dans la chaîne de valeur de l'IA, en passant de simple infrastructure à fournisseur de solutions logicielles complètes. Pour ses clients, cela signifierait un accès intégré à des modèles et outils d'IA directement via la plateforme cloud, sans passer par des tiers. Pour AI21 Labs, une acquisition représente une issue après l'échec d'une précédente tentative de vente à Nvidia, qui ne s'était pas concrétisée. AI21 Labs fait partie de la première vague de startups israéliennes spécialisées en IA générative, concurrente directe d'OpenAI et Anthropic sur le segment entreprise. La startup avait levé des fonds auprès d'investisseurs majeurs dont Google, Intel Capital et Nvidia lui-même. Le secteur cloud connaît une consolidation accélérée, les fournisseurs d'infrastructure cherchant à intégrer verticalement des capacités IA pour fidéliser leurs clients face à la concurrence d'AWS, Azure et Google Cloud.

UENebius étant basée à Amsterdam, ce rachat potentiel renforcerait la position d'un acteur cloud ancré en Europe dans la chaîne de valeur de l'IA générative enterprise.

BusinessActu
1 source
Affinage par renforcement sur Amazon Bedrock : bonnes pratiques
93AWS ML Blog 

Affinage par renforcement sur Amazon Bedrock : bonnes pratiques

Amazon a intégré le Reinforcement Fine-Tuning (RFT) à sa plateforme Bedrock, permettant aux entreprises de personnaliser ses modèles maison Amazon Nova ainsi que plusieurs modèles open source sans avoir besoin de vastes jeux de données étiquetés. Selon les résultats publiés par l'entreprise, cette technique peut générer jusqu'à 66 % de gain de précision par rapport aux modèles de base, à un coût et une complexité réduits. Concrètement, le RFT fonctionne différemment de l'apprentissage supervisé classique : au lieu de s'entraîner sur des paires entrée/sortie correctes, le modèle génère des réponses candidates, qui sont ensuite notées par une fonction de récompense, et ses paramètres sont mis à jour pour favoriser les réponses les mieux notées. Cette boucle itéractive, générer, scorer, ajuster, permet au modèle de découvrir des stratégies que de simples exemples statiques ne pourraient pas lui enseigner. La fonction de récompense est implémentée via AWS Lambda, directement appelée par Bedrock pendant l'entraînement. Cette approche ouvre des possibilités concrètes pour deux grandes familles de tâches. D'un côté, les tâches à critères vérifiables automatiquement : génération de code devant passer des tests unitaires, raisonnement mathématique avec réponses exactes, extraction de données structurées devant respecter un schéma strict, ou orchestration d'API. C'est ce qu'Amazon appelle le RLVR (Reinforcement Learning with Verifiable Rewards). De l'autre côté, les tâches subjectives comme la modération de contenu, les chatbots ou la rédaction créative, où un modèle juge évalue les sorties selon une grille d'évaluation détaillée, approche baptisée RLAIF (Reinforcement Learning with AI Feedback). Pour les équipes techniques, l'intérêt est d'éviter la collecte laborieuse de milliers d'exemples annotés, particulièrement difficile à réaliser pour des tâches de raisonnement complexe où l'expertise humaine est coûteuse. Le RFT s'inscrit dans une tendance lourde de l'industrie IA depuis les succès de DeepSeek-R1 début 2025, qui avait démontré que l'entraînement par renforcement sur des tâches vérifiables pouvait produire des capacités de raisonnement spectaculaires à moindre coût. Amazon emboîte le pas en industrialisant cette technique dans un service cloud managé, ce qui la rend accessible aux équipes sans infrastructure d'entraînement propre. En proposant RFT directement dans Bedrock avec des métriques de suivi intégrées et des guidelines de tuning d'hyperparamètres, Amazon cherche à s'imposer face à Azure et Google Cloud sur le segment de la personnalisation de modèles en entreprise. Le dataset GSM8K, utilisé comme exemple de référence dans la documentation, illustre bien l'ambition : transformer des modèles généralistes en spécialistes fiables sur des domaines métier précis, sans expertise en machine learning approfondie.

UELes entreprises européennes sur AWS peuvent désormais affiner des modèles IA sans jeux de données annotés massifs ni infrastructure ML propre, abaissant la barrière d'entrée pour la personnalisation de modèles en production.

OutilsOutil
1 source
Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride
94AWS ML Blog 

Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride

Amazon a présenté une approche technique détaillée pour construire des assistants d'IA générative de nouvelle génération, combinant Amazon Bedrock, Amazon Bedrock AgentCore, le framework Strands Agents et Amazon OpenSearch dans une architecture dite "RAG hybride" (Retrieval-Augmented Generation). Ces systèmes, plus sophistiqués que de simples chatbots, sont capables de mener des conversations en plusieurs étapes, d'adapter leurs réponses aux besoins spécifiques de chaque utilisateur, et d'exécuter des tâches en arrière-plan telles que des appels d'API ou des requêtes en base de données en temps réel. L'exemple concret illustré dans l'article est celui d'un assistant de réservation hôtelière : l'agent interroge d'abord une base de données pour identifier les établissements correspondant aux critères du client, puis effectue des appels API pour récupérer disponibilités et tarifs actuels, avant de synthétiser ces informations dans une réponse cohérente. Le coeur de l'innovation réside dans la combinaison de deux approches de recherche d'information : la recherche textuelle classique par mots-clés et la recherche sémantique vectorielle. Cette dernière repose sur des embeddings vectoriels précalculés, stockés dans des bases de données vectorielles comme OpenSearch, qui permettent de trouver des résultats pertinents même lorsque les termes exacts ne correspondent pas. Le système convertit la requête de l'utilisateur en vecteur numérique et identifie les contenus les plus proches dans un espace à haute dimension, en utilisant des métriques de distance comme la similarité cosinus. Un exemple frappant illustre la puissance de cette approche : pour la requête "2x4 lumber board", le système sémantique identifie "building materials" comme résultat pertinent, là où une recherche lexicale aurait échoué. Cette capacité d'alignement sémantique est particulièrement précieuse pour les entreprises dont les bases de connaissances métier utilisent une terminologie différente de celle employée par leurs clients. Cette publication s'inscrit dans la stratégie d'Amazon Web Services de positionner Bedrock comme la plateforme centrale pour le déploiement d'agents d'IA en entreprise. Le RAG hybride répond à un défi bien documenté des LLMs : leur incapacité à accéder nativement à des données récentes ou propriétaires. En greffant une couche de récupération dynamique sur des modèles comme ceux disponibles via Bedrock, AWS propose une alternative aux solutions de fine-tuning, plus coûteuses et moins flexibles. La concurrence dans ce segment est intense, avec des offres similaires chez Microsoft Azure (Azure AI Search) et Google Cloud (Vertex AI Search). L'intégration native d'OpenSearch dans cet écosystème renforce l'attrait pour les entreprises déjà clientes AWS, tandis que l'introduction de Bedrock AgentCore signale une montée en gamme vers des architectures multi-agents plus complexes, capables d'orchestrer plusieurs outils et sources de données simultanément.

OutilsOutil
1 source
Créer un agent FinOps avec Amazon Bedrock AgentCore
95AWS ML Blog 

Créer un agent FinOps avec Amazon Bedrock AgentCore

Amazon a dévoilé une solution clé en main pour construire un agent FinOps basé sur Amazon Bedrock AgentCore, permettant aux équipes financières de gérer les coûts AWS à travers plusieurs comptes via une interface conversationnelle unique. L'architecture repose sur Claude Sonnet 4.5 d'Anthropic, le Strands Agent SDK et le protocole MCP (Model Context Protocol), déployée via AWS CDK. L'agent consolide les données de trois services AWS — Cost Explorer, Budgets et Compute Optimizer — et propose plus de 20 outils spécialisés couvrant l'intégralité du spectre de la gestion des coûts cloud. La mémoire conversationnelle conserve jusqu'à 30 jours de contexte, permettant des questions de suivi sans répéter les informations préalables. Concrètement, cette solution élimine la nécessité pour les équipes finance et DevOps de naviguer manuellement entre plusieurs consoles AWS pour obtenir une vue consolidée des dépenses. Un responsable peut simplement demander "Quels sont mes principaux postes de dépenses ce mois-ci ?" et obtenir une réponse immédiate, sans requêtes SQL ni exports manuels. L'authentification repose sur Amazon Cognito (gestion des utilisateurs et flux OAuth 2.0 machine-à-machine), tandis qu'AWS Amplify héberge l'interface web. L'accès en langage naturel démocratise la visibilité sur les coûts cloud à l'ensemble de l'organisation, y compris aux profils non techniques — un enjeu majeur dans les entreprises où la facture AWS est souvent opaque pour les décideurs métier. Le FinOps — la pratique de gouvernance financière du cloud — est devenu un domaine à part entière alors que les dépenses cloud des entreprises ont explosé ces cinq dernières années, rendant le suivi des coûts multi-comptes complexe et chronophage. Amazon Bedrock AgentCore, lancé récemment par AWS, est la réponse d'Amazon à la vague d'agents IA d'entreprise : une plateforme d'exécution managée pour déployer des agents LLM avec mémoire, outils et identité gérés nativement. Cette solution illustre parfaitement la stratégie d'AWS de transformer ses propres services (Cost Explorer, Compute Optimizer) en sources de données accessibles via des agents IA, réduisant la friction d'adoption. La concurrence s'intensifie sur ce segment : Microsoft Copilot pour Azure Cost Management et Google Cloud Carbon Footprint poursuivent des ambitions similaires. La prochaine étape logique sera l'automatisation des recommandations d'optimisation, passant d'un agent qui répond à des questions à un agent qui agit directement sur l'infrastructure pour réduire les coûts.

UELes entreprises françaises et européennes utilisant AWS peuvent simplifier leur gestion de coûts cloud multi-comptes via cet agent, sans impact réglementaire ou institutionnel spécifique.

OutilsOutil
1 source
AWS lance des agents autonomes pour les tests de sécurité et les opérations cloud
96AWS ML Blog 

AWS lance des agents autonomes pour les tests de sécurité et les opérations cloud

Amazon Web Services a annoncé la disponibilité générale de deux agents autonomes d'intelligence artificielle lors de son événement re:Invent : AWS Security Agent, dédié aux tests d'intrusion, et AWS DevOps Agent, spécialisé dans les opérations cloud. Ces systèmes appartiennent à une nouvelle catégorie baptisée « frontier agents » — des IA capables de travailler de façon autonome pendant des heures, voire des jours, sans supervision humaine continue. Selon AWS, les retours des clients en phase de préversion sont significatifs : AWS Security Agent réduit les délais de tests de pénétration de plusieurs semaines à quelques heures, tandis qu'AWS DevOps Agent accélère la résolution d'incidents de 3 à 5 fois. Des entreprises comme Bamboo Health et HENNGE K.K. témoignent de résultats concrets, cette dernière affirmant avoir réduit la durée de ses cycles de sécurité de plus de 90 %. L'enjeu pour les équipes de sécurité et d'exploitation est majeur. La plupart des organisations ne peuvent aujourd'hui faire réaliser des tests de pénétration manuels que sur leurs applications les plus critiques, faute de temps et de budget — laissant la majorité de leur portefeuille logiciel vulnérable entre deux cycles d'audit. AWS Security Agent change cette équation en analysant le code source, les diagrammes d'architecture et la documentation pour reconstituer des chaînes d'attaque complexes que les scanners traditionnels ne détectent pas. Côté opérations, AWS DevOps Agent s'intègre avec les principaux outils du marché — CloudWatch, Datadog, Dynatrace, Splunk, Grafana, GitHub, GitLab — et corrèle télémétrie, code et données de déploiement pour identifier la cause racine d'un incident, qu'il s'agisse d'infrastructures AWS, Azure, hybrides ou on-premise. Pour les équipes SRE débordées, c'est la promesse d'un coéquipier disponible en permanence. Ces annonces s'inscrivent dans une course à l'automatisation des opérations IT qui s'intensifie depuis l'essor des grands modèles de langage. Les hyperscalers — AWS, Microsoft Azure, Google Cloud — cherchent tous à proposer des agents capables de gérer des tâches complexes et durables, au-delà des simples assistants conversationnels. AWS positionne explicitement ces outils non comme des aides ponctuelles, mais comme de véritables extensions de l'équipe humaine, capables de prendre des décisions en plusieurs étapes sans intervention constante. Amy Herzog, vice-présidente et RSSI d'AWS, indique que l'entreprise utilise elle-même AWS Security Agent en interne. La question qui se posera à mesure de l'adoption est celle de la gouvernance : jusqu'où déléguer à une IA des décisions critiques sur la sécurité ou la stabilité des systèmes de production ?

UELes entreprises européennes utilisant AWS peuvent adopter ces agents pour réduire leurs coûts et délais de tests de sécurité, mais la délégation de décisions critiques à une IA soulève des questions de conformité avec le RGPD et l'AI Act.

OutilsOutil
1 source
Microsoft lance un agent Azure Copilot pour accélérer la planification des migrations cloud
97InfoQ AI 

Microsoft lance un agent Azure Copilot pour accélérer la planification des migrations cloud

Microsoft a lancé l'Azure Copilot Migration Agent, un assistant IA intégré directement au portail Azure, destiné à accélérer la planification des migrations vers le cloud. L'outil automatise trois tâches clés : la découverte sans agent des environnements VMware, la planification de migration et la création de zones d'atterrissage (landing zones). Présenté comme disponible en général (GA), le service est en réalité toujours en préversion publique — une nuance importante que Microsoft n'a pas mise en avant. La promesse est de réduire significativement le temps consacré à la phase d'évaluation et de préparation, souvent la plus fastidieuse des projets de migration cloud. Pour les équipes IT gérant des parcs VMware importants, la découverte automatique des machines virtuelles sans installation d'agent représente un gain opérationnel réel. Cependant, l'outil ne peut pas exécuter les migrations lui-même : la réplication des données et le basculement (cutover) restent des opérations manuelles dans Azure Migrate, ce qui limite son périmètre à la planification seule. Ce lancement s'inscrit dans un contexte favorable à Microsoft : depuis le rachat de VMware par Broadcom en 2023 et la hausse brutale des licences qui a suivi, de nombreuses entreprises cherchent à migrer leurs workloads vers des alternatives cloud. Azure est l'un des principaux bénéficiaires de cet exode, aux côtés d'AWS et Google Cloud. En automatisant la phase de planification, Microsoft cherche à abaisser la barrière d'entrée et à accélérer les décisions de migration — tout en restant prudent sur ce qu'il promet réellement livrer à ce stade.

UELes entreprises françaises et européennes contraintes de quitter VMware suite aux hausses de licences Broadcom peuvent utiliser cet outil pour accélérer leur planification de migration vers Azure.

OutilsActu
1 source
L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt
98Frandroid 

L’IA de Google peut désormais créer des musiques de 3 minutes avec un simple prompt

Google a élargi les capacités de Lyria, son modèle d'intelligence artificielle dédié à la génération audio, en portant la durée maximale des compositions musicales à trois minutes à partir d'un simple prompt textuel. Cette mise à jour, annoncée début 2026, représente un bond significatif par rapport aux extraits courts que l'outil produisait jusqu'alors, et positionne Lyria comme un concurrent direct des solutions de génération musicale longue durée déjà sur le marché. Cette évolution ouvre des possibilités concrètes pour les créateurs de contenu, les développeurs de jeux vidéo, les réalisateurs indépendants et les professionnels du marketing qui cherchent à générer rapidement des habillages sonores sans faire appel à des compositeurs. Trois minutes correspondent à la durée standard d'une chanson pop ou d'un générique, ce qui rend l'outil directement exploitable dans des productions réelles, sans post-traitement nécessaire. Lyria s'inscrit dans la course effrénée que se livrent les grandes entreprises technologiques sur le terrain de la création audio générative. Suno et Udio avaient ouvert la voie avec des titres complets incluant paroles et voix, tandis que Meta et OpenAI développent également leurs propres approches. Google, fort de ses décennies de recherche en traitement du signal et de ses infrastructures TPU, cherche à s'imposer comme la référence professionnelle du secteur, notamment via son intégration dans l'écosystème YouTube et Google Cloud.

UELes créateurs de contenu, réalisateurs indépendants et développeurs de jeux européens disposent désormais d'un outil de génération musicale complète (3 minutes) directement exploitable dans leurs productions sans recourir à des compositeurs.

OutilsOutil
1 source
ElevenLabs et IBM unissent leurs forces pour des agents IA vocaux
99Le Big Data 

ElevenLabs et IBM unissent leurs forces pour des agents IA vocaux

ElevenLabs et IBM ont annoncé le 25 mars 2026 un partenariat stratégique visant à intégrer les technologies vocales d'ElevenLabs — synthèse vocale (TTS) et reconnaissance vocale (STT) — à IBM WatsonX Orchestrate, la plateforme unifiée d'IBM pour la création, le déploiement et la gestion d'agents IA. Concrètement, les clients d'IBM auront accès à un catalogue de plus de 10 000 voix générées par IA, avec des garanties de conformité de niveau entreprise : certification PCI, mode « Zéro rétention » pour les données HIPAA, et résidence des données configurable. ElevenLabs, fondée en janvier 2023, compte aujourd'hui plus de 10 millions d'utilisateurs enregistrés et plus d'un million d'utilisateurs actifs quotidiens. Sa base de clients entreprise est passée d'environ 50 à 500 en dix-huit mois, signe d'une adoption rapide dans les secteurs exigeants. Ce partenariat marque un tournant concret dans la façon dont les entreprises déploient leurs agents conversationnels. Jusqu'ici, la majorité des agents IA en entreprise fonctionnaient en mode texte — chatbots, assistants intégrés aux workflows. L'ajout d'une couche vocale expressive et multilingue change radicalement l'expérience utilisateur : les banques, assureurs, établissements de santé ou fournisseurs d'énergie peuvent désormais proposer une assistance vocale naturelle, dans plusieurs langues et accents régionaux, sans sacrifier la conformité réglementaire. Les administrations publiques y voient également un levier pour informer leurs citoyens dans des contextes sensibles — santé, services sociaux, éducation — avec une accessibilité accrue. Comme le résume Nick Holda, vice-président des partenariats technologiques IA chez IBM : « Nos clients veulent des expériences intuitives et accessibles. » Ce rapprochement s'inscrit dans une tendance de fond : la voix devient le prochain front de bataille pour les agents IA en entreprise. IBM, déjà solide sur l'orchestration des agents et la gestion des données d'entreprise via WatsonX, manquait d'une brique vocale crédible. ElevenLabs apporte exactement cela — une synthèse vocale réputée quasi humaine, déjà adoptée massivement dans les médias, le divertissement et l'éducation. Pour ElevenLabs, l'alliance avec IBM ouvre l'accès aux grands comptes dans des secteurs régulés (finance, santé, télécoms) où sa crédibilité seule n'aurait pas suffi à convaincre les directions des systèmes d'information. Mati Staniszewski, cofondateur d'ElevenLabs, l'a dit sans détour : « C'est par la voix que l'IA gagne ou perd la confiance. » La suite logique pourrait inclure une intégration plus profonde avec Red Hat OpenShift et les environnements cloud hybrides d'IBM, positionnant les deux entreprises face à des concurrents comme Microsoft Azure AI Speech ou Google Cloud Text-to-Speech sur le marché des agents vocaux d'entreprise.

UELes garanties de conformité (résidence des données configurable, mode zéro rétention) et le support multilingue ouvrent des perspectives pour les entreprises et administrations européennes des secteurs régulés, en cohérence avec les exigences du RGPD.

OutilsOutil
1 source
Comment les agents IA autonomes deviennent sécurisés par conception grâce à NVIDIA OpenShell
100NVIDIA AI Blog 

Comment les agents IA autonomes deviennent sécurisés par conception grâce à NVIDIA OpenShell

NVIDIA lance OpenShell, un runtime open source intégré à l'NVIDIA Agent Toolkit, conçu pour exécuter des agents autonomes dans des sandboxes isolées avec des politiques de sécurité appliquées au niveau système — hors de portée des agents eux-mêmes. Cette architecture empêche les agents de contourner les contraintes, de fuiter des identifiants ou des données sensibles, même en cas de compromission. NVIDIA collabore avec Cisco, CrowdStrike, Google Cloud, Microsoft Security et TrendAI pour aligner la gestion des politiques runtime à l'échelle des entreprises, tandis que NemoClaw fournit une stack de référence open source combinant OpenShell et les modèles Nemotron pour déployer des assistants IA personnels auto-évolutifs.

OutilsActu
1 source