Aller au contenu principal

Google Cloud· sujet

139 articlesmis à jour le 2026-06-09

Suivi de l'actualité IA de Google Cloud : Vertex AI, modèles Gemini, infrastructure, annonces et déploiements pour les entreprises.

Hub d'actualité sur Google Cloud, agrégé en continu depuis 72 sources éditoriales. Pour les analyses long-form, voir /analyses.

Le pouls du sujet · 30 derniers jours

données Le Fil IA
40 35%
articles (vs 30j préc.)
3.1%
de la couverture IA
Souvent associé à

Mesuré sur notre corpus de 50+ sources, fenêtre glissante de 30 jours. Part de voix = part des articles IA de la période mentionnant Google Cloud. Voir le Baromètre IA complet

À retenir · 30 derniers jours

Google Cloud occupe une place particulière dans la course à l'IA : ce n'est ni un laboratoire de modèles pur, ni un simple hébergeur. C'est l'endroit où Google transforme sa recherche (Gemini, DeepMind) en produits que les entreprises peuvent réellement déployer. Le trio TPU maison, modèles Gemini intégrés et offre cloud managée lui donne un avantage rare : maîtriser toute la chaîne, du silicium à l'API facturée à l'usage.

Pour un décideur, c'est ce qui compte au quotidien. Google Cloud est l'un des trois fournisseurs (avec AWS et Azure) où se jouent les vrais choix d'infrastructure IA : sur quel cloud entraîner, où faire tourner l'inférence, comment respecter les contraintes de localisation des données en Europe. Vertex AI, Gemini Enterprise et les briques d'agents y sont les outils concrets que les équipes techniques manipulent, au-delà des annonces de keynote.

Sa position durable tient à cette intégration verticale et à une base installée massive (Workspace, Search, Android) qui sert de terrain de déploiement naturel pour ses modèles.

Dans ce hub, on suit la trajectoire de fond : capacité des TPU face aux GPU Nvidia, montée en puissance de Vertex et des agents, tarification de l'inférence et garanties de souveraineté pour les clients européens.

Toute l'actualité Google Cloud

Flux automatique. Articles classés par pertinence, agrégés en continu.

Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture
1VentureBeat AI LLMsOpinion

Les agents IA embarqués se heurtent à une limite mémoire, qu'Apple contourne avec sa nouvelle architecture

Apple a annoncé lors de la WWDC26 sa troisième génération de modèles de fondation, la famille AFM 3, développée en collaboration avec Google. Cette famille comprend cinq modèles : deux fonctionnant en local sur l'appareil et trois hébergés côté serveur, dont AFM 3 Cloud Pro, dédié aux tâches agentiques complexes et s'exécutant sur des GPU Nvidia dans Google Cloud. La pièce maîtresse de l'annonce est AFM 3 Core Advanced, un modèle de 20 milliards de paramètres conçu pour tourner directement sur les appareils Apple, et dont l'architecture rompt radicalement avec les contraintes habituelles de l'IA embarquée. Plutôt que de stocker l'ensemble des poids du modèle en mémoire vive (DRAM), Apple les place en mémoire flash NAND, la même technologie utilisée pour le stockage interne des iPhone et Mac. Un petit modèle auxiliaire prédit, à partir du prompt, quels "experts" charger depuis la flash vers la RAM avant de générer la réponse. Le nombre de paramètres actifs varie ainsi entre 1 et 4 milliards selon la complexité de la tâche, tous puisés dans le réservoir de 20 milliards stocké en flash. Cette approche lève un verrou fondamental qui bridait l'IA on-device depuis ses débuts : la capacité limitée de la DRAM contraint aujourd'hui les modèles embarqués à quelques milliards de paramètres au maximum, très loin des capacités des modèles cloud. En déplaçant le stockage vers la flash et en ne chargeant en RAM que les experts pertinents pour chaque requête, Apple ouvre la voie à des modèles locaux sensiblement plus puissants, sans dépendance permanente au réseau. Pour les développeurs d'applications, cela signifie potentiellement accéder à des capacités de raisonnement et d'outil use jusqu'ici réservées au cloud, tout en conservant les garanties de confidentialité du Private Cloud Compute d'Apple. La contrainte technique centrale que l'architecture contourne est celle de la bande passante flash-vers-RAM : dans un modèle Mixture of Experts classique, le routeur sélectionne des experts différents à chaque token généré, une cadence bien trop rapide pour la NAND. Apple résout ce problème en effectuant le routage une seule fois par prompt, chargeant un ensemble fixe d'experts pour toute la génération de la réponse. Awni Hannun, chercheur chez Anthropic et ancien scientifique chez Apple, a salué l'approche sur X tout en soulignant son caractère "exotique par rapport aux standards actuels". Des zones d'ombre demeurent cependant : selon Marco Abis, développeur du profileur Ziraph pour Apple Silicon, la documentation d'Apple ne précise ni la consommation énergétique, ni la bande passante mémoire, ni le comportement thermique du modèle, ni les conditions dans lesquelles une requête locale est silencieusement redirigée vers le cloud.

UELa fonctionnalité de traitement on-device avec garanties de confidentialité intégrées facilite potentiellement la conformité RGPD pour les développeurs européens déployant des applications IA sur appareils Apple.

1 source
Premier avis de sinistre automatisé : Strands Agents et Amazon Bedrock AgentCore pour un traitement intelligent des déclarations
2AWS ML Blog 

Premier avis de sinistre automatisé : Strands Agents et Amazon Bedrock AgentCore pour un traitement intelligent des déclarations

Amazon Web Services a présenté un système d'automatisation de la déclaration de sinistre initiale (FNOL, ou "First Notice of Loss") combinant deux de ses technologies : le SDK open source Strands Agents et l'outil Amazon Bedrock AgentCore Browser Tool. Le dispositif s'appuie également sur Amazon Nova Act, un client capable d'interpréter des instructions en langage naturel pour piloter des interfaces web. Concrètement, Nova Act orchestre les interactions avec les portails de gestion de sinistres, ouvrir un dossier non traité, déclencher une analyse d'images, tandis que les agents construits avec Strands Agents appliquent les règles métier propres à l'assurance : interprétation des preuves, corrélation entre différents types de médias, évaluation de la complexité du dossier. Les modèles de fondation sont servis via Amazon Bedrock, et les sessions de navigation sont gérées dans des environnements Chrome isolés, avec enregistrement et visualisation en temps réel pour garantir la traçabilité. L'enjeu est considérable pour les compagnies d'assurance. À chaque déclaration de sinistre, les experts reçoivent un ensemble hétérogène d'informations non structurées : photos prises sur le terrain, vidéos panoramiques des dégâts, documents scannés, notes dictées ou enregistrées. Avant même de pouvoir exercer leur jugement, ils doivent naviguer dans des portails, vérifier l'exhaustivité des pièces justificatives et interpréter manuellement chaque élément. Les estimations sectorielles indiquent que cette phase de validation représente une part significative du temps d'un expert lors du traitement initial d'un dossier. Lors de pics de sinistres, catastrophes naturelles, vagues saisonnières, ces délais s'accumulent, créent des files d'attente et dégradent l'expérience client. Le système proposé délivre aux experts des dossiers pré-analysés, avec les preuves étiquetées et contextualisées, prêts pour la prise de décision plutôt que pour la validation. Cette initiative s'inscrit dans un mouvement plus large d'automatisation des processus assurantiels par l'IA générative, un secteur où les grands acteurs du cloud, AWS, Microsoft Azure, Google Cloud, se livrent une concurrence intense pour conquérir les équipes claims et underwriting. L'approche d'AWS est notable car elle ne cherche pas à remplacer l'expert humain mais à éliminer le travail répétitif d'écran, en préservant la supervision et l'auditabilité. Les données d'intake étiquetées deviennent également un actif opérationnel durable, utilisable pour affiner le routage des dossiers, détecter des patterns de fraude ou améliorer les workflows sur l'ensemble du cycle de vie des sinistres. La prochaine étape naturelle sera l'intégration avec des systèmes de gestion de sinistres existants comme Guidewire ou Duck Creek, où la valeur de l'automatisation multimodale sera pleinement testée à l'échelle.

UELes assureurs européens pourraient adopter ces outils pour automatiser le traitement initial des sinistres, mais la conformité RGPD et la souveraineté des données constituent des obstacles réglementaires à évaluer avant tout déploiement.

OutilsOutil
1 source
Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles
3AWS ML Blog 

Les clés de la flexibilité de l'IA en Europe : guide sur l'inférence interrégionale pour le traitement des données et l'accès aux modèles

Amazon Web Services a introduit une fonctionnalité appelée Cross-Region Inference (CRIS) dans Amazon Bedrock, son service d'IA générative managé, permettant aux entreprises européennes de router automatiquement leurs requêtes d'inférence vers plusieurs régions AWS au sein de zones géographiques prédéfinies. Concrètement, lorsqu'une application envoie une requête à un modèle comme Claude d'Anthropic ou un modèle Amazon Nova, CRIS peut la rediriger dynamiquement vers la région disposant de la meilleure capacité disponible, tout en maintenant les données dans un périmètre géographique contrôlé. Pour l'Europe, AWS propose des profils EU CRIS dont toutes les régions de destination sont situées exclusivement au sein de l'Union européenne. Les données transmises restent chiffrées et circulent uniquement sur le réseau privé AWS, sans jamais transiter par l'internet public. Ce mécanisme répond à un problème concret que rencontrent les entreprises européennes : la saturation des capacités de calcul GPU en période de forte demande, qui se traduit par des latences élevées ou des erreurs de disponibilité. En distribuant les requêtes sur plusieurs régions, les applications deviennent plus résilientes aux pics de charge et aux pannes locales. Du point de vue réglementaire, les profils EU CRIS sont conçus pour faciliter la conformité au RGPD, puisque le traitement reste borné à l'UE, un critère déterminant pour les secteurs soumis à des exigences strictes de résidence des données comme la finance, la santé ou les services publics. AWS souligne également que certains modèles sont disponibles à tarif réduit via les profils globaux CRIS, ajoutant un argument économique à l'argument technique. La pression réglementaire européenne sur le traitement des données par des fournisseurs cloud américains s'est intensifiée ces dernières années, notamment après les décisions de la CJUE sur les transferts transatlantiques de données. Les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure ont tous investi massivement dans des infrastructures européennes et des offres de souveraineté pour répondre à ces contraintes. CRIS s'inscrit dans cette logique : plutôt que de forcer les clients à choisir une seule région et à subir ses limitations de capacité, AWS propose une abstraction qui optimise automatiquement tout en respectant les frontières réglementaires. La prochaine étape logique sera l'extension de ces profils géographiques à d'autres zones comme le Moyen-Orient ou l'Asie-Pacifique, et l'intégration de contrôles plus fins permettant aux entreprises de définir elles-mêmes les régions autorisées selon leurs obligations contractuelles ou sectorielles.

UELa fonctionnalité EU CRIS d'AWS Bedrock permet aux entreprises européennes de maintenir leurs traitements d'inférence IA exclusivement dans les frontières de l'UE, facilitant la conformité RGPD pour les secteurs finance, santé et services publics soumis à des exigences strictes de résidence des données.

InfrastructureOpinion
1 source
IBM et Google Cloud veulent accélérer l’adoption de l’IA dans les entreprises
4Le Big Data 

IBM et Google Cloud veulent accélérer l’adoption de l’IA dans les entreprises

IBM et Google Cloud ont annoncé le 4 juin 2026 une expansion significative de leur partenariat stratégique, avec le lancement d'une Google Cloud Practice dédiée au sein d'IBM Consulting. Cette nouvelle entité regroupe des milliers de consultants IBM certifiés Google Cloud ainsi que des équipes d'ingénierie spécialisées, avec pour mission d'accompagner les grandes organisations dans le déploiement d'agents IA à l'échelle industrielle. Concrètement, les deux groupes combinent la plateforme Gemini Enterprise Agent de Google Cloud avec l'expertise sectorielle d'IBM Consulting pour couvrir huit domaines prioritaires : banque, assurance, administrations publiques, télécommunications, énergie, commerce de détail, cybersécurité et sciences de la vie. Les consultants IBM pourront désormais concevoir, déployer et gérer directement des agents IA sur l'infrastructure Google Cloud, en s'appuyant sur des composants préconfigurés et des méthodologies éprouvées. L'enjeu est de résoudre l'un des blocages les plus coûteux de l'industrie : la difficulté à transformer les projets pilotes en déploiements opérationnels rentables. De nombreuses entreprises ont expérimenté l'IA sans parvenir à en extraire une valeur concrète à grande échelle, faute d'intégration avec les systèmes critiques existants et de garanties suffisantes en matière de gouvernance et de conformité réglementaire. En proposant un cadre commun avec des agents sectoriels préconstruits, IBM et Google entendent réduire drastiquement le délai entre la conception et la mise en production, tout en permettant aux organisations d'automatiser des processus métiers complexes sans multiplier les développements sur mesure. Pour les secteurs fortement réglementés comme la finance ou la santé, la promesse est d'intégrer l'IA aux flux de travail existants tout en respectant les contraintes légales et sécuritaires. Cette initiative s'inscrit dans une tendance de fond qui voit les grands acteurs du cloud et du conseil former des alliances de plus en plus intégrées pour capter le marché de l'IA d'entreprise, estimé à plusieurs milliards de dollars. IBM, qui a repositionné une large partie de sa stratégie autour du conseil en transformation numérique depuis la cession de son activité infrastructure à Kyndryl en 2021, cherche à capitaliser sur sa présence dans les grandes entreprises pour distribuer les technologies de ses partenaires cloud. Google Cloud, de son côté, intensifie la mise en marché de Gemini via des alliances avec des intégrateurs disposant d'une relation de confiance établie avec les directions générales et les DSI. La prochaine étape attendue sera la mise sur le marché effective de ces agents sectoriels et les premiers retours de déploiements en production, qui conditionneront la crédibilité commerciale de cette alliance face à des concurrents comme Microsoft et Accenture ou AWS et Deloitte.

UELes secteurs prioritaires visés, banque, assurance et administrations publiques, sont au cœur de l'économie française et européenne, et ce cadre commun d'agents IA devra se conformer à l'AI Act et au RGPD, ce qui en fait un cas d'usage directement pertinent pour les DSI européens.

💬 Le vrai problème des pilotes IA qui restent des pilotes, IBM et Google s'y attaquent enfin avec du concret. Des milliers de consultants certifiés, des agents préconstruits par secteur, un cadre commun qui évite de tout recoder à chaque client, c'est le genre d'approche qui peut débloquer des grands comptes paralysés depuis deux ans sur les mêmes questions de conformité. Reste à voir ce que ça donne en prod, parce que Microsoft et Accenture ne regardent pas ça les bras croisés.

BusinessOpinion
1 source
IA d’entreprise : Snowflake et Anthropic renforcent la gouvernance des modèles IA
5Le Big Data 

IA d’entreprise : Snowflake et Anthropic renforcent la gouvernance des modèles IA

Snowflake et Anthropic ont annoncé le 2 juin 2026, lors du Snowflake Summit 2026, un renforcement significatif de leur partenariat autour de l'IA d'entreprise. Concrètement, les modèles Claude d'Anthropic s'intègrent désormais plus profondément dans Snowflake Cortex AI, notamment pour alimenter Snowflake Cortex Code et Snowflake Intelligence. L'objectif est de permettre aux organisations de déployer des agents IA directement dans leur environnement de données existant, sans avoir à externaliser ou déplacer des données sensibles. Des entreprises comme Block, Indeed, Carvana, Notion ou eSentire utilisent déjà cette combinaison en production. Christian Kleinerman, EVP Product chez Snowflake, a indiqué que Snowflake Cortex Code serait devenu le produit à la croissance la plus rapide de toute l'histoire du groupe. L'enjeu central de ce partenariat est la gouvernance : les entreprises des secteurs réglementés, finance, santé, cybersécurité, retail, ne peuvent pas déployer l'IA sur des données critiques sans garanties fortes en matière de sécurité, de conformité et de traçabilité. En combinant la couche de gouvernance et de contrôle d'accès de Snowflake avec les capacités de raisonnement de Claude, les deux groupes proposent une architecture où le modèle devient une extension native de la plateforme data de l'entreprise plutôt qu'un outil externe. Cela change concrètement le profil de risque de l'IA générative pour les décideurs : Block automatise ainsi des workflows de conformité pour Square et Cash App, eSentire automatise des analyses SOC de niveau 1 pour libérer ses analystes humains des tâches répétitives, et Carvana optimise ses opérations logistiques et financières grâce à cette architecture. Ce renforcement s'inscrit dans la continuité d'un accord élargi signé fin 2025, qui avait déjà permis l'intégration native de Claude dans Cortex AI sur les principaux clouds. Le marché de l'IA d'entreprise est en train de basculer d'une phase d'expérimentation vers des déploiements opérationnels à grande échelle, et plusieurs acteurs, Microsoft avec Azure OpenAI, Google avec Vertex AI, AWS avec Bedrock, se livrent une concurrence intense pour capter cette demande. Snowflake, en tant que plateforme data indépendante du cloud, joue une carte différente : celle de la neutralité et de la gouvernance centralisée. Anthropic, de son côté, accélère sa distribution en entreprise via des partenariats stratégiques plutôt que par une offre cloud propriétaire. Les prochaines étapes du partenariat devraient porter sur l'extension de Claude Marketplace au sein de l'écosystème Snowflake, ouvrant la porte à un modèle de distribution plus large pour les modèles d'Anthropic dans les environnements data d'entreprise.

UELes entreprises européennes des secteurs réglementés (finance, santé, cybersécurité) disposent d'une architecture permettant de déployer Claude directement dans leur environnement de données existant, sans externaliser de données sensibles, un argument clé pour la conformité RGPD.

OutilsOpinion
1 source
Les modèles OpenAI et Codex sont désormais disponibles sur Amazon Bedrock
6AWS ML Blog 

Les modèles OpenAI et Codex sont désormais disponibles sur Amazon Bedrock

OpenAI et Amazon Web Services ont rendu officiellement disponibles, début juin 2026, GPT-5.5, GPT-5.4 et l'agent de code Codex sur Amazon Bedrock, un mois après l'annonce de leur partenariat élargi. Les trois modèles sont désormais accessibles en production via le catalogue Bedrock, avec une tarification identique à celle pratiquée directement par OpenAI, sans frais supplémentaires. GPT-5.5, le modèle le plus avancé de la gamme, excelle dans les tâches agentiques complexes : rédaction et débogage de code sur de grandes bases, analyse de données, génération de documents, et exécution autonome de séquences multi-étapes. Codex, l'agent de développement logiciel d'OpenAI, comptabilise plus de 5 millions d'utilisateurs hebdomadaires et est désormais accessible via l'application Codex, le CLI, ainsi que les intégrations IDE pour Visual Studio Code, JetBrains et Xcode, avec toute l'inférence routée par Bedrock. Pour les entreprises, cette disponibilité générale représente un changement opérationnel concret : les appels aux modèles OpenAI s'intègrent désormais dans les engagements AWS existants, comptent dans les crédits contractuels, et bénéficient des mécanismes de gouvernance déjà en place, notamment les permissions IAM, l'isolation réseau via VPC et PrivateLink, le chiffrement KMS et les journaux d'audit CloudTrail. Bedrock garantit par ailleurs une file d'attente isolée par client avec gestion automatique de la capacité, ce qui assure une performance prévisible même sous forte charge. Fait notable pour les secteurs réglementés : les prompts et réponses ne sont pas utilisés pour entraîner les modèles, et ne sont pas partagés avec OpenAI. Amgen, le géant pharmaceutique, a déjà exprimé son intérêt, son directeur technique Sean Bruich soulignant la qualité et la consistance de GPT-5.5 pour des contextes où la précision scientifique est critique. Ce déploiement s'inscrit dans une dynamique de consolidation entre les grands fournisseurs de cloud et les développeurs de modèles frontière. OpenAI cherche à multiplier les canaux de distribution pour ses modèles, en s'appuyant sur les infrastructures cloud existantes pour atteindre des clients enterprise déjà engagés avec AWS, plutôt que de les forcer à migrer vers une API directe. Pour Amazon, intégrer GPT-5.5 aux côtés de ses propres modèles Titan et des offres Anthropic et Mistral déjà disponibles sur Bedrock renforce le positionnement de la plateforme comme guichet unique du marché des modèles. L'enjeu sous-jacent est la rétention des dépenses cloud enterprise : en faisant compter l'usage d'OpenAI dans les engagements AWS, les deux sociétés créent une friction supplémentaire contre la migration vers Azure ou Google Cloud, où GPT-5.5 est également accessible.

UELes entreprises européennes sous contrat AWS peuvent désormais accéder aux modèles GPT-5.5 et Codex via Bedrock avec des garanties de conformité adaptées au RGPD (données non utilisées pour l'entraînement, isolation réseau VPC, chiffrement KMS), facilitant l'adoption dans les secteurs réglementés.

Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP
7AWS ML Blog 

Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP

Amazon a annoncé cette semaine une extension significative des capacités d'AgentCore Gateway, son service de passerelle centralisée pour le protocole MCP (Model Context Protocol) au sein d'Amazon Bedrock. Les nouvelles fonctionnalités couvrent notamment la prise en charge étendue des schémas d'outils MCP, l'intégration des primitives MCP prompts et ressources, la découverte dynamique de serveurs MCP à l'exécution, la gestion de sessions pour les interactions temps réel, un mécanisme d'élicitation permettant des demandes d'entrée en cours d'exécution, et un échange de jetons OAuth 2.0 pour l'authentification déléguée. Ces ajouts s'appliquent à un service qui sert déjà de point d'entrée unique entre les serveurs MCP d'une organisation et les clients qui les consomment, en centralisant la gestion des identifiants, l'observabilité et la connectivité sécurisée. L'enjeu est directement opérationnel pour les équipes engineering en entreprise. Sans passerelle centralisée, chaque serveur MCP déployé, qu'il gère les contrats pour l'équipe juridique, les données financières ou les incidents opérationnels, doit gérer indépendamment ses propres mécanismes d'authentification, de contrôle d'accès et de journalisation. Cela multiplie les délais d'approbation, fragmente la visibilité sur l'usage des outils et oblige les équipes sécurité à auditer chaque serveur séparément. AgentCore Gateway réduit ce fardeau en laissant chaque équipe se concentrer sur la logique métier de son serveur MCP, tandis que la passerelle prend en charge tout le reste : agrégation des capacités, politiques d'accès basées sur les ressources, isolation réseau via AWS PrivateLink, logs d'audit centralisés, et guardrails déterministes via AgentCore Policy. MCP, le protocole lancé par Anthropic fin 2024 pour standardiser la façon dont les agents IA interagissent avec des outils et services externes, a rapidement été adopté par les grands acteurs du cloud, dont AWS, Microsoft et Google. Amazon intègre AgentCore Gateway dans son écosystème Bedrock, qui concurrence directement Azure AI et Google Cloud Vertex AI dans la course aux infrastructures d'agents IA en entreprise. La montée en puissance des architectures multi-agents, où plusieurs modèles coopèrent en orchestrant des dizaines d'outils, rend ce type de couche de gouvernance centrale de plus en plus stratégique. Les prochaines étapes probables incluent une intégration plus poussée avec les outils d'identité AWS IAM et une extension du support aux agents tiers via les flux OAuth 2.0 maintenant disponibles dans la passerelle.

InfrastructureOpinion
1 source
Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant
8AWS ML Blog 

Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant

Amazon Web Services vient d'annoncer une combinaison technique qui pourrait transformer le déploiement de grands modèles de langage en production : l'utilisation conjointe d'Amazon FSx for Lustre, de NVIDIA GPUDirect Storage (GDS) et d'une nouvelle technique de quantification appelée TurboQuant. Concrètement, charger un modèle comme Llama 3.1 405B, soit environ 800 gigaoctets de poids en BF16, prend aujourd'hui entre 10 et 20 minutes avec une infrastructure classique. Avec GDS sur les nouvelles instances P6 et P6e d'AWS, propulsées par l'architecture NVIDIA Blackwell, ce délai tombe à quelques secondes. Le flagship P6e UltraServer concentre 72 GPU Blackwell dans un seul domaine NVLink, avec 13,4 téraoctets de mémoire HBM3e et 360 pétaflops de calcul en FP8. Le problème que résout cette approche est fondamental pour l'industrie de l'inférence à grande échelle. Dans le pipeline traditionnel, les poids du modèle transitent séquentiellement depuis le stockage vers la RAM CPU, sont désérialisés, éventuellement quantifiés, puis copiés un par un vers chaque GPU via le bus PCIe. Pendant tout ce temps, parfois vingt minutes, les GPU les plus chers de l'infrastructure restent inactifs. GPUDirect Storage court-circuite entièrement ce chemin : les checkpoints du modèle sont pré-découpés en fragments sur FSx for Lustre, et les huit GPU d'une instance lisent leurs fragments en parallèle directement dans leur mémoire HBM, sans jamais passer par le CPU ni le PCIe. L'impact est immédiat sur trois métriques critiques : la latence au premier token lors d'un démarrage à froid, la réactivité de l'autoscaling lors des pics de charge, et le coût d'infrastructure lié aux GPU qui attendent. Cette annonce s'inscrit dans une course à l'optimisation de l'inférence LLM qui s'est intensifiée depuis l'émergence de modèles à plusieurs centaines de milliards de paramètres. Des frameworks comme vLLM ont certes amélioré le chargement parallèle des poids depuis la version 0.19 et son moteur V1, mais les données continuent d'emprunter le CPU et le bus PCIe, une limitation structurelle que GDS supprime à la racine. AWS introduit simultanément TurboQuant, une technique de mise en cache KV qui permet d'augmenter significativement la taille des fenêtres de contexte disponibles sur ces instances. Ces deux avancées combinées positionnent AWS comme un acteur offensif sur le marché de l'infrastructure d'inférence, face à des concurrents comme Google Cloud et Azure qui développent leurs propres accélérateurs et solutions de stockage haute performance pour répondre aux mêmes contraintes.

UELes entreprises européennes déployant des LLMs à grande échelle sur AWS pourront réduire significativement leurs coûts d'infrastructure liés aux GPU inactifs au démarrage, avec un impact direct sur la compétitivité des services d'inférence en Europe.

InfrastructureOpinion
1 source
Workday et Google Cloud déploient des agents IA pour les RH et la finance
9Le Big Data 

Workday et Google Cloud déploient des agents IA pour les RH et la finance

Workday et Google Cloud ont annoncé le 29 mai 2026 une extension significative de leur partenariat, visant à intégrer les agents IA de Workday directement dans Gemini Enterprise, la suite collaborative de Google. Concrètement, l'agent Sana Self-Service de Workday s'imbrique désormais dans l'environnement Google que les collaborateurs utilisent au quotidien. Un salarié peut ainsi consulter son solde de congés, récupérer un bulletin de paie ou soumettre une demande d'absence sans jamais ouvrir l'interface Workday. Les managers gagnent eux aussi en autonomie : approbation de feuilles de temps, lancement d'évaluations de performance, accès aux objectifs d'équipe, tout cela depuis une interface conversationnelle unique. Côté finance, les utilisateurs peuvent interroger les politiques de dépenses et initier des démarches administratives sans changer d'outil. L'annonce confirme par ailleurs que Gemini devient le modèle d'IA par défaut de Sana dans Workday, remplaçant les solutions précédemment utilisées. L'enjeu est considérable pour les grandes organisations, qui souffrent depuis des années d'une fragmentation logicielle coûteuse : les équipes jonglent quotidiennement entre suites RH, ERP financiers, outils collaboratifs et plateformes analytiques pour accomplir des tâches souvent élémentaires. En ancrant les agents directement dans les outils de travail existants, Workday et Google Cloud cherchent à éliminer ces frictions et à accélérer l'exécution des processus métiers. Pour les directions RH et financières, qui manipulent des données sensibles soumises à des réglementations strictes, l'intégration apporte aussi les capacités de raisonnement avancé, le support multimodal et le traitement multilingue de Gemini, tout en maintenant les garde-fous métier, les règles d'approbation et les contrôles de conformité propres à Workday. Ce rapprochement s'inscrit dans une tendance de fond qui voit les grands éditeurs de logiciels d'entreprise transformer leurs plateformes en orchestrateurs d'agents IA. Workday, qui gère les ressources humaines et les finances de milliers de grandes entreprises mondiales, dispose d'un levier stratégique majeur : ses données métier structurées, longtemps cloisonnées dans ses interfaces propriétaires. En ouvrant ces données aux agents via Gemini, l'éditeur américain positionne sa plateforme comme un nœud central des architectures multi-agents qui émergent dans les grands groupes. Pour Google Cloud, faire de Gemini le moteur par défaut de Sana représente une victoire commerciale et un signal fort envoyé à l'ensemble de l'écosystème enterprise, dans un marché où Microsoft, avec Copilot intégré à Office 365 et Dynamics, exerce une pression concurrentielle intense. Les prochaines étapes du partenariat devraient porter sur l'orchestration de workflows plus complexes, impliquant plusieurs agents agissant en coordination sur des processus bout-en-bout.

UELes grandes entreprises françaises et européennes utilisant Workday et Google Workspace pourraient réduire la fragmentation logicielle de leurs équipes RH et finance grâce à cette intégration.

OutilsOutil
1 source
L'IA dans le développement de jeux vidéo : comment elle transforme l'industrie
10AI News 

L'IA dans le développement de jeux vidéo : comment elle transforme l'industrie

L'intelligence artificielle s'est imposée comme un pilier du développement de jeux vidéo. Selon une enquête de Google Cloud, 90% des développeurs intègrent déjà l'IA dans leur travail quotidien, et sur Steam, 7 818 titres ont déclaré utiliser l'IA en 2025, soit une hausse de 681% par rapport à l'année précédente. Concrètement, cette intégration traverse toutes les étapes de la production. Ubisoft a développé Ghostwriter, un outil génératif qui rédige des premières ébauches de dialogues pour les personnages non-joueurs, libérant les scénaristes des tâches de pur volume. Chez Tencent, l'outil Hunyuan3D-PolyGen génère des assets 3D de niveau professionnel avec des gains d'efficacité supérieurs à 70% selon les artistes. Meta a présenté WorldGen, capable de produire un environnement 3D navigable à partir d'une simple description textuelle en cinq minutes, directement compatible avec Unity et Unreal. Du côté du contrôle qualité, EA déploie des agents d'apprentissage par renforcement pour tester ses jeux de manière autonome, pendant que Square Enix a annoncé son intention d'automatiser 70% de son processus de QA et de débogage d'ici 2027, en partenariat avec l'Université de Tokyo. L'impact opérationnel est déjà mesurable. Selon Andreessen Horowitz, la création de concept art qui nécessitait trois semaines se ramène désormais à une heure grâce aux outils génératifs. La génération vocale via des plateformes comme ElevenLabs permet de localiser un jeu dans plusieurs langues à une vitesse que les pipelines d'enregistrement traditionnels ne peuvent pas égaler. Pour les jeux navigateur, des outils comme FRVR AI permettent à n'importe quel utilisateur de générer un jeu jouable depuis une simple description. Ce nivellement de l'accès change la structure du marché : des développeurs sans formation artistique ou technique approfondie peuvent désormais atteindre le stade du prototype fonctionnel et publier sur des plateformes comme Poki, dont le modèle publicitaire offre une monétisation immédiate. L'enjeu n'est plus seulement l'efficacité des grands studios, mais la démocratisation de la création vidéoludique à une échelle sans précédent. Cette transformation s'accélère dans un secteur qui fait face depuis des années à des cycles de production longs et coûteux. L'émergence des grands modèles de langage a rendu possible ce que les systèmes procéduraux classiques ne pouvaient pas accomplir : maintenir une cohérence narrative dans des univers générés dynamiquement, comme le démontre le cadre de recherche PANGeA. Mais l'expansion n'est pas sans friction. L'afflux de titres de faible qualité générés par IA sur Steam en 2025 a soulevé des questions sur les standards minimaux dans un environnement où produire du contenu devient quasi gratuit. Les syndicats d'acteurs vocaux et les guildes de scénaristes négocient encore les conditions dans lesquelles l'IA peut générer des dialogues ou cloner des voix. Ces négociations, combinées aux questions de propriété intellectuelle sur les assets générés, dessinent les contours du prochain débat structurant pour une industrie qui pèse plusieurs centaines de milliards de dollars à l'échelle mondiale.

UEUbisoft, entreprise française leader mondial du jeu vidéo, intègre déjà l'IA générative dans ses studios via Ghostwriter, tandis que les syndicats européens de doubleurs et scénaristes négocient des garde-fous face à l'automatisation des dialogues et au clonage vocal.

💬 681% de hausse sur Steam, c'est pas une stat, c'est un signal d'alarme autant qu'une opportunité. Ce qui m'intéresse vraiment là-dedans, c'est pas les grands studios qui gagnent du temps sur les assets, c'est le mec seul qui peut maintenant aller jusqu'au prototype jouable sans équipe. Reste que l'inondation de slop sur Steam, ça va forcer une curation que la plateforme n'a jamais vraiment assumée.

OutilsOutil
1 source
Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks
11MarkTechPost 

Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks

La synthèse vocale par intelligence artificielle a connu une accélération spectaculaire en 2026, au point que la frontière entre voix humaine et voix synthétique est devenue difficile à percevoir. Les deux références de l'industrie pour comparer ces modèles sont le classement Artificial Analysis Speech Arena, qui attribue un score ELO basé sur les préférences humaines en aveugle, et le TTS Arena de Hugging Face, qui fonctionne sur le même principe de vote A/B. Au 30 mai 2026, le top 5 de l'Artificial Analysis Speech Arena est occupé par Gemini 3.1 Flash TTS de Google, Realtime TTS-2 d'Inworld (en Research Preview), Sonic 3.5, Realtime TTS 1.5 Max et Fun-Realtime-TTS-Preview. Parmi les acteurs les plus remarquables, Inworld AI, un laboratoire fondé par des anciens de Google et DeepMind, a lancé TTS-1.5 le 21 janvier 2026, suivi de Realtime TTS-2 plus tard dans l'année. Son modèle propose deux niveaux : Mini, optimisé pour la latence avec un temps avant premier audio inférieur à 130 millisecondes au 90e percentile, et Max, sous 250 millisecondes. La tarification va de 25 dollars par million de caractères pour le Mini jusqu'à 5 dollars en offre Enterprise. Google DeepMind, de son côté, a publié Gemini 3.1 Flash TTS le 15 avril 2026, accessible via l'API Gemini, AI Studio et Vertex AI. Ces évolutions ont des implications directes pour les développeurs et les entreprises qui intègrent la voix dans leurs produits. Une latence sous les 100 millisecondes est désormais atteignable pour certains systèmes temps réel, ce qui rend les agents vocaux réellement utilisables dans des contextes grand public, comme le service client automatisé ou les jeux vidéo. Inworld revendique 30 % de plage expressive supplémentaire et 40 % de stabilité en plus par rapport à sa génération précédente, deux critères critiques pour des applications qui ne peuvent se permettre ni monotonie ni erreurs de prononciation. Les tarifs agressifs, notamment l'offre Enterprise à 5 dollars le million de caractères, signalent une course vers la commoditisation du TTS, similaire à ce que le marché des LLM a vécu entre 2023 et 2025. La comparaison entre modèles reste néanmoins complexe, car aucun benchmark ne capture l'ensemble des dimensions pertinentes. La qualité perçue, le taux d'erreur de caractères mesuré par méthode aller-retour (transcription ASR puis comparaison avec l'entrée), la latence de queue et la couverture linguistique obéissent à des logiques distinctes. Inworld couvre 15 langues pour TTS-1.5 mais plus de 100 pour TTS-2, tandis que les classements ELO fluctuent d'une semaine à l'autre. L'enjeu pour les équipes produit est d'identifier l'axe non négociable de leur application, qu'il s'agisse de la latence pour un assistant vocal ou de la fidélité phonétique pour un usage éditorial, avant de choisir leur fournisseur dans un marché qui reste en recomposition permanente.

💬 Le TTS vit ce que les LLM ont traversé entre 2023 et 2025. 5 dollars le million de caractères en Enterprise chez Inworld, Gemini Flash TTS qui s'installe en tête des classements, la course vers la commoditisation est enclenchée et ça va aller vite. La vraie nouveauté, c'est la latence sous 100ms qui rend enfin les agents vocaux utilisables en vrai, pas juste en démo.

CréationOutil
1 source
[AINews] Anthropic lève 965 milliards en Série H et publie Opus 4.8 et Dynamic Workflows/ultracode
12Latent Space 

[AINews] Anthropic lève 965 milliards en Série H et publie Opus 4.8 et Dynamic Workflows/ultracode

Anthropic a annoncé le 28 mai 2026 une levée de fonds de 65 milliards de dollars dans le cadre de sa Série H, valorisant l'entreprise à 965 milliards de dollars après dilution. Le tour a été mené par Altimeter, Dragoneer, Greenoaks et Sequoia, avec 15 milliards supplémentaires apportés par des hyperscalers dont Amazon. Simultanément, la startup a révélé que son chiffre d'affaires annualisé dépasse désormais 47 milliards de dollars, contre 9 milliards seulement en décembre 2025. Cette même journée, Anthropic a lancé Claude Opus 4.8, présenté comme une mise à jour substantielle d'Opus 4.7 intégrant un meilleur jugement, plus d'honnêteté sur ses propres limites et une capacité de travail autonome prolongée, au même prix. L'entreprise a également introduit en préversion de recherche les Dynamic Workflows dans Claude Code, un système d'orchestration capable de planifier des tâches complexes et de déployer simultanément des centaines de sous-agents en parallèle. Ces annonces placent Anthropic, au moins provisoirement, devant OpenAI sur les principaux indicateurs de valorisation et de revenus. L'ampleur de la croissance est spectaculaire : multiplier par cinq un chiffre d'affaires annualisé en cinq mois est sans précédent dans l'industrie technologique. La fonctionnalité Dynamic Workflows illustre concrètement ce que cette puissance financière finance : Jarred Sumner, créateur du runtime JavaScript Bun, a utilisé l'outil baptisé ultracode pour réécrire 750 000 lignes de code de Zig vers Rust en six jours, un projet qui aurait nécessité des mois de travail humain. Opus 4.8 s'impose également comme le modèle de référence sur la quasi-totalité des benchmarks économiquement pertinents, dépassant notamment Gemini 3.5 Flash et les modèles GPT-5.5 d'OpenAI sur les tâches de codage longue durée. Les évaluations indépendantes confirment une amélioration significative par rapport à 4.7, particulièrement sur les tâches agentiques et les travaux de connaissance à long horizon. Anthropic s'est longtemps positionné comme l'alternative responsable à OpenAI, avec une croissance explosive portée par les déploiements enterprise et l'usage grand public de Claude. L'investissement massif d'Amazon, qui avait déjà engagé plusieurs milliards dans des tours précédents, ancre la startup dans l'écosystème cloud d'AWS, tandis que la présence de Sequoia et d'Altimeter signal un appétit institutionnel pour une introduction en bourse à terme. Les Dynamic Workflows sont d'ores et déjà disponibles sur toutes les offres commerciales : Max, Team, Enterprise, API, ainsi que sur Bedrock, Vertex AI et Foundry. La prochaine étape sera de confirmer si cette valorisation de près de 1 000 milliards se justifie par une monétisation durable ou si elle reflète avant tout l'euphorie du cycle actuel autour de l'IA générative.

UEL'émergence de systèmes IA capables d'automatiser des centaines de milliers de lignes de code en quelques jours va intensifier le débat au Parlement européen sur les seuils de régulation de l'AI Act et les mesures de protection des travailleurs du secteur technologique.

💬 Le chiffre qui m'a arrêté c'est pas la valorisation, c'est le revenu. 9 milliards en décembre, 47 en mai : multiplier par cinq en cinq mois, t'as beau chercher, ça n'a pas de précédent dans la tech. Et quand Jarred Sumner migre 750 000 lignes de code en six jours avec ultracode, là on comprend pourquoi les investisseurs remettent des chèques à neuf chiffres sans sourciller.

Anthropic lance Claude Opus 4.8 : workflows dynamiques, mode rapide moins cher et limite de 1 000 sous-agents
13MarkTechPost 

Anthropic lance Claude Opus 4.8 : workflows dynamiques, mode rapide moins cher et limite de 1 000 sous-agents

Anthropic a lancé Claude Opus 4.8 accompagné de deux nouvelles fonctionnalités pour Claude Code : les workflows dynamiques et une mise à jour du mode rapide. Les workflows dynamiques permettent d'orchestrer des centaines de sous-agents en parallèle via un script JavaScript que Claude génère automatiquement à partir d'une description de tâche. Un runtime exécute ce script en arrière-plan, libérant la fenêtre de contexte de Claude des résultats intermédiaires, qui restent stockés dans des variables du script. Chaque exécution est plafonnée à 16 agents simultanés et 1 000 agents au total. La fonctionnalité est disponible sur les plans Max, Team et Enterprise (désactivée par défaut sur Enterprise), ainsi que via l'API Claude, Amazon Bedrock, Vertex AI et Microsoft Foundry, à partir de la version 2.1.154 de Claude Code. En parallèle, le mode rapide pour Opus 4.8 est annoncé trois fois moins cher que pour Opus 4.7 (facturé 30/150 dollars par million de tokens en entrée/sortie), tout en offrant des vitesses de génération 2,5 fois supérieures. Les deux fonctionnalités sont disponibles en aperçu de recherche. Pour les développeurs confrontés à des migrations ou des audits de grande envergure, les workflows dynamiques élargissent considérablement ce qu'un agent peut accomplir en une seule session. Anthropic illustre le potentiel avec l'exemple de Jarred Sumner, qui a porté le runtime Bun du langage Zig vers Rust en 11 jours : environ 750 000 lignes de Rust générées, 99,8 % du test suite existant passé, avec des centaines d'agents travaillant en parallèle et deux réviseurs par fichier. La logique adversariale intégrée, où certains agents produisent des résultats et d'autres les réfutent jusqu'à convergence, vise une qualité inaccessible en un seul passage. Un job interrompu reprend là où il s'était arrêté dans la même session, les agents terminés retournant leurs résultats en cache. Le mode rapide répond à un besoin distinct : conserver la qualité Opus pour le débogage interactif et l'itération rapide, sans subir les délais habituels des grands modèles. Ces annonces s'inscrivent dans la course à l'agent autonome que se livrent Anthropic, OpenAI et Google depuis début 2025. Après avoir repositionné Claude Code comme plateforme de développement, Anthropic fait de l'orchestration multi-agents une fonctionnalité centrale de son offre. Le plafond de 1 000 agents par exécution et le statut d'aperçu de recherche des deux fonctionnalités témoignent d'une prudence réelle face à l'inflation des coûts en tokens, puisqu'une seule exécution peut générer des milliers d'appels. Le mode rapide, financé par des crédits d'utilisation séparés du forfait inclus, envoie un signal commercial clair : Anthropic cherche à monétiser la vitesse comme axe différenciant, là où ses concurrents misent davantage sur le prix. Les prochaines étapes probables incluent une stabilisation tarifaire et une extension des workflows vers des interfaces no-code, à mesure qu'Anthropic affine les garde-fous nécessaires à une adoption plus large.

UELa réduction de prix du mode rapide (3 fois moins cher que pour Opus 4.7) bénéficie directement aux développeurs européens utilisant Claude Code via l'API ou les plateformes cloud.

LLMsOpinion
1 source
Claude Opus 4.8 est désormais disponible sur AWS
14AWS ML Blog 

Claude Opus 4.8 est désormais disponible sur AWS

Anthropic a annoncé la disponibilité de Claude Opus 4.8, son modèle le plus avancé de la gamme Opus, sur Amazon Bedrock et sur la Claude Platform déployée sur AWS. Ce lancement permet aux équipes de développement d'intégrer le modèle directement dans leurs environnements AWS existants, tout en bénéficiant des garanties de sécurité entreprise, de résidence régionale des données et de la scalabilité d'infrastructure propres à Amazon. Pour les cas d'usage ne nécessitant pas de résidence régionale, le modèle est également accessible via la plateforme native d'Anthropic hébergée sur AWS. Techniquement, l'accès se fait via le SDK Anthropic avec l'identifiant de modèle us.anthropic.claude-opus-4-8, ou via les API Invoke et Converse d'Amazon Bedrock. Ce qui distingue Opus 4.8 de ses prédécesseurs, c'est sa capacité à maintenir un plan d'action sur plusieurs étapes successives, à suivre ce qui a été accompli et ce qui reste à faire, et surtout à se recorriger lorsqu'un blocage survient plutôt que de simplement s'arrêter sur une erreur. Pour les équipes qui automatisent des tâches longues et complexes, cette stabilité se traduit concrètement par moins de variance dans les sorties, moins de cycles de révision manuelle, et une supervision réduite des pipelines en production. En développement logiciel, le modèle est conçu pour naviguer dans de vraies bases de code, planifier avant d'éditer, et conserver le contexte sur des sessions prolongées. Les cas d'usage industriels ciblés incluent la recherche d'investissement et l'analyse de résultats financiers, la rédaction de contrats et de mémoires juridiques, la synthèse de littérature scientifique et de soumissions réglementaires en sciences du vivant, ainsi que l'analyse de menaces et la réponse à incident en cybersécurité. Ce lancement s'inscrit dans une stratégie de partenariat approfondi entre Anthropic et AWS, qui s'est notamment matérialisée par un investissement d'Amazon pouvant atteindre quatre milliards de dollars dans Anthropic. La disponibilité sur Bedrock est stratégique pour Anthropic, qui cherche à s'imposer comme fournisseur de référence pour les déploiements en entreprise, face à la concurrence directe d'OpenAI via Azure et de Google DeepMind via Vertex AI. Opus 4.8 représente le haut de gamme de la nouvelle génération Claude 4, une famille de modèles qui comprend également Sonnet 4.6 et Haiku 4.5, chacun positionné sur un équilibre différent entre performance et coût d'inférence. La prochaine étape pour Anthropic sera probablement d'élargir la disponibilité régionale du modèle sur Bedrock, et d'affiner ses capacités dans les domaines où la régulation de l'IA évolue rapidement.

UELes entreprises européennes peuvent déployer Claude Opus 4.8 sur Amazon Bedrock avec résidence régionale des données, facilitant la conformité RGPD pour les cas d'usage en production.

LLMsActu
1 source
Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore
15AWS ML Blog 

Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore

Amazon Web Services a présenté une architecture de référence pour déployer des systèmes multi-agents d'IA générative à grande échelle sur AWS, en combinant LangGraph, AWS Lambda, AWS Step Functions et les deux nouveaux services Amazon Bedrock AgentCore Memory et AgentCore Observability. L'approche repose sur une infrastructure entièrement serverless : les agents LangGraph sont packagés dans des conteneurs Docker exécutés sur Lambda, ce qui permet une montée en charge automatique sans gestion d'infrastructure. Pour illustrer le concept, AWS décrit un système concret de révision de campagnes marketing orchestrant trois agents spécialisés en parallèle, un agent "persona reviewer" qui évalue la résonance du contenu auprès de différents profils démographiques, un agent "validator" qui vérifie la conformité juridique et les chartes de marque, et un agent "finalizer" qui synthétise les retours en recommandations actionnables. Une interface React permet aux utilisateurs de télécharger leurs documents et de consulter les résultats en temps réel. Ce type d'architecture répond à un problème concret que rencontrent les entreprises en production : les agents IA performants en démo s'effondrent souvent sous la charge réelle, perdent le contexte entre les sessions et restent des boîtes noires difficiles à déboguer. AgentCore Memory résout la question de la mémoire en offrant à la fois un contexte conversationnel à court terme et une base de connaissances persistante entre sessions. AgentCore Observability capture quant à lui chaque invocation avec ses entrées et sorties LLM, la latence, et les métriques de chaîne d'outils sur l'ensemble des composants distribués. Pour les équipes en charge de systèmes critiques, c'est un changement de paradigme : il devient possible d'auditer exactement comment un agent a raisonné, quelle décision il a prise à quelle étape, et pourquoi. Cette publication s'inscrit dans une accélération visible chez AWS pour proposer une pile complète d'IA agentique cloud-native, face à la concurrence de Google (Vertex AI Agents) et Microsoft (Azure AI Foundry). LangGraph, développé par LangChain, s'impose progressivement comme standard de facto pour l'orchestration d'agents grâce à son modèle d'exécution en graphe orienté qui rend le flux de contrôle déterministe, parallélisable et conditionnel. L'intégration native avec Lambda et Step Functions est particulièrement stratégique pour les charges de travail "bursty" typiques des agents IA, où la demande est imprévisible et les coûts d'une infrastructure dédiée permanente seraient prohibitifs. La prochaine étape logique pour AWS sera d'étendre ces patterns à des workflows plus complexes impliquant des boucles de feedback humain et des agents à longue durée de vie, un segment encore largement inexploré en production.

InfrastructureActu
1 source
Google I/O illustre comment la science pilotée par l'IA change de trajectoire
16MIT Technology Review 

Google I/O illustre comment la science pilotée par l'IA change de trajectoire

Lors du keynote Google I/O de mardi, Demis Hassabis, PDG de Google DeepMind, a déclaré que nous nous trouvons actuellement "au pied des collines de la singularité". Le moment fort de son intervention était une vidéo montrant comment WeatherNext, le logiciel de prévision météorologique de Google, avait fourni une alerte précoce sur l'atterrissage catastrophique de l'ouragan Melissa en Jamaïque l'an dernier, sauvant potentiellement des vies. La même semaine, OpenAI annonçait que l'un de ses modèles avait réfuté une conjecture mathématique importante, ce que certains mathématiciens considèrent comme la contribution la plus significative de l'IA générative aux mathématiques à ce jour. En parallèle, Isomorphic Labs, filiale de Google utilisant AlphaFold pour développer de nouveaux médicaments, levait 2 milliards de dollars en Série B. Ces annonces illustrent une tension croissante au coeur de l'IA scientifique : d'un côté, des outils spécialisés et entraînés pour résoudre des problèmes précis, comme WeatherNext ou AlphaFold (qui a valu le prix Nobel à des chercheurs de DeepMind et dont les prédictions de structures de protéines sont utilisées par plus de trois millions de chercheurs dans le monde) ; de l'autre, des systèmes agentiques basés sur des LLM, capables de mener des projets de recherche de pointe avec une supervision humaine minimale, voire nulle. Cette deuxième vision alimente aujourd'hui une grande part de l'enthousiasme autour de l'IA, notamment autour de l'idée d'une amélioration récursive, où les systèmes d'IA deviendraient les principaux moteurs de leur propre progression. Pushmeet Kohli, chef scientifique de Google Cloud, l'a formulé cette semaine dans la revue Daedalus : "Nous nous dirigeons vers une IA qui ne se contente plus de faciliter la science, mais qui commence à faire de la science." Des signes concrets de réorientation des ressources humaines et budgétaires chez Google confirment cette tendance. Le Los Angeles Times a révélé le mois dernier que John Jumper, le chercheur Google Fellow et co-lauréat du Nobel pour AlphaFold, travaille désormais sur l'IA appliquée au code et non plus sur des outils scientifiques spécialisés. Ce pivot n'est pas anodin : Google subit actuellement une pression concurrentielle de la part d'Anthropic et OpenAI sur le terrain des outils de développement logiciel, et les capacités de codage sont précisément ce qui conditionne le succès des systèmes agentiques de recherche. Si Google ne semble pas abandonner ses outils spécialisés, avec AlphaGenome et AlphaEarth Foundations sortis l'été dernier et une nouvelle version de WeatherNext en novembre, la direction stratégique s'oriente clairement vers une IA capable de faire de la science de manière autonome, un virage qui pourrait redéfinir en profondeur le rôle des chercheurs humains.

UELa réorientation stratégique de Google DeepMind vers une IA autonome capable de faire de la science pourrait fragiliser les laboratoires publics européens qui dépendent d'outils spécialisés comme AlphaFold, utilisé par plus de trois millions de chercheurs dans le monde dont une large part en Europe.

💬 Le vrai signal, c'est pas la vidéo de l'ouragan, c'est John Jumper qui bosse maintenant sur des outils de code. Quand tu déplaces un co-lauréat du Nobel de la recherche spécialisée vers le terrain où Anthropic et OpenAI te talonnent, tu dis quelque chose sur où est la vraie pression en ce moment. Reste à voir si les trois millions de chercheurs qui utilisent AlphaFold au quotidien vont se retrouver avec des outils en pilotage automatique, ou juste moins maintenus.

RecherchePaper
1 source
Créer des agents multi-locataires avec Amazon Bedrock AgentCore
17AWS ML Blog 

Créer des agents multi-locataires avec Amazon Bedrock AgentCore

Amazon a lancé Bedrock AgentCore, un service managé et serverless conçu pour permettre aux éditeurs de logiciels SaaS de déployer des applications agentiques en environnement multi-tenant sur AWS. Le service offre des primitives pour héberger des agents et des serveurs MCP (Model Context Protocol), avec une gestion intégrée des identités, de la mémoire, de l'observabilité et des évaluations. Le coeur de son architecture repose sur des microVMs isolées par session: chaque session client obtient son propre environnement d'exécution éphémère, avec un système de fichiers persistant propre, sans le coût ni la latence d'une machine virtuelle complète. Le contexte du tenant transite via des en-têtes HTTP personnalisés, portant l'identifiant du tenant, son niveau de service, ses préférences régionales et ses droits d'accès aux outils, ce qui permet à l'agent d'adapter dynamiquement son comportement sans logique de routage codée en dur. Cette approche répond directement au fossé qui sépare un prototype fonctionnel d'un déploiement en production dans un contexte SaaS. Les architectes d'applications agentiques devaient jusqu'ici résoudre manuellement six problèmes distincts: l'isolation des tenants, la propagation de leur identité, l'observabilité par tenant, l'isolation des données, l'attribution des coûts et la mitigation du "noisy neighbor" (un tenant monopolisant les ressources au détriment des autres). AgentCore propose trois patterns d'isolation, appelés Silo, Pool et Bridge, chacun offrant un compromis différent entre protection stricte et mutualisation des coûts. Pour les éditeurs gérant des centaines ou des milliers de clients sur une même plateforme, cette capacité à choisir un modèle d'isolation par segment tarifaire change concrètement l'équation économique et de conformité. Le lancement s'inscrit dans une course des grands fournisseurs cloud à imposer leurs infrastructures agentiques comme standard de facto pour la prochaine génération d'applications IA. AWS fait face à la concurrence directe de Google avec Vertex AI Agent Builder et de Microsoft avec Azure AI Agent Service, tous trois cherchant à capter les équipes d'ingénierie qui passent de l'expérimentation à la production. L'article publié par AWS est le premier d'une série, ce qui suggère que d'autres composants d'AgentCore (évaluation, fine-tuning par tenant, facturation granulaire) seront détaillés dans les prochaines semaines. La question centrale pour les équipes SaaS reste le degré de lock-in accepté en échange de la simplicité opérationnelle qu'offre un service pleinement managé.

UELes éditeurs SaaS européens construisant sur AWS peuvent exploiter les patterns d'isolation et les préférences régionales d'AgentCore pour satisfaire les exigences de résidence des données imposées par le RGPD.

OutilsOpinion
1 source
Amazon SageMaker AI prend en charge l'API compatible OpenAI
18AWS ML Blog 

Amazon SageMaker AI prend en charge l'API compatible OpenAI

Amazon a annoncé ce mois-ci que SageMaker AI supporte désormais une API compatible avec celle d'OpenAI pour ses endpoints d'inférence en temps réel. Concrètement, les développeurs qui utilisent le SDK OpenAI, LangChain ou le framework Strands Agents peuvent désormais router leurs appels vers des modèles hébergés sur SageMaker AI en changeant uniquement l'URL de l'endpoint. Plus besoin de client personnalisé, de wrapper SigV4, ni de réécriture de code. Les endpoints SageMaker exposent un chemin /openai/v1 qui accepte les requêtes au format Chat Completions et renvoie les réponses du conteneur telles quelles, y compris en streaming. L'authentification repose sur des tokens bearer à durée limitée (jusqu'à 12 heures), générés à partir des credentials AWS existants via le SDK Python SageMaker, sans clé API supplémentaire. Ce changement simplifie radicalement l'intégration de SageMaker dans les stacks d'IA existantes. Pour les équipes qui orchestrent des agents multi-LLM via une gateway (comme Bifrost, mentionnée par Giorgio Piatti, ingénieur ML chez Caffeine.AI), SageMaker devient un fournisseur interchangeable sans adaptation technique. Les cas d'usage sont nombreux : workflows agentiques tournant entièrement sur de l'infrastructure dédiée en compte AWS, hébergement multi-modèles sur un seul endpoint via les inference components (par exemple Llama pour les tâches générales, un Mistral fine-tuné pour un domaine métier, et un petit modèle de classification), ou encore déploiement de modèles open source fine-tunés sans toucher au code applicatif existant. Pour les entreprises soumises à des contraintes de souveraineté des données ou de conformité, c'est un gain concret : elles peuvent utiliser les mêmes frameworks standardisés OpenAI tout en gardant les modèles dans leur propre compte AWS. Cette annonce s'inscrit dans une bataille plus large pour capter les workloads d'inférence IA en entreprise. Le standard OpenAI s'est imposé de facto comme protocole universel pour les LLMs, et les grands fournisseurs cloud (AWS, Google, Azure) cherchent à réduire les frictions pour attirer des équipes déjà investies dans cet écosystème. Amazon avait déjà investi massivement dans Bedrock et SageMaker, mais l'adoption restait freinée par les incompatibilités d'API qui forçaient les migrations de code. En adoptant la compatibilité OpenAI directement au niveau de SageMaker AI, AWS ferme cet écart et concurrence frontalement des solutions comme Azure OpenAI Service ou les endpoints Vertex AI de Google. Le notebook d'exemple avec Qwen3-4B (modèle d'Alibaba disponible sur Hugging Face) illustre aussi l'ouverture vers les modèles open source, un segment en forte croissance face aux modèles propriétaires.

UELes entreprises européennes soumises aux contraintes RGPD et de souveraineté des données peuvent désormais utiliser les frameworks OpenAI standard tout en maintenant leurs modèles dans leur propre infrastructure AWS hébergée en région européenne.

💬 C'est le genre de truc qui semble anodin et qui change tout en pratique. Changer juste l'URL pour basculer d'OpenAI vers SageMaker, sans toucher au code, c'est exactement ce que les équipes enterprise attendaient pour switcher sans se battre avec leur DSI. Bon, ça reste AWS, donc la facture peut vite grimper, mais pour les boîtes avec des contraintes de souveraineté data, l'argument est solide.

OutilsOpinion
1 source
Google présente ses outils de codage IA comme la solution la plus rentable
19The Information AI 

Google présente ses outils de codage IA comme la solution la plus rentable

Lors de sa conférence annuelle Google I/O, mardi à Mountain View en Californie, Google a présenté sa réponse à la domination croissante d'Anthropic dans le domaine du codage assisté par IA. Plutôt que de sortir une version "Pro" de son modèle phare Gemini pour affronter directement Mythos, le modèle très attendu d'Anthropic, Google a choisi une stratégie différente : mettre en avant Gemini 3.5 Flash, un modèle plus compact, couplé à son agent de codage baptisé Antigravity. Sur scène, le PDG Sundar Pichai a illustré l'argument commercial avec un chiffre frappant : les grandes entreprises clientes de Google Cloud traitent actuellement environ 1 000 milliards de tokens par jour, et si elles basculaient 80 % de leurs charges de travail depuis d'autres modèles frontier vers Gemini 3.5 Flash, elles économiseraient plus d'un milliard de dollars par an. Le positionnement tarifaire est au coeur de la stratégie de Google, dans un contexte où les prix des modèles d'Anthropic sont jugés élevés et où les contraintes de capacité de calcul pèsent sur les budgets des équipes techniques. En ciblant les développeurs soucieux de maîtriser leurs coûts, Google ne cherche pas à remporter la bataille du modèle le plus puissant, mais celle du rapport performance/prix. Antigravity, l'agent de codage présenté comme un outil de productivité quotidienne, incarnerait ce compromis : suffisamment capable pour les tâches courantes, nettement moins onéreux que les alternatives premium. Ce repositionnement intervient alors qu'Anthropic renforce sa présence dans l'écosystème des développeurs avec des modèles comme Claude et le futur Mythos, qui n'est pas encore disponible en accès large. Google, de son côté, avait récemment perdu du terrain en matière de perception dans la communauté des ingénieurs. La conférence I/O 2026 marque une tentative de reconquête pragmatique : plutôt que de rivaliser frontalement sur les benchmarks, Google mise sur l'économie d'échelle et l'intégration dans Google Cloud pour convaincre les entreprises de faire de Gemini 3.5 Flash leur choix par défaut. Un modèle "Pro" plus ambitieux a été évoqué pour plus tard dans l'année.

UELes équipes techniques européennes confrontées aux coûts élevés des modèles frontier pourraient réduire significativement leurs dépenses en adoptant Gemini 3.5 Flash pour leurs charges de travail de codage assisté par IA.

💬 La stratégie est limpide : pas besoin d'être le meilleur si on est le moins cher. Google mise sur Flash et un milliard d'économies projeté pour convaincre les CFO, le genre de chiffre qui atterrit bien plus vite en comité budgets que n'importe quel benchmark. Le risque, c'est de finir étiqueté discount.

BusinessActu
1 source
Google I/O 2026 : Les rumeurs disaient vrai, Gemini 3.5 débarque et va tout balayer
20Le Big Data 

Google I/O 2026 : Les rumeurs disaient vrai, Gemini 3.5 débarque et va tout balayer

Lors de la conférence Google I/O du 19 mai 2026, le géant de Mountain View a officiellement lancé la série Gemini 3.5, avec en tête de cortège le modèle Flash 3.5, disponible immédiatement dans le monde entier. Présenté par le PDG Sundar Pichai comme le modèle le plus puissant jamais développé par Google, Gemini 3.5 Flash est désormais le modèle par défaut dans l'application Gemini, dans le mode IA de Google Search, ainsi que dans Google AI Studio et Android Studio via l'API Gemini. Sur les benchmarks publiés par l'entreprise, il atteint 76,2 % sur Terminal-Bench 2.1 contre 70,3 % pour Gemini 3.1 Pro, et 1656 points sur GDPval-AA Elo en tâches agentiques contre 1314 pour son prédécesseur. Google affirme également qu'il génère jusqu'à quatre fois plus de tokens par seconde que des modèles concurrents comparables, tout en coûtant deux à trois fois moins cher dans certains scénarios. Ce lancement redistribue les cartes dans la course aux modèles de langage. Un modèle dit "Flash", habituellement positionné sur la vitesse et l'économie plutôt que la performance brute, surpasse ici le modèle Pro de la génération précédente sur presque tous les tests significatifs, y compris le codage et les tâches agentiques. Google revendique même des performances proches de Claude Opus 4.7 Max d'Anthropic sur l'Artificial Analysis Intelligence Index, tout en étant environ douze fois plus rapide. Pour les développeurs et les entreprises qui construisent des applications sur des API LLM, ce rapport performance-coût représente un argument commercial direct : des capacités de niveau frontier sans la facture associée. Google a par ailleurs annoncé que Gemini 3.5 a été conçu dans le respect de son Frontier Safety Framework, avec des outils d'analyse interprétative capables d'examiner les mécanismes de raisonnement internes du modèle avant chaque réponse. Ce lancement s'inscrit dans une dynamique d'accélération tous azimuts, après que Google a progressivement regagné du terrain sur OpenAI et Anthropic depuis fin 2024. L'autre annonce majeure de l'I/O 2026 est Gemini Spark, un agent IA personnel conçu pour fonctionner en continu sur Google Cloud, natif dans l'écosystème Workspace, Gmail, Docs, Sheets, Slides, et activable simplement par e-mail. Sur mobile, la fonction Android Halo permettra de suivre en temps réel les actions de l'agent. Selon Josh Woodward, vice-président de Google Labs, Spark peut déjà rédiger automatiquement rapports et brouillons d'e-mails à partir de données issues de documents et feuilles de calcul, et certaines PME l'utiliseraient déjà en production. La convergence entre un modèle frontier accessible, une infrastructure cloud intégrée et un agent personnel persistant dessine la stratégie Google pour 2026 : verrouiller l'utilisateur dans un écosystème IA complet avant que la concurrence ne se consolide.

UEGemini 3.5 Flash est immédiatement disponible via l'API Gemini et Google AI Studio, offrant aux développeurs et entreprises européennes un modèle frontier moins cher et plus rapide susceptible d'accélérer l'adoption IA dans les PME qui s'appuient sur l'écosystème Google Workspace.

💬 Quand le Flash dépasse le Pro de la génération d'avant sur presque tous les benchmarks, c'est que la taxonomie des modèles est en train d'exploser, et c'est une bonne nouvelle pour les devs. Quatre fois plus rapide, deux à trois fois moins cher, performances frontier : difficile d'ignorer ça si tu construis quelque chose sur API. Mais l'annonce qui m'intéresse vraiment, c'est Spark : Google ne vend pas un modèle, il vend une serrure.

LLMsOpinion
1 source
Google lance Antigravity 2.0 à I/O 2026 : plateforme autonome orientée agents, avec CLI, SDK et support entreprise
21MarkTechPost 

Google lance Antigravity 2.0 à I/O 2026 : plateforme autonome orientée agents, avec CLI, SDK et support entreprise

Google a profité de sa keynote développeurs I/O 2026 pour annoncer un changement d'architecture majeur dans ses outils de développement assisté par IA. La compagnie a lancé Antigravity 2.0, une application desktop autonome construite entièrement autour de l'orchestration d'agents, accompagnée d'un Antigravity CLI, d'un Antigravity SDK, de Managed Agents dans l'API Gemini, et d'un support enterprise via la Gemini Enterprise Agent Platform. Contrairement à l'Antigravity IDE existant, cette version 2.0 abandonne l'approche centrée sur l'éditeur de code pour placer la gestion de workflows multi-agents comme abstraction principale. L'application permet d'orchestrer plusieurs agents en parallèle, d'exécuter des tâches planifiées en arrière-plan via des sous-agents dynamiques, et s'intègre nativement avec Google AI Studio, Android et Firebase. Une commande vocale native est également intégrée, dans la continuité des ajouts récents à Gmail et Google Docs. Le CLI Antigravity remplace officiellement le Gemini CLI, tout en conservant ses fonctionnalités essentielles: Agent Skills, Hooks, Subagents et Extensions, ces dernières rebaptisées plugins. Les Managed Agents, propulsés par Gemini 3.5 Flash, permettent de lancer via un simple appel API un agent capable de raisonner, d'utiliser des outils et d'exécuter du code dans un environnement Linux isolé, accessible depuis l'Interactions API et Google AI Studio. Ce pivot stratégique change fondamentalement la proposition de Google aux développeurs. La fonctionnalité de tâches planifiées est particulièrement significative: plutôt que d'interroger manuellement un agent à chaque fois, les développeurs définissent des tâches qui invoquent les agents automatiquement, transformant l'assistant ponctuel en pipeline d'automatisation persistant. Pour les équipes enterprise, la connexion directe aux projets Google Cloud via la Gemini Enterprise Agent Platform simplifie le déploiement d'agents dans une infrastructure existante. Le SDK permet aux équipes d'ingénierie d'intégrer des agents Antigravity dans leurs propres produits internes, optimisés pour les modèles Gemini. Les environnements isolés des Managed Agents conservent fichiers et état entre appels successifs, permettant des sessions multi-tours sans réinitialiser le contexte. Cette annonce s'inscrit dans une bataille d'écosystèmes entre les grandes plateformes tech pour capter les développeurs dans leur univers d'agents IA. Google fait face à la concurrence directe de Claude Code d'Anthropic, de GitHub Copilot Workspace de Microsoft et d'outils comme Cursor. En unifiant desktop, CLI, SDK et enterprise autour d'un même "agent harness" co-optimisé avec Gemini 3.5 Flash, Google parie sur une cohérence verticale: chaque amélioration du harness central se propage automatiquement à toutes les surfaces. La disparition du Gemini CLI au profit de l'Antigravity CLI marque aussi un repositionnement de marque clair, signalant que l'IA agentique, et non plus le chatbot, est désormais la porte d'entrée principale de Google pour les développeurs.

UELes développeurs et équipes enterprise européens disposent d'une nouvelle plateforme unifiée d'orchestration d'agents intégrable à une infrastructure cloud existante, sans contrainte réglementaire européenne spécifique identifiée à ce stade.

OutilsOutil
1 source
NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA
22NVIDIA AI Blog 

NVIDIA et Google Cloud misent sur la prochaine génération de créateurs en IA

À l'occasion de Google I/O 2026, NVIDIA et Google Cloud ont annoncé une série de nouvelles ressources pour leur communauté de développeurs commune, qui regroupe désormais plus de 100 000 membres. Lancée lors de Google I/O l'année précédente, cette communauté réunit développeurs, data scientists et ingénieurs en machine learning autour de l'écosystème NVIDIA sur Google Cloud. Parmi les nouveautés dévoilées cette année : un parcours d'apprentissage dédié à la bibliothèque JAX sur GPU NVIDIA, un codelab centré sur NVIDIA Dynamo pour l'optimisation de l'inférence, ainsi que des livestreams mensuels. Les développeurs peuvent désormais déployer des applications multi-agents en combinant les modèles ouverts Gemma 4 de Google DeepMind, les modèles NVIDIA Nemotron et le Google Agent Development Kit, sur des machines virtuelles G4 de Google Cloud équipées de GPU NVIDIA RTX PRO 6000 Blackwell, via Google Cloud Run ou des instances spot. Le nouveau parcours JAX et le codelab NVIDIA Dynamo sur GKE seront disponibles le mois prochain pour les membres de la communauté. Ces annonces ont un impact direct pour les équipes techniques qui cherchent à passer du prototype à la production rapidement. En combinant des modèles ouverts, des bibliothèques accélérées comme cuDF dans Google Colab Enterprise ou Dataproc, et une infrastructure GPU de dernière génération, les développeurs disposent d'un pipeline complet pour construire des applications d'IA prêtes pour la production : des systèmes RAG (retrieval-augmented generation) sur GKE aux pipelines de données d'entreprise en passant par l'analyse sportive. La collaboration sur JAX, framework de calcul numérique utilisé notamment par Google DeepMind pour l'entraînement de grands modèles, étend ces optimisations jusqu'à la plateforme Google Cloud AI Hypercomputer et au framework MaxText, permettant de passer d'expériences sur un seul GPU à des déploiements multi-rack avec une expérience cohérente. L'un des volets les plus significatifs du partenariat concerne l'IA responsable : NVIDIA est le premier partenaire industriel à avoir collaboré avec Google DeepMind sur SynthID, une technologie de tatouage numérique qui intègre des filigranes robustes directement dans les contenus générés par l'IA. Cette technologie est appliquée aux modèles Cosmos de NVIDIA, des modèles de fondation dédiés à la perception 3D et à la simulation pour robots et systèmes autonomes, disponibles sur build.nvidia.com. Dans un contexte où les agents IA combinent de plus en plus modèles propriétaires et open source pour raisonner et agir de manière autonome, cette couche de transparence devient un enjeu central pour la confiance des organisations qui déploient ces systèmes à grande échelle.

UELa technologie SynthID de filigrane numérique, développée avec Google DeepMind et intégrée aux modèles NVIDIA, répond directement aux obligations de transparence de l'AI Act européen sur les contenus générés par IA (Article 50).

OutilsOutil
1 source
Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an
23VentureBeat AI 

Google affirme que Gemini 3.5 Flash peut réduire les coûts IA des entreprises de plus d'un milliard de dollars par an

Google a présenté mardi Gemini 3.5 Flash lors de sa conférence annuelle I/O, un nouveau modèle d'intelligence artificielle qui revendique une rupture avec l'un des compromis les plus tenaces du secteur : la capacité et la vitesse ne seraient plus antinomiques. Selon Sundar Pichai, PDG de Google, les entreprises traitant environ mille milliards de tokens par jour sur Google Cloud pourraient économiser plus d'un milliard de dollars par an en basculant 80 % de leurs charges de travail vers Flash et d'autres modèles frontier. Sur les benchmarks standards, Gemini 3.5 Flash dépasse Gemini 3.1 Pro, qui était encore positionné comme le modèle phare de l'entreprise il y a quatre à cinq mois : 76,2 % sur Terminal-Bench 2.1, 1656 Elo sur GDPval-AA, 83,6 % sur MCP Atlas et 84,2 % sur CharXiv Reasoning. Il génère des tokens quatre fois plus vite que les modèles frontier concurrents comparables, voire douze fois plus vite dans sa version optimisée disponible dès maintenant sur Antigravity, la plateforme de développement agentique de Google. Koray Kavukcuoglu, directeur technique de Google DeepMind, confirme : « Nous avons développé une version encore plus optimisée de Flash, non pas quatre fois, mais douze fois plus rapide, à qualité égale. » L'enjeu est considérable pour les entreprises qui ont massivement investi dans l'IA générative. Depuis trois ans, les DSI sont contraints de jongler entre des modèles puissants mais lents et coûteux pour les tâches complexes, et des modèles légers mais moins fiables pour les requêtes simples. Ce pilotage en portefeuille génère une ingénierie coûteuse, des expériences utilisateur inégales et, surtout, des budgets tokens qui s'épuisent à toute vitesse. Pichai l'a formulé sans détour lors d'un briefing presse lundi : « Vous avez probablement entendu des DSI dire que leurs entreprises ont déjà dépassé leur budget annuel de tokens, et on est seulement en mai. » Flash, à environ un tiers à la moitié du coût des modèles frontier actuels tout en atteignant selon Google 90 % de leurs performances, rendrait ce compromis obsolète pour la majorité des cas d'usage. Cette annonce s'inscrit dans une bataille d'efficience qui s'est intensifiée depuis que les entreprises ont commencé à déployer des agents IA en production à grande échelle. La course ne porte plus seulement sur l'intelligence brute des modèles, mais sur leur coût d'exploitation réel. Google fait face à une pression croissante d'Anthropic, d'OpenAI et de Meta, qui ont tous lancé des modèles intermédiaires visant le même créneau. Avec Flash, Google revendique la position unique de modèle occupant le quadrant supérieur droit de l'index intelligence/vitesse d'Artificial Analysis, sans concurrent direct à date. La disponibilité immédiate du modèle turbo dans Antigravity suggère que Google mise sur les workflows agentiques comme terrain de différenciation durable face à ses rivaux.

UELes entreprises européennes sur Google Cloud peuvent réduire significativement leurs budgets tokens en adoptant Flash pour leurs charges de travail agentiques, sans attendre de réglementation spécifique UE.

LLMsOpinion
1 source
Anthropic rachète Stainless, la startup API convoitée par OpenAI et Google
24Le Big Data 

Anthropic rachète Stainless, la startup API convoitée par OpenAI et Google

Anthropic a annoncé le 18 mai 2026 l'acquisition de Stainless, une startup new-yorkaise fondée en 2022 par Alex Rattray, ancien ingénieur de Stripe. Spécialisée dans l'automatisation des SDK et des connecteurs API, Stainless avait bâti en quelques années une position de référence dans l'écosystème IA. Selon The Information, l'opération dépasserait les 300 millions de dollars. La technologie de Stainless transforme des spécifications d'API en kits de développement logiciel prêts pour la production, compatibles avec Python, Go, Java, Kotlin et TypeScript. Son avantage distinctif est la maintenance automatique de ces SDK : à chaque évolution d'une API, les bibliothèques sont mises à jour sans intervention humaine. Anthropic utilisait déjà Stainless depuis les premières versions de son API Claude, mais la startup fournissait également ses outils à OpenAI, Google, Replicate, Runway et Cloudflare. Ces clients perdront l'accès aux produits hébergés de Stainless, dont son générateur de SDK, bien qu'ils conservent la propriété des SDK déjà générés et le droit de les modifier. Cette acquisition positionne Anthropic sur un terrain stratégique qui dépasse le simple rachat technologique. Dans le marché de l'IA agentique, la valeur ne réside plus uniquement dans la puissance des modèles, mais dans leur capacité à se connecter à des systèmes externes, des bases de données et des logiciels métiers. Les SDK, serveurs MCP et connecteurs sont précisément la couche technique qui rend cette connexion possible. En intégrant Stainless, Anthropic renforce toute son infrastructure développeur autour de Claude et prive simultanément ses concurrents directs d'un fournisseur jusqu'ici commun. OpenAI et Google, qui comptaient sur ces outils, devront désormais trouver ou développer des alternatives, ce qui représente un coût de friction non négligeable pour leurs équipes techniques et leurs clients. Cette opération s'inscrit dans une logique que les grandes plateformes cloud ont perfectionnée depuis des décennies. AWS, Microsoft Azure et Google Cloud n'ont pas construit leur domination uniquement sur l'infrastructure brute, mais surtout sur des couches d'outils qui fidélisent les développeurs et rendent le changement de fournisseur coûteux. Anthropic applique aujourd'hui cette même recette au marché des agents IA, en s'appropriant une infrastructure critique juste au moment où la compétition s'intensifie. La société pousse parallèlement son protocole MCP, qui standardise la communication entre agents IA et applications tierces, et Stainless vient directement renforcer cette pile. Le rachat transforme Anthropic d'un fabricant de modèles en véritable opérateur d'infrastructure pour développeurs, un positionnement qui pourrait peser lourd dans la consolidation qui s'annonce dans le secteur.

UELes développeurs européens utilisant les outils Stainless via OpenAI ou Google devront migrer vers des alternatives, renforçant leur dépendance à l'écosystème Anthropic/Claude.

💬 Le vrai coup, c'est pas les 300 millions, c'est qu'OpenAI et Google perdent leur fournisseur de SDK commun du jour au lendemain. La maintenance automatique des bibliothèques à chaque évolution d'API, c'est invisible, mais c'est exactement le genre de truc qui colle aux mains et crée une vraie dépendance. Avec MCP qui pousse en parallèle, Anthropic est en train de bâtir la couche infrastructure dont on ne sort pas facilement.

Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA
25Le Big Data 

Blackstone et Google investissent dans un nouveau cloud TPU pour accélérer l’IA

Blackstone et Google ont annoncé le 19 mai 2026 la création d'une coentreprise américaine dédiée aux services de calcul accéléré basés sur les TPU (Tensor Processing Units) de Google. L'accord prévoit un investissement initial de 5 milliards de dollars apportés par Blackstone en fonds propres, avec pour objectif de déployer une première capacité de 500 mégawatts d'ici 2027. Google fournit ses puces TPU, ses logiciels et ses services, tandis que Blackstone apporte son expertise dans la construction et le financement d'infrastructures à grande échelle, le fonds gère plus de 1 300 milliards de dollars d'actifs et possède une présence majeure dans les centres de données. La nouvelle entité sera dirigée par Benjamin Treynor Sloss, ancien cadre de Google avec plus de vingt ans d'expérience dans la conception d'infrastructures critiques. La capacité prévue pourrait être significativement étendue au-delà de 500 MW pour accompagner la montée en puissance des usages IA. Ce partenariat marque un tournant dans la manière dont Google monétise ses TPU, jusqu'ici cantonnées à un usage interne ou distribuées exclusivement via Google Cloud. En créant une structure commerciale indépendante, Google ouvre un nouveau canal de distribution de sa puissance de calcul, plus flexible et accessible à des entreprises qui ne souhaitent pas s'engager exclusivement avec Google Cloud. Pour les acteurs de l'IA, laboratoires de recherche, institutions financières, grandes entreprises, cela représente une alternative crédible aux GPU Nvidia, qui dominent le marché mais restent confrontés à des problèmes de disponibilité et à des coûts élevés. Cette initiative répond aussi à un besoin structurel : les grandes organisations cherchent à sécuriser des capacités de calcul stables sur le long terme, capables de soutenir des modèles d'IA toujours plus gourmands en ressources. Les TPU de Google sont développées depuis plus d'une décennie et alimentent déjà les infrastructures de Gemini ainsi que celles de nombreux partenaires technologiques. Leur ouverture à un marché plus large s'inscrit dans une logique d'industrialisation rapide de l'infrastructure IA : après la course aux modèles génératifs, la bataille se déplace vers l'accès à la puissance de calcul elle-même. Nvidia règne pour l'instant sans partage sur ce segment, mais la pression concurrentielle s'intensifie, avec des acteurs comme AMD, Intel et désormais Google qui cherchent à capter une part croissante de ce marché estimé à plusieurs centaines de milliards de dollars. L'alliance entre l'un des plus grands gestionnaires d'actifs mondiaux et le détenteur d'une technologie de calcul propriétaire de premier plan illustre comment capital financier et puissance technologique convergent pour structurer l'infrastructure de l'IA de demain.

UELes organisations et laboratoires européens de recherche en IA pourraient à terme accéder à une offre de calcul accéléré supplémentaire, mais la coentreprise est domiciliée aux États-Unis et ne cible pas spécifiquement le marché européen.

💬 5 milliards dans une JV dédiée aux TPU, ça dit clairement que la bataille pour l'infrastructure IA est lancée. Google avait ces puces depuis dix ans, les gardait pour son cloud, et il ouvre maintenant le robinet en partageant le risque avec Blackstone. Reste à voir si les TPU sont vraiment compétitifs en dehors des cas d'usage où Google a tout optimisé pour lui-même.

Face aux États-Unis et à la Chine, MISTRAL cherche son propre modèle d’IA et fait l’acquisition d’Emmi AI
26FrenchWeb 

Face aux États-Unis et à la Chine, MISTRAL cherche son propre modèle d’IA et fait l’acquisition d’Emmi AI

Mistral AI, la startup parisienne fondée en 2023 et valorisée plus de six milliards d'euros, annonce l'acquisition d'Emmi AI, une société spécialisée dans les agents conversationnels d'entreprise. Cette opération s'inscrit dans une stratégie de diversification accélérée : plutôt que de se limiter à l'entraînement de modèles fondationnels, Mistral cherche à construire une offre verticalement intégrée, allant du modèle de base jusqu'aux applications déployées chez les clients. Les détails financiers de l'acquisition n'ont pas été rendus publics. L'enjeu est de taille pour l'écosystème européen. Les entreprises du continent restent largement dépendantes des hyperscalers américains (AWS, Azure, Google Cloud) pour leurs infrastructures, des GPU NVIDIA pour le calcul, et des modèles d'OpenAI, Anthropic ou Google pour l'inférence. En absorbant Emmi AI, Mistral tente de proposer une alternative souveraine complète aux directions informatiques européennes soucieuses de leur autonomie stratégique et de conformité réglementaire, notamment au regard de l'AI Act européen entré en vigueur en 2024. Ce rachat intervient alors que la compétition internationale s'intensifie sur deux fronts simultanés : les États-Unis maintiennent leur avance sur les modèles de pointe, tandis que la Chine rattrape son retard à marche forcée avec des architectures intégrées comme celles de Huawei ou Baidu. Pour Mistral, qui a levé 1,1 milliard de dollars en 2024 avec des investisseurs comme Andreessen Horowitz et la Banque publique d'investissement, l'heure est au passage à l'échelle commerciale, pas seulement technologique.

UEL'acquisition d'Emmi AI par Mistral AI renforce l'offre souveraine européenne en agents IA d'entreprise, donnant aux DSI françaises et européennes une alternative intégrée aux solutions américaines, dans un contexte de conformité à l'AI Act.

💬 Mistral fait le pari qu'un modèle de base, ça ne suffit plus. Racheter Emmi AI, c'est aller chercher le client là où il est, dans ses workflows d'entreprise, plutôt que d'attendre qu'il vienne lui-même sur une API. Reste à voir si une startup, même avec un milliard en caisse, peut tenir tête aux hyperscalers sur leur propre terrain.

BusinessOpinion
1 source
SAP Sapphire : l’entreprise autonome devient la nouvelle vision B2B de SAP
27Le Big Data 

SAP Sapphire : l’entreprise autonome devient la nouvelle vision B2B de SAP

Lors de SAP Sapphire 2026, l'éditeur allemand SAP a présenté sa nouvelle vision stratégique : transformer son ERP en une "entreprise autonome" capable d'exécuter des processus critiques de bout en bout grâce à l'IA. Le CEO Christian Klein a dévoilé trois piliers majeurs : SAP Autonomous Suite, qui déploie plus de 50 assistants Joule spécialisés coordonnant plus de 200 agents IA dans la finance, les achats, la supply chain, les RH et l'expérience client ; SAP Business AI Platform, qui fusionne SAP Business Technology Platform, SAP Business Data Cloud et SAP Business AI en un environnement unique ; et Joule Work, une interface orientée objectif accessible sur ordinateur, mobile et commandes vocales. Pour accélérer l'adoption, SAP annonce un fonds de 100 millions d'euros et une série de partenariats avec Anthropic, Amazon Web Services, Google Cloud, Microsoft, NVIDIA, Mistral AI et Cohere. Un cas concret a été mis en avant avec l'énergéticien RWE : des agents IA analysent des milliers d'incidents passés sur des éoliennes offshore pour identifier l'origine probable d'une panne et générer automatiquement des ordres de maintenance préremplis. L'enjeu central de cette annonce est de faire passer l'IA d'un rôle d'assistant à celui d'exécutant autonome au coeur des opérations d'entreprise. L'assistant dédié à la clôture financière illustre l'ambition : en automatisant les écritures comptables, les rapprochements et la correction d'erreurs, SAP promet de réduire un processus qui prenait plusieurs semaines à quelques jours seulement. Pour les grandes entreprises soumises à des exigences croissantes de productivité, de conformité réglementaire et de rapidité, c'est une promesse directement chiffrée en gains opérationnels. Le lancement de sept solutions Industry AI, avec des règles métiers et réglementaires propres à chaque secteur, signale que SAP ne vise plus seulement les directions IT mais les métiers eux-mêmes, qu'il s'agisse de l'énergie, de la logistique ou de la fabrication. Cette offensive s'inscrit dans une compétition frontale entre les grands éditeurs ERP pour la domination de l'IA d'entreprise, face à Oracle, Microsoft et Salesforce qui poursuivent des ambitions similaires. SAP capitalise sur sa position de référence dans les grandes organisations mondiales, où ses systèmes gèrent déjà les données les plus critiques : c'est précisément ce capital de confiance et de données que le groupe cherche à monétiser via l'IA autonome. Le SAP Knowledge Graph, couche qui structure les relations entre données, processus et entités métiers, est présenté comme le socle différenciateur qui donnera aux agents une compréhension contextuelle que des solutions génériques ne peuvent pas offrir. Les partenariats avec des fournisseurs de modèles souverains comme Mistral AI et Cohere indiquent également que SAP anticipe des exigences de conformité et de localisation des données, particulièrement fortes en Europe. La prochaine étape sera de valider ces promesses à grande échelle dans des déploiements réels, au-delà des cas pilotes présentés en conférence.

UESAP, leader européen des ERP, intègre Mistral AI dans sa plateforme et anticipe explicitement les exigences européennes de souveraineté et de localisation des données, avec un fonds de 100 millions d'euros ciblant l'adoption dans les grandes organisations, dont de nombreuses entreprises françaises et européennes déjà clientes.

💬 Les 50 assistants et les 200 agents, c'est du bruit. Ce qui compte, c'est le Knowledge Graph, cette couche qui structure 30 ans de données métiers dans des millions d'entreprises, et que personne d'autre ne peut reproduire du jour au lendemain. Le cas RWE sur les éoliennes, bon, c'est encore un pilote, mais c'est exactement là où SAP peut devenir difficile à contourner.

OutilsOutil
1 source
5 % d'utilisation GPU : le problème d'infrastructure IA à 401 milliards de dollars que les entreprises ne peuvent plus ignorer
28VentureBeat AI 

5 % d'utilisation GPU : le problème d'infrastructure IA à 401 milliards de dollars que les entreprises ne peuvent plus ignorer

Les entreprises ont dépensé des milliards pour sécuriser des GPU à tout prix, et la facture est désormais présentée. Selon Gartner, l'infrastructure IA représente 401 milliards de dollars de nouvelles dépenses en 2025, mais des audits terrain révèlent une réalité bien plus sombre : le taux d'utilisation moyen des GPU en entreprise stagne à 5 %. Pendant deux ans, la panique du « GPU scramble » a poussé DSI et directions financières à constituer des réserves de capacité sous des cycles d'amortissement de trois à cinq ans. Ces actifs sont désormais des coûts fixes inscrits aux bilans, indépendamment de leur usage effectif. Les chiffres du Q1 2026 confirment le basculement : dans le baromètre de VentureBeat, le critère « accès aux GPU » est passé de 20,8 % à 15,4 % en un seul trimestre comme moteur principal des décisions d'achat, tandis que le coût par inférence et le TCO (coût total de possession) bondissaient de 34 % à 41 %, dépassant la performance pure comme critère dominant. À 5 % d'utilisation, l'arithmétique est brutale : pour chaque dollar investi en silicium, 95 centimes partent directement dans la marge des fournisseurs cloud. Dans n'importe quel autre département, un taux de gaspillage de 95 % serait un motif de licenciement ; dans l'infrastructure IA, on appelait ça de la « préparation ». Les grands groupes comme Intuit, Mastercard ou Pfizer, qui bénéficiaient de relations privilégiées avec AWS, Azure et GCP pour sécuriser des réservations de capacité, se sont retrouvés riches en GPU mais pauvres en production : des équipes internes paralysées par la gouvernance des données, la gravité des données et une immaturité architecturale persistante ont empêché toute valorisation réelle de ces ressources. Le discours dominant sur la rareté du silicium a servi d'écran commode pour masquer cette inefficacité structurelle. Ce virage marque la fin de l'ère du chèque en blanc. Le passage à une tarification à l'usage en 2026 transforme les architectures héritées des phases pilotes, pensées avec des tokens en coûts fixes, en véritables passifs financiers. Les agents en contexte long et les pipelines de récupération complexes, construits quand les tokens étaient un coût noyé dans des licences forfaitaires, deviennent intenables sous une facturation mesuréé. L'inférence n'est plus un projet tactique : c'est un modèle économique stratégique dont les unités économiques sont, pour la plupart des entreprises, encore insoutenables. La question n'est plus de savoir si les investissements passés étaient justifiés, mais comment extraire un retour mesurable d'une infrastructure déjà déployée avant que les cycles d'amortissement ne l'emportent.

UELes entreprises européennes investies en infrastructure GPU sont exposées au même risque de sous-utilisation à 5 %, avec des cycles d'amortissement sur 3-5 ans qui transforment ces actifs en passifs financiers au moment où le marché bascule vers une tarification à l'usage.

💬 5 % d'utilisation, c'est le genre de stat qui ferait renvoyer n'importe quel responsable infra dans un département classique. La panique du GPU scramble a servi de couverture : on achetait du silicium pour ne pas rater le train, sans se demander si les équipes data étaient capables d'en faire quelque chose. Le basculement vers le pay-as-you-go va transformer ces réserves en passifs, et ça va faire des dégâts.

InfrastructureOpinion
1 source
Anthropic s'engage à dépenser 200 milliards de dollars sur Google Cloud sur cinq ans
29The Decoder 

Anthropic s'engage à dépenser 200 milliards de dollars sur Google Cloud sur cinq ans

Anthropic s'est engagé à dépenser environ 200 milliards de dollars sur les services de Google Cloud au cours des cinq prochaines années, selon un rapport de The Information. Ce montant représente plus de 40 % du carnet de commandes total de Google Cloud, une proportion sans précédent pour un seul client. OpenAI et Anthropic réunis comptent aujourd'hui pour environ la moitié des 2 000 milliards de dollars de revenus cloud contractualisés chez les quatre grands fournisseurs du marché : Amazon, Microsoft, Google et Oracle, alors que les deux startups demeurent déficitaires. Ces chiffres illustrent la dépendance structurelle des acteurs dominants de l'IA générative à l'infrastructure cloud, et la pression financière considérable qui pèse sur leurs modèles économiques. Pour justifier de tels engagements, Anthropic et OpenAI tablent chacun sur une multiplication de leurs revenus par 20 à 30 d'ici 2029. Si cette trajectoire est atteignable reste une question ouverte, au regard des pertes actuelles et de la compétition acharnée dans le secteur. Ces engagements s'inscrivent dans une relation d'interdépendance financière entre les géants du cloud et les startups IA. Google a investi plusieurs milliards de dollars dans Anthropic en tant qu'actionnaire, et ces dépenses cloud constituent en retour un flux de revenus garanti pour l'infrastructure Google. Ce modèle circulaire, où les fournisseurs cloud financent les startups qui reversent ces capitaux en achats d'infrastructure, soulève des questions sur la viabilité à long terme d'un secteur qui brûle des capitaux à une échelle inédite dans l'histoire de la tech.

UELa dépendance structurelle des leaders de l'IA générative aux infrastructures cloud américaines renforce les enjeux de souveraineté numérique européenne et soulève des questions sur la compétitivité des acteurs du secteur en Europe.

💬 200 milliards sur cinq ans chez Google Cloud, c'est pas un partenariat, c'est une dépendance assumée. Le truc fascinant, c'est la circularité du schéma : Google investit dans Anthropic, Anthropic reverse cet argent à Google Cloud, et tout le monde appelle ça de la croissance. Reste à voir comment ce montage tient si les revenus ne décollent pas au rythme x20 promis.

OGPO : un affinage complet et efficace des politiques de contrôle génératives
30arXiv cs.RO 

OGPO : un affinage complet et efficace des politiques de contrôle génératives

Un preprint arXiv de mai 2026 (2605.03065) présente OGPO, Off-policy Generative Policy Optimization, un algorithme de fine-tuning par renforcement pour les politiques génératives de contrôle (GCPs) basées sur la diffusion ou le flow matching, paradigme central de modèles comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). OGPO propage les gradients à travers l'intégralité du processus génératif via un objectif PPO modifié et maintient des réseaux critiques off-policy pour maximiser la réutilisation des données. Évalué sur des tâches de manipulation multi-tâches, d'insertion haute précision et de contrôle dextère, l'algorithme revendique un état de l'art et serait, selon les auteurs, le premier à fine-tuner des politiques de behavior cloning mal initialisées jusqu'au succès complet sans données expertes dans le replay buffer en ligne. Quatre stabilisateurs pratiques sont introduits : success-buffer regularization, conservative advantages, régularisation χ², et réduction de la Q-variance. Le fine-tuning RL des politiques génératives est l'un des principaux verrous pour le déploiement industriel de la robotique. Le behavior cloning pré-entraîne des modèles polyvalents sur de larges corpus de démonstrations, mais plafonne en deçà des taux de succès requis pour l'assemblage de précision ou la manipulation de pièces complexes. L'absence de données expertes dans le replay buffer est stratégiquement importante : un intégrateur adaptant un modèle fondation à une cellule de production spécifique n'a pas à collecter de nouvelles démonstrations coûteuses. Les stabilisateurs introduits adressent directement la sur-exploitation des critiques, mode d'échec documenté qui rendait les approches précédentes instables sur des observations en pixels. Les politiques diffusion pour la robotique ont émergé en 2023 avec Chi et al. (Diffusion Policy), avant d'être étendues au flow matching avec Pi-0 de Physical Intelligence et la famille GR00T de NVIDIA. Le fine-tuning RL de ces architectures avait été tenté avec des méthodes comme DPPO, mais restait limité aux politiques bien initialisées et nécessitait souvent des données expertes. OGPO se positionne comme une approche généraliste applicable à toute GCP. En compétition académique, les laboratoires de Berkeley, CMU et Stanford travaillent sur des problématiques proches. Côté industriel, Physical Intelligence, Boston Dynamics et Figure AI intègrent ce type d'optimisation dans leurs pipelines, et des acteurs européens comme Enchanted Tools (France) opèrent dans cet espace. La suite logique est une validation à plus grande échelle sur hardware réel et une extension aux architectures VLA (Vision-Language-Action) multimodales.

UEEnchanted Tools (France) opère sur des architectures similaires et pourrait intégrer OGPO pour affiner ses politiques de contrôle sans collecte de démonstrations expertes supplémentaires.

💬 Le vrai verrou, c'était ça : fine-tuner sans avoir à collecter de nouvelles démos expertes, parce que personne n'a le budget pour ça quand on adapte un modèle fondation à une cellule de prod spécifique. OGPO le fait, sur des politiques diffusion comme Pi-0 ou GR00T, avec des stabilisateurs intégrés pour que ça ne s'effondre pas en cours de training sur des observations en pixels. Reste à tenir sur du hardware réel à grande échelle, mais comme porte d'entrée vers la robotique de précision sans données expertes, c'est le genre de papier qu'on attendait.

RechercheOpinion
1 source
AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents
31AWS ML Blog 

AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents

Amazon a annoncé le lancement en préversion d'AgentCore Optimization, une nouvelle fonctionnalité intégrée à sa plateforme Amazon Bedrock AgentCore. Cette brique complète ce qu'Amazon appelle la boucle "observer, évaluer, améliorer" pour les agents IA en production. Concrètement, le système analyse automatiquement les traces de production, génère des recommandations d'optimisation pour les prompts système ou les descriptions d'outils, puis propose deux mécanismes de validation : l'évaluation par lot sur des jeux de données prédéfinis, et les tests A/B en conditions réelles via AgentCore Gateway, avec découpage du trafic en production à un pourcentage configurable et résultats assortis d'intervalles de confiance et de signification statistique. NTT DATA, partenaire annoncé lors du lancement, indique que des processus qui nécessitaient auparavant plusieurs semaines d'ajustement manuel de prompts peuvent désormais s'exécuter en cycles rapides et reproductibles. L'enjeu est de taille pour les équipes produit qui déploient des agents IA : la qualité d'un agent se dégrade silencieusement à mesure que les modèles évoluent, que le comportement des utilisateurs change, et que les prompts sont réutilisés dans des contextes imprévus. Jusqu'ici, la remédiation reposait entièrement sur l'intuition du développeur, lire des traces, formuler une hypothèse, réécrire le prompt, tester quelques cas, déployer, un cycle qui introduit souvent de nouveaux problèmes en corrigeant les anciens. AgentCore Optimization remplace cette boucle artisanale par un processus systématique fondé sur les données : les recommandations sont générées à partir des traces réelles et validées avant tout déploiement, éliminant la part de pari inhérente aux corrections en aveugle. Amazon Bedrock AgentCore, déjà utilisé par des milliers de développeurs pour construire des agents capables de raisonner et d'agir dans des workflows complexes, s'enrichit ainsi d'une couche d'amélioration continue qui manquait jusqu'à présent à l'écosystème. Les grandes équipes disposent certes d'équipes scientifiques dédiées et de benchmarks centralisés, mais ces dispositifs fonctionnent sur des cycles hebdomadaires ou mensuels, pendant que les agents dérivent en production chaque jour. En intégrant la traçabilité OpenTelemetry, les évaluateurs built-in (taux de succès, précision de sélection d'outils, sécurité), et la possibilité de simuler des jeux de données via un acteur LLM jouant le rôle de l'utilisateur final, Amazon positionne AgentCore comme une plateforme complète pour industrialiser l'optimisation des agents, une capacité qui pourrait devenir un critère de choix déterminant face à des concurrents comme Google Vertex AI ou Microsoft Azure AI Foundry.

UELes équipes européennes déployant des agents IA sur Amazon Bedrock peuvent désormais automatiser l'optimisation de leurs prompts et outils, réduisant des cycles d'ajustement manuel qui duraient plusieurs semaines à des itérations rapides et reproductibles.

OutilsOutil
1 source
AgentCore Optimization en préversion : la boucle de qualité des agents
32AWS ML Blog 

AgentCore Optimization en préversion : la boucle de qualité des agents

Amazon a annoncé le 5 mai 2026 la disponibilité en preview d'AgentCore Optimization, une nouvelle fonctionnalité de sa plateforme Amazon Bedrock AgentCore dédiée à l'amélioration continue des agents d'intelligence artificielle en production. Le système introduit une boucle automatisée en trois étapes : génération de recommandations à partir des traces de production, validation par évaluation en batch ou par test A/B, puis déploiement. Concrètement, l'API Recommendations analyse les logs stockés dans CloudWatch pour identifier les failles dans le prompt système ou les descriptions d'outils, en ciblant un signal de récompense défini par l'équipe, taux de succès des objectifs, précision dans la sélection d'outils, ou critères personnalisés via un LLM-as-judge. L'évaluation en batch compare ensuite la nouvelle version sur un jeu de tests préétabli, tandis que le test A/B, routé via AgentCore Gateway, divise le trafic réel selon un pourcentage configurable et produit des résultats avec intervalles de confiance et significativité statistique. NTT DATA, via Yoshiharu Okuda, son responsable de la stratégie IA générative, confirme déjà que des cycles de tuning de prompts qui prenaient auparavant plusieurs semaines sont devenus des itérations rapides et reproductibles grâce à ce système. L'enjeu est de taille pour les équipes produit qui déploient des agents à grande échelle. Jusqu'ici, lorsqu'un agent dégradait en qualité, parce qu'un modèle sous-jacent avait évolué, que les comportements utilisateurs avaient changé, ou qu'un prompt était réutilisé hors de son contexte d'origine, la correction reposait entièrement sur l'intuition d'un développeur : lire les traces, formuler une hypothèse, réécrire le prompt, tester quelques cas, déployer, et recommencer. Ce cycle manuel était non seulement lent, mais souvent contre-productif, un correctif résolvant un problème pour un utilisateur tout en en créant un nouveau pour un autre. AgentCore Optimization remplace cette mécanique artisanale par une boucle systématique alimentée par des données réelles, ce qui permet aux équipes produit de détecter les dérives au fil du quotidien plutôt que d'attendre les benchmarks hebdomadaires ou mensuels des équipes scientifiques dédiées. Amazon Bedrock AgentCore est la plateforme sur laquelle des milliers de développeurs construisent déjà des agents capables de raisonner, planifier et agir dans des workflows complexes. La composante Observability du service capture chaque appel de modèle, invocation d'outil et étape de raisonnement sous forme de traces compatibles OpenTelemetry, fournissant ainsi la matière première nécessaire à la nouvelle boucle d'optimisation. Cette annonce s'inscrit dans une tendance de fond : les grands fournisseurs cloud cherchent à industrialiser non plus seulement la création d'agents, mais leur maintenance opérationnelle dans la durée. Avec cette fonctionnalité encore en preview, Amazon positionne Bedrock comme une plateforme de bout en bout pour le cycle de vie complet des agents, dans un marché où Google Vertex AI et Microsoft Azure AI Foundry jouent la même carte d'intégration verticale.

UELes équipes produit françaises et européennes déployant des agents sur Amazon Bedrock pourront bénéficier de cycles d'optimisation automatisés, réduisant une dépendance aux processus manuels chronophages, sans impact réglementaire ou institutionnel spécifique à l'UE.

OutilsOutil
1 source
AgentCore : optimisation de la qualité des agents, désormais en préversion
33AWS ML Blog 

AgentCore : optimisation de la qualité des agents, désormais en préversion

Amazon a annoncé ce 5 mai 2026 l'intégration de nouvelles capacités d'optimisation automatique dans AgentCore, sa plateforme de déploiement d'agents IA, désormais disponibles en préversion. Ces fonctionnalités couvrent trois mécanismes complémentaires : les Recommandations, l'évaluation par lots (batch evaluation) et les tests A/B. Le moteur de recommandations analyse les traces de production et les résultats d'évaluation pour proposer des améliorations concrètes des prompts système ou des descriptions d'outils, en ciblant un critère de performance défini par le développeur. L'évaluation par lots permet ensuite de valider ces suggestions sur un jeu de données de test prédéfini, en mesurant des scores agrégés pour détecter d'éventuelles régressions. Enfin, les tests A/B comparent deux versions d'un agent en production via AgentCore Gateway, en répartissant le trafic réel selon un pourcentage configurable et en restituant les résultats avec intervalles de confiance et significativité statistique. L'ensemble s'appuie sur un système de traçabilité OpenTelemetry géré par AgentCore Observability, qui capture chaque appel au modèle, chaque invocation d'outil et chaque étape de raisonnement. Ces nouvelles capacités répondent à un problème structurel bien connu des équipes IA en production : la dégradation silencieuse des agents au fil du temps. Lorsque les modèles évoluent, les comportements utilisateurs changent, ou les prompts sont réutilisés dans des contextes imprévus, la qualité baisse sans signal d'alerte clair. Jusqu'ici, le cycle de correction restait entièrement manuel : un utilisateur se plaint, un développeur lit des traces, formule une hypothèse, réécrit le prompt, teste quelques cas et pousse un correctif qui peut en créer un autre. AgentCore ferme cette boucle en remplaçant l'intuition du développeur par des données systématiques, avec un signal de récompense configurable : taux de succès des objectifs, précision de sélection des outils, pertinence, sécurité. Yoshiharu Okuda, directeur de la stratégie IA générative chez NTT DATA, a confirmé que des processus qui nécessitaient auparavant plusieurs semaines de réglage manuel se transforment désormais en cycles rapides et reproductibles. AgentCore est la plateforme d'Amazon Web Services pour construire, connecter et optimiser des agents IA à grande échelle, avec des milliers de développeurs déjà actifs. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud pour proposer des outils d'opérationnalisation des agents, au-delà de la simple inférence. Google Vertex AI, Microsoft Azure AI et AWS se disputent les équipes qui passent de la phase expérimentale à la production à grande échelle, là où la maintenance de la qualité devient un défi d'ingénierie à part entière. En automatisant la boucle observer-évaluer-améliorer, AWS positionne AgentCore comme une infrastructure de fond pour les organisations qui ne peuvent pas se permettre des équipes dédiées à l'optimisation manuelle de prompts sur des cycles hebdomadaires, alors que leurs agents dérivent chaque jour en production.

OutilsActu
1 source
Nebius, Lambda et CoreWeave refusent les TPUs malgré la pression de Google
34The Information AI 

Nebius, Lambda et CoreWeave refusent les TPUs malgré la pression de Google

Lors de sa dernière conférence téléphonique sur ses résultats financiers, Google a annoncé qu'il prévoit de vendre ses puces TPU (tensor processing units) directement à des clients entreprises pour une utilisation dans leurs propres centres de données, une rupture majeure avec une stratégie qui cantonnait jusqu'ici ces accélérateurs quasi exclusivement à Google Cloud. Mais au même moment, trois dirigeants de grands acteurs du "neocloud" ont clairement indiqué ne pas avoir l'intention d'adopter les TPU dans un avenir proche. Chuck Fisher, directeur financier de Lambda, a déclaré lors d'une conférence de The Information : "Nous saignons vert chez Lambda", allusion directe aux couleurs d'Nvidia. Marc Boroditsky, directeur commercial de Nebius, a confirmé que 99 % de la demande que reçoit son entreprise porte sur des GPU Nvidia, précisant que les rares clients qui s'enquièrent des TPU sont souvent d'anciens salariés de Google. Nick Robbins, vice-président de CoreWeave, a quant à lui noté que les principaux utilisateurs de TPU, Google, Anthropic et Meta, sont aussi parmi les plus gros acheteurs de GPU, ce qui conforte la rentabilité de miser sur Nvidia. Ces déclarations révèlent le défi structurel auquel Google se heurte pour faire des TPU une alternative crédible aux GPU d'Nvidia. Les neoclouds, canal de distribution naturel pour ce type de matériel, sont profondément liés à Nvidia : la firme de Santa Clara est à la fois leur principal fournisseur, un investisseur clé et souvent un important client. La logique économique est implacable : lorsque 99 % du marché réclame une technologie précise, parier sur une alternative représente un risque difficile à justifier. Chaque mégawatt alloué fait l'objet d'un calcul de rendement ajusté au risque, et dans ce calcul, Nvidia l'emporte largement. Confronté au désintérêt des grands neoclouds, Google a réorienté sa stratégie de distribution. Après avoir tenté d'intégrer ses TPU aux infrastructures de CoreWeave et de Crusoe, sans succès, la firme a conclu un accord avec Fluidstack, une startup encore peu connue dans le secteur, pour déployer des TPU au bénéfice d'Anthropic, en garantissant des milliards de dollars en baux et en dettes liés à ces déploiements. Le PDG Sundar Pichai a confirmé que Google vise un "groupe sélectif de clients", notamment dans les services financiers et l'IA de pointe, plutôt que de chercher à rendre ses puces aussi répandues que les GPU. Sur le plan financier, Google négocie avec de grands fonds d'investissement pour créer des coentreprises et des véhicules ad hoc permettant d'acheter des TPU et de les louer aux clients finaux, réduisant ainsi sa dépendance aux neoclouds pour la distribution de son matériel propriétaire.

UENebius, acteur neocloud implanté en Europe, confirme que 99 % de la demande de ses clients porte sur des GPU Nvidia, illustrant la dépendance du marché européen à l'égard de ce fournisseur pour l'infrastructure IA.

InfrastructureOpinion
1 source
Google TPU v8 : la puce IA qui défie NVIDIA Blackwell
35Le Big Data 

Google TPU v8 : la puce IA qui défie NVIDIA Blackwell

Google a officiellement présenté sa huitième génération de puces TPU le 22 avril 2026 lors du Google Cloud Next 2026, en introduisant pour la première fois une architecture scindée en deux variantes distinctes. La TPU v8t, baptisée "Sunfish", est dédiée à l'entraînement des modèles et affiche une puissance brute de 12,6 pétaflops en précision FP4, avec 216 Go de mémoire HBM3e. La TPU v8i, surnommée "Zebrafish", cible l'inférence et embarque 288 Go de mémoire HBM3e ainsi qu'une SRAM trois fois plus dense que la génération précédente, permettant de connecter jusqu'à 1 152 puces simultanément via le réseau Boardfly. Ces deux puces s'appuient sur les frameworks JAX et Pathways pour orchestrer des milliers d'unités comme un seul système cohérent, au sein de configurations appelées Superpods. Cette spécialisation marque une rupture stratégique majeure dans la conception des infrastructures IA. En séparant les charges d'entraînement et d'inférence, Google s'attaque directement au "mur de la mémoire" qui freine les modèles actuels les plus ambitieux. La v8i divise par deux la latence d'exécution par rapport à la génération précédente, ce qui est décisif pour les agents IA qui doivent répondre et agir en temps réel sans délai perceptible. Cette architecture répond directement aux exigences de ce que Google appelle l'"ère agentique", où les modèles ne se contentent plus de générer du texte mais exécutent des tâches complexes de manière autonome. Pour les entreprises clientes du cloud Google, cela se traduit par un coût total de possession potentiellement réduit par rapport aux GPU NVIDIA Blackwell, grâce à une intégration verticale complète entre le matériel, le logiciel et les services cloud. La sortie du TPU v8 s'inscrit dans une course à l'infrastructure qui oppose désormais directement les hyperscalers aux fabricants de puces. NVIDIA domine ce marché avec ses GPU Blackwell, mais Google, comme Amazon avec ses Trainium ou Microsoft avec ses Maia, cherche à réduire sa dépendance aux fournisseurs externes en contrôlant chaque couche de la chaîne. L'intégration verticale totale est devenue l'argument central : maîtriser simultanément le silicium, les frameworks d'entraînement et la plateforme cloud permet de proposer des performances optimisées que des solutions tierces ne peuvent pas répliquer à iso-coût. La prochaine bataille se jouera sur la disponibilité effective de ces puces, leur adoption par les grands laboratoires de recherche, et la capacité de Google à convaincre ses clients enterprise que son écosystème propriétaire est préférable à l'interopérabilité que garantit NVIDIA avec CUDA.

UELes entreprises européennes utilisant Google Cloud pour leurs workloads IA pourraient bénéficier d'une réduction du coût total de possession pour l'entraînement et l'inférence, mais l'impact reste conditionnel à l'adoption de l'écosystème propriétaire Google.

💬 Séparer entraînement et inférence sur deux puces distinctes, c'est la bonne décision. Google a compris que le "mur de la mémoire" n'est pas le même problème selon qu'on entraîne un modèle ou qu'on le fait tourner en prod, et diviser la latence par deux sur la v8i c'est pas rien pour les agents. Reste à convaincre les boîtes d'aller full Google, JAX et tout, face à CUDA et son écosystème de quinze ans.

InfrastructureOpinion
1 source
Google fait de la gouvernance des agents IA un produit, les entreprises doivent encore s'adapter
36AI News 

Google fait de la gouvernance des agents IA un produit, les entreprises doivent encore s'adapter

Il y a deux semaines à Las Vegas, lors du Google Cloud Next '26, Google a franchi un cap que l'industrie de l'IA entreprise évitait depuis près de deux ans : intégrer la gouvernance des agents IA directement dans le produit, non pas comme une fonctionnalité optionnelle, mais comme une couche architecturale fondamentale. La pièce maîtresse de l'événement est le Gemini Enterprise Agent Platform, présenté comme le successeur de Vertex AI. Sa particularité : chaque agent construit sur la plateforme reçoit une identité cryptographique unique à des fins de traçabilité et d'audit, tandis qu'une composante appelée Agent Gateway supervise les interactions entre les agents et les données d'entreprise. La gouvernance, autrement dit, est livrée avec le produit, et non ajoutée après coup. Cette annonce répond à un écart alarmant mis en lumière par plusieurs études récentes. Une enquête d'OutSystems auprès de 1 879 décideurs IT, publiée en avril, révèle que 97 % des organisations explorent déjà des stratégies d'agents IA, et que 49 % s'estiment avancées ou expertes dans ce domaine. Pourtant, seulement 36 % disposent d'une approche centralisée de gouvernance, et à peine 12 % utilisent une plateforme unifiée pour contrôler la prolifération des agents. Le Hype Cycle 2026 de Gartner confirme la tension : si seulement 17 % des organisations ont réellement déployé des agents IA à ce jour, plus de 60 % comptent le faire dans les deux prochaines années, la courbe d'adoption la plus agressive jamais enregistrée par Gartner pour une technologie émergente. Dans les faits, entre 11 % et 14 % des projets pilotes d'agents IA atteignent une mise en production réelle. Les 86 à 89 % restants ont été mis en pause, abandonnés, ou n'ont jamais dépassé le stade du proof-of-concept, avec la gouvernance et la complexité d'intégration citées comme causes premières. La stratégie de Google est cohérente : selon une analyse de Bain & Company, l'entreprise se repositionne d'un simple fournisseur d'accès aux modèles vers une plateforme d'entreprise agentique complète, où le contexte, l'identité et la sécurité sont au centre de l'architecture. Fait notable, les trois grands fournisseurs cloud n'ont annoncé leurs registres d'agents qu'en avril 2026, ce qui illustre à quel point les outils de gouvernance restent embryonnaires dans l'ensemble du secteur. Google propose la réponse la plus complète à ce jour, mais elle implique une contrepartie : une intégration profonde dans l'écosystème Google. C'est précisément ce que les architectes d'entreprise doivent arbitrer aujourd'hui. Les systèmes agentiques multiplient les identités et les permissions à une vitesse que les modèles traditionnels de gestion des accès n'ont jamais été conçus pour absorber, et la question n'est plus quel modèle est approuvé, mais quelles actions un agent donné peut exécuter, avec quelle identité, sur quels outils, et avec quelle piste d'audit.

UELes entreprises européennes soumises à l'AI Act, qui impose traçabilité et audit des systèmes IA à haut risque, doivent arbitrer entre adopter la couche de gouvernance Google, la plus complète du marché, et le verrouillage écosystémique qui l'accompagne.

💬 86% des pilotes qui n'arrivent jamais en prod, c'est le chiffre qui résume tout. Google a visiblement lu les mêmes postmortems et décidé d'intégrer la gouvernance dans l'architecture de base plutôt que de la coller en option après coup, ce qui est la seule approche qui tienne quand tes agents se multiplient et accumulent des identités et des permissions à toute vitesse. Le prix à payer, c'est l'intégration profonde dans l'écosystème Google, et les architectes européens sous AI Act vont devoir trancher vite là-dessus.

OutilsOutil
1 source
AWS : guide complet pour migrer des LLMs en production d'IA générative
37AWS ML Blog 

AWS : guide complet pour migrer des LLMs en production d'IA générative

Amazon Web Services a publié un guide technique détaillant un cadre structuré pour migrer des modèles de langage (LLM) en production, baptisé "Generative AI Model Agility Solution". Conçu pour les équipes qui souhaitent passer d'un modèle à un autre, que ce soit entre différentes familles de LLM ou vers une version plus récente du même modèle, le dispositif repose sur trois étapes clés : évaluation du modèle source, migration et optimisation des prompts via Amazon Bedrock Prompt Optimization et l'outil Anthropic Metaprompt, puis évaluation du modèle cible. La durée totale d'une migration en suivant ce cadre varie de deux jours à deux semaines selon la complexité du cas d'usage. AWS met à disposition plusieurs exemples de fonctionnalités et de scénarios concrets pour faciliter la prise en main. La capacité à changer rapidement de modèle est devenue un enjeu stratégique pour les organisations qui déploient de l'IA en production : les performances évoluent vite, les coûts varient fortement d'un fournisseur à l'autre, et rester lié à un seul LLM expose à des risques opérationnels. Ce framework répond à ce problème en automatisant une grande partie du travail de comparaison : il fournit des métriques quantifiables sur le coût, la latence, la précision et la qualité, permettant des décisions fondées sur des données plutôt que sur des impressions. Il prend également en charge les cas où aucune réponse de référence ("ground truth") n'est disponible, en s'appuyant sur des indicateurs comme la pertinence des réponses, leur fidélité au contexte, ou la détection de biais et de contenus toxiques. Le lancement de ce guide s'inscrit dans une compétition intense entre fournisseurs de cloud pour capter les budgets IA des grandes entreprises. Amazon Bedrock, la plateforme d'accès aux LLM managés d'AWS, doit convaincre les organisations qu'elles peuvent migrer vers ses modèles sans friction excessive, notamment face à des concurrents comme Azure OpenAI ou Google Vertex AI. En intégrant nativement l'outil Metaprompt d'Anthropic, AWS mise sur la qualité des prompts comme levier différenciant, une approche cohérente avec les investissements massifs du groupe dans Anthropic. La publication de ce cadre open au niveau méthodologique signale aussi une volonté d'AWS de standardiser les pratiques de migration LLM avant que ce marché ne se fragmente davantage, en positionnant Bedrock comme la plateforme de destination naturelle pour les migrations de production.

OutilsOutil
1 source
Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées
38AWS ML Blog 

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

Amazon a dévoilé une nouvelle fonctionnalité pour son service Bedrock AgentCore Gateway : la connectivité VPC gérée, qui permet aux agents d'intelligence artificielle d'accéder à des ressources privées hébergées derrière des réseaux Amazon Virtual Private Cloud (VPC) sans exposer le trafic sur l'internet public. Concrètement, ce mécanisme repose sur un composant appelé Resource Gateway, qui provisionne automatiquement des interfaces réseau élastiques (ENI) directement à l'intérieur du VPC cible, à raison d'une interface par sous-réseau. Deux modes de fonctionnement sont proposés : le mode managé, où AgentCore prend en charge l'intégralité de l'infrastructure réseau à partir des identifiants VPC, de sous-réseau et des groupes de sécurité fournis par l'utilisateur ; et le mode auto-géré, qui laisse davantage de contrôle à l'équipe technique. Trois scénarios pratiques illustrent ces cas d'usage : la connexion à un endpoint privé Amazon API Gateway, l'intégration avec un serveur MCP (Model Context Protocol) hébergé sur Amazon Elastic Kubernetes Service (EKS), et l'accès à une API REST privée dans un réseau isolé. Pour les équipes qui déploient des agents IA en production, cette capacité représente un gain opérationnel significatif. Jusqu'ici, chaque chemin de connexion entre un agent et un outil interne (base de données, API métier, microservice) nécessitait une configuration réseau manuelle, ralentissant les déploiements et multipliant les risques de mauvais paramétrage. Avec AgentCore Gateway VPC egress, une Resource Configuration délimite précisément l'endpoint accessible, un nom de domaine ou une adresse IP, plutôt que d'ouvrir l'accès à l'ensemble du VPC. La Service Network Resource Association, créée et gérée automatiquement par AgentCore, connecte ensuite cette configuration au réseau de service, ce qui permet à l'agent d'invoquer l'endpoint privé de façon sécurisée et traçable. Pour les organisations avec des architectures multi-VPC ou hybrides, le service s'intègre nativement avec AWS Transit Gateway et le VPC peering inter-régions. Cette annonce s'inscrit dans la stratégie plus large d'Amazon pour rendre ses agents IA exploitables dans des environnements d'entreprise contraints, où la sécurité réseau et la conformité interdisent tout transit par l'internet public. Bedrock AgentCore est la couche d'infrastructure d'Amazon dédiée à l'orchestration et au déploiement d'agents autonomes en production, concurrençant directement les offres de Microsoft Azure AI Foundry et Google Vertex AI Agent Builder. La prise en charge du protocole MCP, standard ouvert porté par Anthropic pour connecter les agents à des outils externes, signale une convergence de l'écosystème autour d'interfaces interopérables. À mesure que les agents IA migrent du prototype vers le système critique, la capacité à les brancher sur des ressources internes sans compromettre le périmètre de sécurité devient un prérequis incontournable pour les DSI, ce qu'Amazon positionne désormais comme une fonctionnalité de première classe.

UELes organisations européennes soumises au RGPD déployant des agents IA peuvent exploiter cette connectivité VPC privée pour maintenir leurs données internes hors de l'internet public, facilitant ainsi la conformité réglementaire.

InfrastructureTuto
1 source
Claude Code, Copilot et Codex ont tous été piratés : les attaquants visaient les identifiants, pas le modèle
39VentureBeat AI 

Claude Code, Copilot et Codex ont tous été piratés : les attaquants visaient les identifiants, pas le modèle

En l'espace de quelques jours fin mars 2026, trois des principaux agents de codage IA ont été compromis. Le 30 mars, le chercheur Tyler Jespersen de BeyondTrust a démontré qu'un simple nom de branche GitHub pouvait forcer Codex d'OpenAI à exfiltrer son token OAuth en clair : en injectant une sous-commande via un point-virgule et des backticks dans le paramètre de nom de branche, le script de clonage devenait un vecteur d'exfiltration. Pour masquer l'attaque, 94 caractères "Ideographic Space" (Unicode U+3000) rendaient la branche malveillante visuellement identique à "main" dans l'interface Codex. OpenAI a classé la faille Critical P1 et livré un correctif complet le 5 février 2026. Deux jours plus tard, le code source de Claude Code d'Anthropic se retrouvait sur le registre npm public. Dans la foulée, Adversa découvrait que Claude Code cessait silencieusement d'appliquer ses règles de blocage dès qu'une commande dépassait 50 sous-commandes, un compromis délibéré entre sécurité et performance. Trois CVE distincts ont touché Claude Code en parallèle : CVE-2026-25723 permettait de contourner le sandbox via des commandes chaînées sed/echo ; CVE-2026-33068 permettait à un dépôt malveillant de pré-configurer le mode bypassPermissions dans .claude/settings.json avant même que la boîte de dialogue de confiance n'apparaisse. Côté Microsoft, Johann Rehberger a prouvé que des instructions cachées dans une description de pull request pouvaient activer l'auto-approbation dans les paramètres VS Code de Copilot, accordant une exécution shell illimitée sur Windows, macOS et Linux. Orca Security a ensuite montré qu'un simple ticket GitHub suffisait à faire exfiltrer le GITHUB_TOKEN privilégié par Copilot dans GitHub Codespaces. Ce qui unit toutes ces attaques, c'est l'identique surface d'entrée : non pas le modèle de langage, mais le credential qu'il détient et qu'il utilise sans session humaine pour l'ancrer. Merritt Baer, CSO d'Enkrypt AI et ancienne Deputy CISO chez AWS, résume le problème : les entreprises croient avoir "approuvé" un fournisseur d'IA, mais elles n'ont approuvé qu'une interface, pas le système sous-jacent. Ce sont les credentials sous cette interface qui constituent la vraie surface d'attaque. Un agent compromis n'a pas besoin d'exploiter le modèle, il lui suffit d'hériter des droits d'accès de l'environnement dans lequel il s'exécute pour prendre le contrôle d'un dépôt entier. Ces incidents s'inscrivent dans une série de neuf mois commencée à Black Hat USA 2025, où Michael Bargury, CTO de Zenity, avait détourné en direct ChatGPT, Microsoft Copilot Studio, Google Gemini, Salesforce Einstein et Cursor via un MCP Jira, sans aucun clic utilisateur. Six équipes de recherche ont depuis publié des exploits contre Codex, Claude Code, Copilot et Vertex AI, tous suivant le même schéma. L'enjeu n'est plus théorique : les agents de codage sont désormais branchés sur des pipelines CI/CD réels, disposent de tokens avec des droits d'écriture sur des dépôts de production, et opèrent avec une supervision humaine minimale. Tant que l'autorisation restera aussi plate que celle d'un LLM et que les règles de sécurité pourront être contournées par un simple dépassement de seuil arbitraire, les tokens resteront la cible de choix.

UELes développeurs et entreprises européens utilisant Claude Code, GitHub Copilot ou Codex dans leurs pipelines CI/CD sont exposés à des risques de vol de tokens et de compromission de dépôts de production, nécessitant une révision immédiate des permissions accordées à ces agents IA.

💬 Trois agents, trois failles, même surface d'attaque : le token, pas le modèle. C'est un peu gênant de voir qu'on reproduit les mêmes erreurs d'OAuth mal configuré qu'il y a dix ans, juste avec plus de puissance de feu et des droits d'écriture sur des dépôts de production. On a déployé avant de comprendre, et maintenant on ramasse.

SécuritéOpinion
1 source
Voici comment se structure le nouvel accord entre Microsoft et OpenAI
40The Verge AI 

Voici comment se structure le nouvel accord entre Microsoft et OpenAI

Microsoft et OpenAI ont annoncé lundi une refonte majeure de leur accord de partenariat, mettant fin à plusieurs années d'exclusivité qui liait le déploiement des services d'OpenAI à l'infrastructure cloud Azure de Microsoft. Le changement le plus significatif autorise désormais OpenAI à proposer ses produits et services sur l'ensemble des fournisseurs cloud, ouvrant la voie à des accords avec AWS, Google Cloud ou d'autres concurrents de Microsoft. La séparation a été décrite par les deux parties comme étant remarquablement cordiale, malgré les tensions accumulées au fil des années. Ce rééquilibrage représente un tournant stratégique considérable pour l'industrie de l'IA. OpenAI gagne en indépendance et en flexibilité commerciale, pouvant désormais négocier avec n'importe quel opérateur cloud selon les besoins de ses clients. Pour Microsoft, qui a investi plusieurs milliards de dollars dans OpenAI depuis 2019, cela signifie la perte d'un avantage concurrentiel majeur, même si la relation commerciale entre les deux entreprises se poursuit sous une forme révisée. Le partenariat Microsoft-OpenAI a traversé de multiples turbulences ces dernières années : désaccords entre dirigeants, renégociations contractuelles répétées, et frustrations autour des capacités d'infrastructure nécessaires pour entraîner et déployer des modèles toujours plus puissants. L'arrivée d'OpenAI dans le statut de société à but lucratif et sa montée en puissance comme acteur autonome rendaient inévitable cette évolution vers plus d'indépendance, dans un secteur où la guerre des clouds est désormais indissociable de la course à l'IA.

UELes entreprises européennes utilisant des services d'IA générative disposent désormais d'une plus grande flexibilité pour choisir leur fournisseur cloud, réduisant la dépendance à un opérateur unique.

BusinessOpinion
1 source
Dopés par l’IA, les géants du cloud projettent 700 milliards $ d’investissements en 2026
41Next INpact 

Dopés par l’IA, les géants du cloud projettent 700 milliards $ d’investissements en 2026

Microsoft, Meta, Amazon et Alphabet ont publié simultanément leurs résultats financiers le 29 avril 2026, tous supérieurs aux attentes, et tous accompagnés d'une révision à la hausse de leurs prévisions d'investissement dans l'intelligence artificielle. Additionnées, leurs enveloppes atteignent désormais 700 milliards de dollars pour l'année en cours. Google Cloud se distingue particulièrement avec un chiffre d'affaires bondissant de 12,26 à 20 milliards de dollars sur le seul premier trimestre, soit une progression de 60 %, adossée à un carnet de commandes dépassant 460 milliards. La maison mère Alphabet clôture le trimestre à près de 110 milliards de chiffre d'affaires, en hausse de 22 % sur un an, portée aussi bien par la publicité search (+20 %, à 60 milliards) que par YouTube. Amazon Web Services, leader mondial du cloud, enregistre pour sa part une croissance de 28 % sur un an, à 37,6 milliards de dollars, sa meilleure performance depuis quinze trimestres. Le trimestre a également vu AWS signer une trentaine de partenariats stratégiques avec OpenAI, Anthropic, NVIDIA, Meta, l'armée américaine et le groupe français Veolia. Ces chiffres signalent que l'IA n'est plus seulement un poste de dépenses pour les géants du cloud : elle est devenue un moteur de revenus mesurable. Sundar Pichai indique que les modèles Gemini traitent désormais plus de 16 milliards de tokens par minute via l'API, soit une hausse de 60 % par rapport au trimestre précédent. Chez Amazon, la division Bedrock aurait traité sur ce seul trimestre plus de tokens que sur toutes les années précédentes cumulées. Au-delà du cloud stricto sensu, l'IA irrigue désormais la publicité programmatique et les outils d'automatisation des achats médias, élargissant son impact à l'ensemble de l'écosystème numérique. Amazon monte également en puissance dans les semiconducteurs, avec une activité projetée à plus de 20 milliards de dollars annuels, positionnant le groupe comme fournisseur et premier client de ses propres puces. Cette publication groupée intervient dans un contexte où les interrogations sur une éventuelle bulle spéculative autour de l'IA se multiplient, sans que les résultats opérationnels ne les confirment pour l'instant. Les quatre groupes ont massivement investi dans les data centers et les infrastructures GPU depuis 2023, des dépenses qui commencent à se traduire en revenus récurrents via les contrats cloud longue durée. La concentration des investissements autour de quelques acteurs, AWS, Google Cloud, Azure, renforce une logique d'oligopole qui rend l'entrée sur ce marché structurellement difficile pour les challengers. Les prochains trimestres seront déterminants pour confirmer si cette dynamique tient face aux incertitudes tarifaires américaines et à la montée en puissance de concurrents chinois comme Alibaba Cloud ou Huawei.

UELe groupe français Veolia a signé un partenariat stratégique avec AWS, et la concentration des 700 milliards d'investissements autour de quelques acteurs américains renforce la dépendance structurelle des entreprises et États européens vis-à-vis du cloud américain.

💬 700 milliards, c'est plus une promesse, c'est du revenu qui rentre. AWS à +28 %, Google Cloud à +60 % sur un seul trimestre, bon, le discours sur la bulle spéculative devient difficile à tenir. Le vrai sujet, c'est l'oligopole qui se cimente, et pour les entreprises et États européens, cette dépendance va coûter cher.

BusinessOpinion
1 source
Google Cloud et AWS brillent dans les résultats trimestriels des géants technologiques
42The Information AI 

Google Cloud et AWS brillent dans les résultats trimestriels des géants technologiques

Google, Microsoft, Amazon et Meta ont simultanément publié leurs résultats du premier trimestre 2026, déclenchant un déluge de chiffres qui a dominé l'actualité financière de la journée. Le constat le plus net qui se dégage de cette publication groupée : la demande en capacité de calcul liée à l'intelligence artificielle continue d'accélérer, et elle tire vers le haut les revenus cloud des trois grands, AWS, Google Cloud et Azure. Amazon a particulièrement brillé, tout comme Google Cloud, avec des croissances qui ont dépassé les attentes des analystes. Andy Jassy, PDG d'Amazon, a résumé l'ambiance en quelques mots : « Ce n'est un secret pour personne que les laboratoires d'IA dépensent des sommes considérables en infrastructure de calcul. » Ce dynamisme a pourtant une face moins reluisante. Une part significative de la demande cloud provient des grands laboratoires d'IA eux-mêmes, Anthropic, OpenAI et leurs équivalents, qui consomment massivement des ressources GPU pour entraîner et faire tourner leurs modèles. Cela signifie que la croissance actuelle du cloud est en partie circulaire : les fournisseurs cloud investissent dans l'IA, et les entreprises d'IA réinjectent ces revenus en achetant encore plus de cloud. Jassy a néanmoins tenu à nuancer le tableau, soulignant qu'une partie non négligeable de la demande émane d'entreprises classiques qui intègrent l'IA dans leurs opérations, ce qui est indispensable si l'on veut que la révolution de l'IA soit économiquement viable à long terme. Sur le front publicitaire, Meta et Google ont également affiché de bons résultats, l'IA améliorant le ciblage et l'efficacité de leurs régies. Ces résultats s'inscrivent dans une séquence d'investissements massifs : les grandes entreprises technologiques ont collectivement annoncé des centaines de milliards de dollars de dépenses en infrastructure IA pour 2025 et 2026. La question qui reste ouverte est celle de la rentabilité de cet écosystème au-delà des hyperscalers eux-mêmes. Si les entreprises ordinaires adoptent l'IA à grande échelle, comme Jassy l'espère, le modèle tient. Dans le cas contraire, la bulle d'investissement repose essentiellement sur une concentration de quelques acteurs qui se financent mutuellement, un équilibre que les prochains trimestres permettront de mieux évaluer.

UEL'essor de la demande cloud tirée par l'IA se répercute indirectement sur les entreprises européennes qui dépendent de ces infrastructures pour déployer leurs propres projets d'IA, sans que l'article n'identifie d'impact direct sur la France ou l'UE.

BusinessActu
1 source
Entre OpenAI et Microsoft la rupture se précise : ChatGPT peut aller se vendre ailleurs
43Frandroid 

Entre OpenAI et Microsoft la rupture se précise : ChatGPT peut aller se vendre ailleurs

OpenAI et Microsoft ont revu en profondeur les termes de leur partenariat historique, conclu en 2019 et renforcé par des investissements cumulés de Microsoft dépassant les 13 milliards de dollars. Selon les nouvelles modalités de l'accord, OpenAI n'est plus tenu de distribuer exclusivement ses modèles et services via Azure, le cloud de Microsoft. La startup peut désormais nouer des accords commerciaux avec d'autres fournisseurs d'infrastructure, tout en maintenant une relation privilégiée avec Redmond, qui conserve un accès prioritaire aux technologies d'OpenAI. Ce changement redistribue les cartes dans la compétition pour l'infrastructure IA. Google Cloud, Oracle ou encore Amazon Web Services peuvent désormais accueillir les API d'OpenAI, ce qui ouvre à la startup un marché bien plus large pour monétiser ses modèles. Pour les entreprises clientes, cela signifie davantage de flexibilité : elles pourront intégrer GPT-4o ou d'autres modèles sans passer obligatoirement par Azure. Microsoft, de son côté, perd un avantage concurrentiel majeur qui lui avait permis de dominer le segment entreprise de l'IA depuis 2023. Ce rééquilibrage s'inscrit dans la transformation profonde qu'OpenAI traverse depuis fin 2024 : la startup accélère sa conversion en société à but lucratif classique et prépare une potentielle introduction en bourse, estimant sa valeur autour de 300 milliards de dollars. Prendre ses distances avec un partenaire unique devient une nécessité stratégique pour attirer de nouveaux investisseurs et démontrer son autonomie commerciale. Microsoft reste actionnaire et partenaire de référence, mais l'ère de l'exclusivité de fait semble bel et bien révolue.

UELes entreprises européennes utilisant les API OpenAI via Azure pourront désormais choisir d'autres fournisseurs cloud, réduisant leur dépendance à un fournisseur unique et potentiellement renégociant leurs contrats d'infrastructure IA.

BusinessOpinion
1 source
Fin de l’exclusivité, revenus plafonnés : les coulisses du nouveau deal Microsoft et OpenAI
44Le Big Data 

Fin de l’exclusivité, revenus plafonnés : les coulisses du nouveau deal Microsoft et OpenAI

Le 27 avril 2026, Microsoft et OpenAI ont officialisé une refonte en profondeur de leur partenariat stratégique, noué en 2019. Les deux entreprises ont annoncé la fin de l'exclusivité stricte qui liait jusqu'ici leurs relations commerciales, l'introduction d'un plafond sur les flux financiers mutuels, et une ouverture explicite au multi-cloud. Concrètement, Microsoft conserve son statut de partenaire cloud prioritaire jusqu'en 2032, ce qui signifie que les produits OpenAI continueront d'être lancés en premier sur Azure. Mais OpenAI peut désormais distribuer ses solutions sur d'autres infrastructures cloud, notamment si certaines fonctionnalités ne sont pas supportées par Microsoft. Côté propriété intellectuelle, la licence accordée à Microsoft sur les modèles OpenAI reste valable jusqu'en 2032, mais devient non exclusive. Sur le plan financier, Microsoft cesse de verser sa part de revenus à OpenAI, tandis que les flux inverses sont maintenus jusqu'en 2030 avec un plafond global. Microsoft demeure actionnaire clé d'OpenAI, et les deux partenaires poursuivront des projets communs, dont l'expansion de centres de données à l'échelle du gigawatt et le développement de semi-conducteurs dédiés à l'IA. Cet accord redistribue les cartes dans l'économie de l'IA générative en entreprise. Pour OpenAI, la liberté de déployer sur d'autres clouds est un gain commercial majeur : l'entreprise peut désormais répondre aux besoins clients sur AWS, Google Cloud ou Oracle sans dépendre du bon vouloir de Microsoft. Pour les entreprises utilisatrices, cela signifie davantage de choix d'infrastructure sans renoncer aux modèles d'OpenAI. Pour Microsoft, l'assouplissement est un pari calculé : Azure perd son monopole de fait sur les modèles GPT, mais le plafond de revenus et le maintien d'un accès privilégié limitent les risques financiers et technologiques. La logique de revenus bornés introduit surtout une prévisibilité que les deux groupes jugent préférable à une dépendance mutuelle de plus en plus contraignante dans un marché en accélération. Depuis les premiers investissements de Microsoft en 2019, puis le passage à plusieurs milliards de dollars injectés au fil des années, ce partenariat a structuré la montée en puissance de l'IA générative dans le monde professionnel, faisant d'Azure la porte d'entrée quasi obligatoire pour les entreprises voulant exploiter GPT-4 ou les modèles successeurs. Mais l'émergence de rivaux crédibles, Anthropic chez Amazon, Gemini chez Google, ainsi que la multiplication des cas d'usage et des clients souhaitant éviter un fournisseur unique, rendaient l'architecture exclusive de moins en moins tenable. Sam Altman a confirmé la nouvelle sur X dès le 27 avril, soulignant qu'OpenAI reste engagé à fournir modèles et produits à Microsoft jusqu'en 2032. La prochaine étape à surveiller est la conversion d'OpenAI en société à but lucratif classique, un processus en cours qui renforcera encore l'autonomie stratégique de l'entreprise vis-à-vis de ses partenaires historiques.

UELes entreprises européennes utilisant OpenAI gagnent en flexibilité d'infrastructure cloud, pouvant désormais déployer les modèles OpenAI sur AWS, Google Cloud ou Oracle sans dépendre exclusivement d'Azure.

💬 L'exclusivité, c'était une coquille qui craquait de partout. OpenAI peut maintenant déployer sur AWS ou GCP sans demander la permission à Microsoft, et pour les entreprises qui voulaient éviter de tout concentrer sur Azure, c'est un soulagement réel. Reste à voir si le "partenaire prioritaire jusqu'en 2032" c'est du cosmétique ou si Azure garde vraiment la main.

BusinessOpinion
1 source
Microsoft et OpenAI mettent fin à l'exclusivité de leur accord, ouvrant AWS et Google Cloud à OpenAI
45VentureBeat AI 

Microsoft et OpenAI mettent fin à l'exclusivité de leur accord, ouvrant AWS et Google Cloud à OpenAI

Microsoft et OpenAI ont annoncé lundi une refonte majeure de leur partenariat, mettant fin à l'exclusivité commerciale qui liait les deux entreprises depuis 2019. Selon les nouvelles modalités, OpenAI peut désormais distribuer ses produits sur n'importe quel fournisseur cloud, y compris Amazon Web Services et Google Cloud, une rupture avec l'accord initial qui réservait exclusivement à Azure l'hébergement de l'API d'OpenAI. Microsoft cesse de percevoir une part de revenus sur les accès aux modèles d'OpenAI via Azure, tandis qu'OpenAI continuera de reverser 20 % de ses recettes à Microsoft jusqu'en 2030, avec un plafond global désormais fixé. Microsoft conserve une licence sur la propriété intellectuelle d'OpenAI jusqu'en 2032, mais celle-ci est explicitement non exclusive. Les deux entreprises ont présenté cet accord dans des billets de blog publiés simultanément lundi. Cette restructuration ouvre la voie à OpenAI pour séduire les grandes entreprises qui exigent une flexibilité multi-cloud. Ces clients, le segment à la croissance la plus rapide d'OpenAI, refusaient de dépendre d'un seul fournisseur d'infrastructure. En permettant à OpenAI de vendre directement sur AWS et Google Cloud, l'accord lève un frein commercial majeur à un moment où la concurrence entre fournisseurs de modèles s'intensifie. Pour Microsoft, la fin de la part de revenus sur Azure représente un manque à gagner potentiel, mais l'entreprise conserve un accès privilégié et une licence sur la technologie d'OpenAI jusqu'en 2032. Pour l'industrie dans son ensemble, ce virage signale que même les alliances technologiques les plus exclusives cèdent sous la pression des réalités commerciales. Le partenariat originel remontait à 2019, quand Microsoft avait investi 1 milliard de dollars dans OpenAI, avant de porter ses engagements cumulés à plus de 13 milliards. En échange, Microsoft obtenait un accès commercial exclusif aux modèles d'OpenAI et à sa propriété intellectuelle. L'accord contenait même une clause philosophique singulière : l'exclusivité de Microsoft devait durer jusqu'à ce qu'OpenAI atteigne l'intelligence artificielle générale, dont la définition était laissée à la discrétion du conseil d'administration d'OpenAI. Ce modèle fonctionnait quand OpenAI n'était qu'un laboratoire de recherche, mais l'explosion de ChatGPT fin 2022 et la montée en flèche des revenus vers plusieurs milliards de dollars annuels ont rendu la contrainte insoutenable. La directrice des revenus d'OpenAI, Denise Dresser, avait récemment reconnu en interne que le partenariat "limitait la capacité de l'entreprise à rejoindre les clients là où ils se trouvent". Après des mois de tensions en coulisses, de contradictions publiques et de menaces de litiges, les deux entreprises ont choisi de transformer leur alliance exclusive en une relation commerciale stratégique mais nettement plus souple.

UELes entreprises européennes utilisant OpenAI gagnent en flexibilité multi-cloud, pouvant désormais déployer les modèles sur AWS et Google Cloud sans dépendance exclusive à Azure.

BusinessOpinion
1 source
Fin de l'exclusivité : Microsoft autorise OpenAI à recourir à d'autres fournisseurs cloud
46Ars Technica AI 

Fin de l'exclusivité : Microsoft autorise OpenAI à recourir à d'autres fournisseurs cloud

Microsoft et OpenAI ont annoncé conjointement une révision majeure de leur accord de partenariat, mettant fin à l'exclusivité qui liait les deux entreprises depuis 2019. Selon les termes du nouvel accord, OpenAI pourra désormais proposer l'ensemble de ses produits et modèles à des clients utilisant n'importe quel fournisseur cloud, et non plus exclusivement Microsoft Azure. Microsoft conserve néanmoins une licence sur la propriété intellectuelle et les modèles d'OpenAI jusqu'en 2032, et Azure demeure le "partenaire cloud principal" de l'entreprise pendant cette période. Le partage de revenus de 20 % versé par OpenAI à Microsoft est maintenu, mais il sera désormais plafonné à un montant non divulgué et uniquement garanti jusqu'en 2030. Ce changement ouvre une brèche considérable dans l'un des accords les plus structurants de l'industrie de l'intelligence artificielle. OpenAI pourra désormais nouer des partenariats avec des concurrents d'Azure comme Amazon Web Services ou Google Cloud Platform, intensifiant la compétition entre les géants du cloud pour héberger les modèles les plus puissants du marché. Pour les entreprises clientes d'OpenAI, cela signifie potentiellement plus de flexibilité dans le choix de leur infrastructure. Côté Microsoft, l'accord reste avantageux sur le plan de la licence, mais le groupe cède une position d'exclusivité qu'il détenait depuis six ans. Le partenariat originel avait débuté en 2019 avec un investissement initial de Microsoft d'un milliard de dollars, suivi d'engagements supplémentaires estimés à plusieurs milliards. L'un des points les plus controversés de l'accord initial était la "clause AGI" : elle prévoyait la fin de l'exclusivité si OpenAI venait à atteindre le seuil de l'intelligence artificielle générale, un critère notoirement difficile à définir. La révision annoncée rend désormais le partage de revenus "indépendant des progrès technologiques d'OpenAI", supprimant de fait cette clause ambiguë. Cette évolution intervient alors qu'OpenAI cherche à s'affirmer comme une entreprise pleinement indépendante, dans un contexte où les débats autour de sa gouvernance et de son statut à but non lucratif continuent d'agiter la Silicon Valley.

UELes entreprises européennes clientes d'OpenAI pourront désormais choisir librement leur fournisseur cloud (AWS, GCP) au lieu d'être contraintes à Azure, offrant plus de flexibilité stratégique et potentiellement de meilleures conditions tarifaires.

BusinessOpinion
1 source
Microsoft et OpenAI mettent fin à leur accord exclusif et s'ouvrent aux clouds concurrents
47Interesting Engineering 

Microsoft et OpenAI mettent fin à leur accord exclusif et s'ouvrent aux clouds concurrents

Microsoft et OpenAI ont officiellement mis fin à leur relation exclusive le 27 avril 2026, restructurant en profondeur l'accord qui liait les deux entreprises depuis plusieurs années. Selon les termes révisés, OpenAI pourra désormais proposer ses produits et services sur l'ensemble des plateformes cloud, y compris AWS d'Amazon et Google Cloud d'Alphabet, alors qu'Azure de Microsoft était jusqu'ici le seul partenaire autorisé. Microsoft conserve son statut de partenaire cloud principal et bénéficie d'une licence non exclusive sur les modèles et produits d'OpenAI jusqu'en 2032. Sur le plan financier, Microsoft cesse de percevoir une part des revenus générés via Azure, tandis qu'OpenAI continuera de lui verser une commission jusqu'en 2030, mais plafonnée et désormais découplée des jalons technologiques comme l'intelligence artificielle générale, qui conditionnaient auparavant les versements. Ce changement ouvre concrètement le marché entreprise à OpenAI d'une façon qui n'était pas possible jusqu'ici. Gil Luria, analyste chez D.A. Davidson & Co., l'a formulé clairement dans les colonnes de Reuters : les clients AWS et Google Cloud étaient freinés dans leur adoption des outils OpenAI précisément à cause de l'exclusivité, et ils vont désormais pouvoir envisager OpenAI aux côtés d'Anthropic. Pour les grandes organisations qui opèrent en dehors de l'écosystème Microsoft, c'est une levée de verrou majeure. Les analystes de Barclays y voient un bénéfice mutuel : Microsoft réduit sa charge d'infrastructure, tandis qu'OpenAI accélère son déploiement à grande échelle sans dépendre d'un seul fournisseur. Cette évolution s'inscrit dans un contexte de maturité du marché de l'IA d'entreprise, mais aussi de pression réglementaire croissante aux États-Unis, au Royaume-Uni et en Europe, où l'exclusivité entre les deux géants suscitait des inquiétudes sur la concurrence dans le cloud. De son côté, Microsoft diversifie déjà sa stratégie IA en développant ses propres modèles et en intégrant des alternatives comme ceux d'Anthropic dans Microsoft 365 Copilot. OpenAI, pour sa part, avait anticipé ce tournant en sécurisant d'autres partenariats cloud pour augmenter sa capacité de calcul. Les deux entreprises ont annoncé qu'elles poursuivront leur collaboration sur l'expansion des centres de données, le co-développement de puces avancées et la cybersécurité pilotée par l'IA. Le partenariat n'est plus exclusif, mais il reste structurant pour l'avenir de l'IA en entreprise.

UELes entreprises européennes hébergées sur AWS ou Google Cloud peuvent désormais adopter les outils OpenAI sans migrer vers Azure, ce qui répond aux préoccupations des régulateurs européens sur la concurrence dans le marché cloud IA.

💬 C'était écrit, et franchement j'attendais ça. L'exclusivité Azure freinait des pans entiers du marché enterprise (les boîtes sur AWS ou GCP ne voulaient pas migrer juste pour accéder aux outils OpenAI), sans compter les régulateurs européens qui commençaient à montrer les dents. OpenAI récupère sa liberté de distribution, Microsoft conserve sa licence et sa commission jusqu'en 2032, tout le monde rentre à la maison content, sur le papier du moins.

BusinessOpinion
1 source
OpenAI met fin à sa relation exclusive avec Microsoft : ChatGPT s’ouvre à la concurrence
48Numerama 

OpenAI met fin à sa relation exclusive avec Microsoft : ChatGPT s’ouvre à la concurrence

OpenAI a annoncé la fin de son partenariat exclusif avec Microsoft à quelques heures de l'ouverture de son procès contre Elon Musk. Concrètement, l'entreprise créatrice des modèles GPT et de ChatGPT ouvre désormais ses services à l'ensemble des fournisseurs de cloud, sans restriction. Microsoft, qui détient 27 % du capital d'OpenAI après avoir investi environ 13 milliards de dollars, cessera par ailleurs de percevoir une part des revenus générés par le partenariat, perdant ainsi son statut de distributeur exclusif. Ce changement redistribue les cartes dans la guerre que se livrent les grands acteurs du cloud autour de l'IA générative. Google Cloud, Amazon Web Services ou encore Oracle pourront désormais proposer les modèles d'OpenAI à leurs clients, ce qui élargit considérablement la diffusion de ChatGPT et des API associées. Pour Microsoft, le coup est symboliquement fort : l'entreprise conserve sa participation au capital mais perd le levier commercial qui justifiait en partie la valorisation stratégique de son investissement. Cette décision intervient dans un contexte de tension croissante autour de la gouvernance d'OpenAI. Elon Musk, cofondateur de l'organisation, poursuit l'entreprise en justice en contestant sa transformation en entité commerciale à but lucratif, une évolution qui selon lui trahit la mission initiale de l'organisation. En rompant l'exclusivité avec Microsoft, OpenAI cherche à neutraliser l'argument selon lequel ses liens financiers avec un géant technologique compromettent son indépendance, tout en s'ouvrant à un marché beaucoup plus large.

UELes entreprises et développeurs européens utilisant les API OpenAI disposeront désormais de plus d'options d'accès via Google Cloud, AWS ou Oracle, réduisant la dépendance exclusive à Microsoft Azure.

BusinessOpinion
1 source
Google investit jusqu'à 40 milliards de dollars dans Anthropic
49Ars Technica AI 

Google investit jusqu'à 40 milliards de dollars dans Anthropic

Google s'apprête à injecter entre 10 et 40 milliards de dollars dans Anthropic, la startup d'IA fondée par d'anciens dirigeants d'OpenAI. Selon Bloomberg, le montant initial confirmé est de 10 milliards de dollars, mais il pourrait atteindre 40 milliards si Anthropic remplit certains objectifs de performance. Cette annonce intervient quelques jours après qu'Amazon a formalisé un investissement initial de 5 milliards de dollars dans la même entreprise, avec une clause similaire permettant d'augmenter la mise selon les résultats. Les deux transactions valorisent Anthropic à 350 milliards de dollars, ce qui en ferait l'une des startups les mieux valorisées de l'histoire de la tech. Cet afflux massif de capitaux traduit la montée en puissance des modèles Claude d'Anthropic sur le marché de l'IA générative. Le produit Claude Code, qui permet aux développeurs et aux entreprises d'accélérer et d'automatiser une partie de leur travail de développement logiciel, a notamment contribué à cette croissance rapide. Les gains concrets varient fortement selon les projets et les contextes d'utilisation, mais l'outil a sufisamment convaincu pour attirer des partenariats de cette envergure. Pour les acteurs industriels qui intègrent des modèles d'IA dans leurs workflows, le signal est clair: Anthropic s'installe durablement comme un concurrent sérieux face à OpenAI et à Google DeepMind lui-même. La situation révèle une dynamique singulière dans l'industrie: Google investit massivement dans une entreprise qui concurrence directement ses propres produits d'IA, comme Gemini. Ce positionnement s'explique par la logique des grandes plateformes cloud, Google Cloud étant l'un des fournisseurs d'infrastructure d'Anthropic, aux côtés d'Amazon Web Services. Les deux géants cherchent ainsi à capter la valeur générée par la croissance d'Anthropic tout en s'assurant que leurs infrastructures restent au coeur de l'écosystème IA. Avec une valorisation à 350 milliards de dollars et des engagements financiers qui pourraient dépasser 45 milliards en cumulé, la course aux modèles de fondation entre dans une nouvelle phase, dominée par des montants autrefois réservés aux États.

UEL'afflux massif de capitaux consolide Anthropic comme fournisseur de référence en IA générative, ce qui peut orienter les choix de modèles des entreprises européennes, sans impact réglementaire ou institutionnel direct sur la France ou l'UE.

Google Cloud propose un nouvel outil pour organiser les données de votre entreprise
50Le Big Data 

Google Cloud propose un nouvel outil pour organiser les données de votre entreprise

Google Cloud a annoncé le 22 avril 2026, lors de son événement Google Cloud Next, le lancement de Knowledge Catalog, un moteur de contexte unifié intégré à sa plateforme Dataplex. L'outil agrège les métadonnées issues de multiples systèmes, aussi bien natifs comme BigQuery que des plateformes tierces, pour créer une source unique de vérité accessible en temps réel. Au-delà du simple inventaire technique, Knowledge Catalog automatise l'enrichissement des données en analysant schémas, requêtes et contenus non structurés pour générer des descriptions en langage naturel, construire des glossaires métiers et cartographier les relations entre entités. Des agents spécialisés, dont un basé sur LookML, permettent de générer et harmoniser automatiquement les règles métier. Des entreprises comme Bloomberg Media exploitent déjà cette approche pour permettre à des utilisateurs non techniques d'interroger des lacs de données complexes via des requêtes en langage courant. Le problème que Google Cloud cherche à résoudre est structurel : les agents d'IA en entreprise produisent des résultats médiocres non pas par manque de puissance de calcul, mais par manque de contexte fiable. Lorsque les mêmes indicateurs coexistent sous plusieurs définitions selon les équipes, l'automatisation devient fragile et l'analyse peu fiable. En unifiant ce socle sémantique, Knowledge Catalog permet aux agents de raisonner sur des bases cohérentes et partagées, réduisant les erreurs d'interprétation et accélérant l'accès à l'information. L'intégration avec Gemini renforce encore ce dispositif : même des fichiers bruts non structurés deviennent exploitables directement dans l'écosystème data. Google introduit également la notion de "produits de données", des ensembles packagés conçus pour être consommés directement par des agents ou des équipes métier, ce qui marque un changement de paradigme dans la façon dont les organisations distribuent l'accès à la donnée. La sortie de Knowledge Catalog s'inscrit dans une course que se livrent les grands fournisseurs cloud pour devenir la couche d'infrastructure de référence des entreprises qui déploient des agents d'IA à grande échelle. Microsoft, avec son écosystème Fabric et ses connecteurs Copilot, et AWS, avec son offre autour de Bedrock et des catalogues de données Lake Formation, avancent sur le même terrain. Le défi commun est de dépasser la promesse technique pour s'imposer comme le standard de gouvernance des données en contexte agentique. Pour Google Cloud, qui dispose d'un avantage compétitif avec Gemini et BigQuery, ce catalogue universel représente un levier pour verrouiller les grands comptes dans son écosystème. La prochaine étape sera d'observer si l'enrichissement automatique tient ses promesses à l'échelle, là où la curation manuelle a toujours montré ses limites.

UELes entreprises européennes déployant des agents IA sur Google Cloud peuvent améliorer la gouvernance de leurs données métier, sans impact réglementaire ou institutionnel spécifique pour la France ou l'UE.

OutilsOutil
1 source

Suivre Google Cloud en continu

Recevez chaque jour les articles essentiels du sujet. Pas de bruit, pas de spam.

Recevez l'essentiel de l'IA chaque jour