Aller au contenu principal

Dossier Azure — page 3

139 articles · page 3 sur 3

Suivi des annonces IA d'Azure : services cloud, intégration des modèles OpenAI, outils pour développeurs et déploiements en entreprise.

Microsoft Fara : lancer un agent Browser-Use dans Google Colab avec un endpoint OpenAI factice
101MarkTechPost OutilsOutil

Microsoft Fara : lancer un agent Browser-Use dans Google Colab avec un endpoint OpenAI factice

Un tutoriel récemment publié décrit comment déployer Fara, l'agent de navigation web de Microsoft, directement depuis Google Colab sans nécessiter d'infrastructure dédiée. Le guide couvre l'ensemble du pipeline opérationnel : clonage du dépôt GitHub (github.com/microsoft/fara), installation des dépendances via pip, configuration du navigateur Playwright Firefox, puis exécution d'une tâche concrète telle que "ouvrir example.com et décrire le contenu de la page". L'approche centrale repose sur la création d'un point de terminaison fictif compatible avec l'API OpenAI, qui simule les réponses du vrai modèle Fara-7B. Ce serveur mock retourne des actions de navigation valides que Playwright exécute réellement dans le navigateur, reproduisant fidèlement la boucle complète de l'agent en conditions quasi-réelles, sans avoir à héberger un modèle de 7 milliards de paramètres. L'intérêt de cette méthode est de rendre le développement d'agents de navigation accessible sans GPU ni serveur dédié. En découplant la logique de l'agent du modèle de langage sous-jacent, les développeurs peuvent valider leurs flux de travail, déboguer leur code et tester des scénarios d'automatisation à moindre coût. La configuration reste entièrement portable : le même notebook peut être reconnecté à un vrai endpoint Fara-7B hébergé sur Azure AI Foundry, vLLM, LM Studio ou Ollama, en basculant une unique variable booléenne (USEREALFARA_ENDPOINT). Cette flexibilité entre backends réduit significativement le coût d'entrée pour les équipes qui souhaitent expérimenter l'automatisation web par IA sans s'engager d'emblée dans une infrastructure lourde. Les agents capables de piloter un navigateur de façon autonome constituent l'une des frontières les plus actives de l'IA appliquée en 2026. Anthropic a introduit son API "computer use" pour Claude, OpenAI a déployé son agent Operator, et Google explore des capacités similaires via Project Mariner. Microsoft, avec Fara, mise sur un modèle spécialisé entraîné spécifiquement pour piloter des interfaces web, une approche différente des solutions généralistes de ses concurrents. Le choix délibéré de la compatibilité avec le format OpenAI n'est pas anodin : il permet à Fara de s'intégrer dans l'écosystème d'outillage existant sans réécriture majeure. La publication de ce type de tutoriel accessible joue un rôle clé dans la démocratisation de ces technologies, en abaissant la barrière technique pour les développeurs indépendants et les équipes produit qui n'ont pas encore accès à des infrastructures d'inférence dédiées.

1 source
Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP
102AWS ML Blog 

Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP

Amazon a annoncé cette semaine une extension significative des capacités d'AgentCore Gateway, son service de passerelle centralisée pour le protocole MCP (Model Context Protocol) au sein d'Amazon Bedrock. Les nouvelles fonctionnalités couvrent notamment la prise en charge étendue des schémas d'outils MCP, l'intégration des primitives MCP prompts et ressources, la découverte dynamique de serveurs MCP à l'exécution, la gestion de sessions pour les interactions temps réel, un mécanisme d'élicitation permettant des demandes d'entrée en cours d'exécution, et un échange de jetons OAuth 2.0 pour l'authentification déléguée. Ces ajouts s'appliquent à un service qui sert déjà de point d'entrée unique entre les serveurs MCP d'une organisation et les clients qui les consomment, en centralisant la gestion des identifiants, l'observabilité et la connectivité sécurisée. L'enjeu est directement opérationnel pour les équipes engineering en entreprise. Sans passerelle centralisée, chaque serveur MCP déployé, qu'il gère les contrats pour l'équipe juridique, les données financières ou les incidents opérationnels, doit gérer indépendamment ses propres mécanismes d'authentification, de contrôle d'accès et de journalisation. Cela multiplie les délais d'approbation, fragmente la visibilité sur l'usage des outils et oblige les équipes sécurité à auditer chaque serveur séparément. AgentCore Gateway réduit ce fardeau en laissant chaque équipe se concentrer sur la logique métier de son serveur MCP, tandis que la passerelle prend en charge tout le reste : agrégation des capacités, politiques d'accès basées sur les ressources, isolation réseau via AWS PrivateLink, logs d'audit centralisés, et guardrails déterministes via AgentCore Policy. MCP, le protocole lancé par Anthropic fin 2024 pour standardiser la façon dont les agents IA interagissent avec des outils et services externes, a rapidement été adopté par les grands acteurs du cloud, dont AWS, Microsoft et Google. Amazon intègre AgentCore Gateway dans son écosystème Bedrock, qui concurrence directement Azure AI et Google Cloud Vertex AI dans la course aux infrastructures d'agents IA en entreprise. La montée en puissance des architectures multi-agents, où plusieurs modèles coopèrent en orchestrant des dizaines d'outils, rend ce type de couche de gouvernance centrale de plus en plus stratégique. Les prochaines étapes probables incluent une intégration plus poussée avec les outils d'identité AWS IAM et une extension du support aux agents tiers via les flux OAuth 2.0 maintenant disponibles dans la passerelle.

InfrastructureOpinion
1 source
RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA
103Le Big Data 

RAG (Retrieval-Augmented Generation) : une approche pour optimiser l’usage de l’IA

La Retrieval-Augmented Generation, ou RAG, est une architecture technique qui associe un modèle de langage à une base documentaire externe, permettant à l'intelligence artificielle de consulter des informations précises avant de formuler une réponse. Concrètement, le processus se déroule en trois temps : les documents de l'entreprise sont d'abord découpés en fragments, puis convertis en représentations mathématiques appelées embeddings, qui transforment le sens d'une phrase en coordonnées numériques. Lorsqu'un utilisateur pose une question, sa requête est elle aussi encodée de cette façon, puis comparée aux vecteurs stockés pour identifier les passages les plus pertinents. Ces extraits sont ensuite injectés dans le prompt envoyé au modèle, qui rédige sa réponse à partir d'un contexte documenté et vérifiable. Contrairement à une recherche par mots-clés classique, le système reconnaît deux phrases sémantiquement proches même si elles n'ont pas de termes en commun. L'intérêt pour les entreprises est considérable. Les modèles de langage traditionnels fonctionnent uniquement à partir de leur corpus d'entraînement : toute information absente ou modifiée depuis génère inévitablement des erreurs, ce que les praticiens appellent les "hallucinations". Le RAG court-circuite ce problème en dotant l'IA d'une mémoire externe dynamique, mise à jour en temps réel. Un service client peut ainsi déployer un assistant conversationnel capable de consulter les procédures internes à jour avant chaque réponse, sans que les données quittent le périmètre de l'organisation. Pour des secteurs manipulant des documents sensibles, comme le juridique, la conformité ou l'ingénierie, cette architecture représente la différence entre un outil expérimental et un outil déployable en production. Le RAG s'est imposé comme l'une des réponses les plus pragmatiques aux limites structurelles des LLM depuis que ces modèles ont commencé à être déployés en entreprise à grande échelle. Les géants du cloud, d'AWS à Microsoft Azure en passant par Google Cloud, proposent désormais des services RAG managés, tandis qu'une constellation de startups comme Pinecone, Weaviate ou Qdrant se sont spécialisées dans les bases vectorielles qui en constituent le socle technique. La question qui reste ouverte est celle de la mise à l'échelle : indexer des dizaines de milliers de documents internes, maintenir la cohérence des embeddings lors des mises à jour, et gérer la latence de récupération sont des défis d'ingénierie non triviaux. Les prochaines évolutions du RAG s'orientent vers des architectures hybrides combinant recherche vectorielle et recherche structurée, ainsi que vers des systèmes capables de raisonner sur plusieurs documents simultanément plutôt que de simplement les concaténer.

LLMsTuto
1 source
Les fournisseurs d'inférence connaissent-ils un essor ?
104The Information AI 

Les fournisseurs d'inférence connaissent-ils un essor ?

Il y a moins d'un an, les fournisseurs d'inférence spécialisés suscitaient un scepticisme marqué dans l'industrie de l'IA. Des startups comme Fireworks AI, Baseten et Together AI, qui louent des serveurs Nvidia à des développeurs d'applications et les aident à déployer des modèles open source, avaient connu une croissance rapide, mais semblaient fragilisées face à la concurrence des grands fournisseurs cloud. Ces derniers disposent en effet d'un avantage structurel majeur : ils possèdent leurs propres puces, là où les fournisseurs d'inférence doivent d'abord les louer à AWS, Google ou Azure avant de les revendre à leurs clients, ce qui comprime mécaniquement leurs marges brutes. Pourtant, le discours dominant a changé. Ces acteurs spécialisés semblent aujourd'hui trouver leur place dans un écosystème où la demande d'inférence explose, portée par la multiplication des applications IA en production. Leur proposition de valeur, flexibilité, optimisation technique, et support des modèles open source, répond à des besoins que les clouds généralistes satisfont moins bien, notamment pour les équipes cherchant à éviter l'enfermement propriétaire et à contrôler précisément leurs coûts d'inférence. Ce retournement s'inscrit dans une dynamique plus large : avec la prolifération des modèles open source performants comme Llama ou Mistral, les développeurs disposent désormais d'alternatives crédibles aux API propriétaires d'OpenAI ou Anthropic. Les fournisseurs d'inférence se positionnent comme l'infrastructure neutre de ce marché alternatif, pariant sur le fait que la fragmentation des modèles leur garantit une demande structurelle durable face aux géants du cloud.

UELa montée en puissance des fournisseurs d'inférence open source renforce l'écosystème autour de Mistral (entreprise française), offrant aux développeurs européens une infrastructure neutre pour déployer des modèles sans dépendance aux API propriétaires.

InfrastructureOpinion
1 source
Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore
105AWS ML Blog 

Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore

Amazon Web Services a présenté une architecture de référence pour déployer des systèmes multi-agents d'IA générative à grande échelle sur AWS, en combinant LangGraph, AWS Lambda, AWS Step Functions et les deux nouveaux services Amazon Bedrock AgentCore Memory et AgentCore Observability. L'approche repose sur une infrastructure entièrement serverless : les agents LangGraph sont packagés dans des conteneurs Docker exécutés sur Lambda, ce qui permet une montée en charge automatique sans gestion d'infrastructure. Pour illustrer le concept, AWS décrit un système concret de révision de campagnes marketing orchestrant trois agents spécialisés en parallèle, un agent "persona reviewer" qui évalue la résonance du contenu auprès de différents profils démographiques, un agent "validator" qui vérifie la conformité juridique et les chartes de marque, et un agent "finalizer" qui synthétise les retours en recommandations actionnables. Une interface React permet aux utilisateurs de télécharger leurs documents et de consulter les résultats en temps réel. Ce type d'architecture répond à un problème concret que rencontrent les entreprises en production : les agents IA performants en démo s'effondrent souvent sous la charge réelle, perdent le contexte entre les sessions et restent des boîtes noires difficiles à déboguer. AgentCore Memory résout la question de la mémoire en offrant à la fois un contexte conversationnel à court terme et une base de connaissances persistante entre sessions. AgentCore Observability capture quant à lui chaque invocation avec ses entrées et sorties LLM, la latence, et les métriques de chaîne d'outils sur l'ensemble des composants distribués. Pour les équipes en charge de systèmes critiques, c'est un changement de paradigme : il devient possible d'auditer exactement comment un agent a raisonné, quelle décision il a prise à quelle étape, et pourquoi. Cette publication s'inscrit dans une accélération visible chez AWS pour proposer une pile complète d'IA agentique cloud-native, face à la concurrence de Google (Vertex AI Agents) et Microsoft (Azure AI Foundry). LangGraph, développé par LangChain, s'impose progressivement comme standard de facto pour l'orchestration d'agents grâce à son modèle d'exécution en graphe orienté qui rend le flux de contrôle déterministe, parallélisable et conditionnel. L'intégration native avec Lambda et Step Functions est particulièrement stratégique pour les charges de travail "bursty" typiques des agents IA, où la demande est imprévisible et les coûts d'une infrastructure dédiée permanente seraient prohibitifs. La prochaine étape logique pour AWS sera d'étendre ces patterns à des workflows plus complexes impliquant des boucles de feedback humain et des agents à longue durée de vie, un segment encore largement inexploré en production.

InfrastructureActu
1 source
L’IA physique : le prochain marché que surveille déjà Wall Street
106Robot Magazine FR 

L’IA physique : le prochain marché que surveille déjà Wall Street

Wall Street identifie désormais la "Physical AI" comme le prochain cycle d'investissement majeur après l'IA générative. Selon plusieurs cabinets spécialisés, le marché mondial de la robotique intelligente et de l'IA physique pourrait dépasser 3 000 milliards de dollars d'ici 2040. Goldman Sachs est plus précis sur le segment humanoïde : 150 milliards de dollars d'ici 2035, avec un marché global de robotique intelligente franchissant les 400 milliards. NVIDIA, valorisé à plus de 3 000 milliards de dollars en 2026, est présenté comme le principal bénéficiaire actuel de cette tendance, son PDG Jensen Huang ayant publiquement intégré la "Physical AI" à sa feuille de route. Tesla, de son côté, est repositionnée dans cette grille de lecture grâce à son robot humanoïde Optimus, au-delà de son coeur de marché automobile. À noter : ces chiffres sont des projections de marché, pas des revenus confirmés, et l'article ne cite aucune métrique opérationnelle de déploiement. La rupture que pointe cet article est structurelle : l'IA générative est restée confinée aux écrans (texte, images, code), tandis que la Physical AI vise à en faire une force de travail dans le monde réel, capable de manipuler des objets, se déplacer et exécuter des tâches physiques de manière autonome. Pour un COO industriel ou un intégrateur, ce changement de paradigme est pertinent dans un contexte de pénuries de main-d'oeuvre persistantes et d'accélération de l'automatisation. Ce qui change pour les décideurs B2B, c'est l'horizon de planification : les fonds se positionnent déjà, ce qui signifie que les valuations des acteurs émergents (robotique, simulation, edge computing industriel) vont probablement se comprimer dans les 18 à 36 prochains mois, avant même que des déploiements à grande échelle soient prouvés. Ce récit s'inscrit dans un cycle bien rodé : après le cloud (AWS, Azure), puis l'IA générative (NVIDIA, OpenAI), les analystes financiers cherchent le prochain thème de surperformance. NVIDIA a amorcé ce pivot avec ses plateformes Isaac (simulation robotique) et Cosmos (world model pour robots), et ses partenariats avec Figure, 1X, Agility Robotics ou Boston Dynamics. Tesla joue la même carte avec Optimus, dont les premières vidéos de ligne de production interne ont été diffusées fin 2024, sans chiffres de cadence publiés. L'article reste toutefois une analyse financière généraliste : il ne cite aucun robot spécifique avec des métriques techniques (DOF, payload, cycle time), aucun site de déploiement confirmé, et aucun acteur européen malgré la pertinence d'entreprises comme Wandercraft ou Enchanted Tools sur ce segment. Les prochaines étapes annoncées restent floues, ce qui est caractéristique du registre "thème d'investissement émergent" plutôt que d'un bilan opérationnel.

UELa dynamique d'investissement Wall Street sur la Physical AI devrait indirectement comprimer les valorisations des startups robotiques européennes dans les 18-36 mois, avant tout déploiement prouvé, ce qui rend la fenêtre de levée de fonds pour des acteurs comme Wandercraft ou Enchanted Tools potentiellement plus courte.

RobotiqueOpinion
1 source
Anthropic en négociations pour utiliser les puces IA de Microsoft
107The Information AI 

Anthropic en négociations pour utiliser les puces IA de Microsoft

Anthropic serait en discussions avec Microsoft pour louer des serveurs équipés de puces d'intelligence artificielle conçues en interne par le géant de Redmond. Selon deux personnes ayant eu des échanges directs avec des dirigeants impliqués dans les négociations, la startup fondatrice de Claude cherche à augmenter sa capacité de calcul pour répondre à une demande croissante pour ses modèles d'IA. Aucun accord n'a encore été officialisé, mais les tractations sont en cours. Pour Microsoft, convaincre Anthropic d'adopter ses propres puces constituerait une victoire symbolique et commerciale majeure. L'effort de design de puces maison de l'entreprise a accusé des retards en 2024, compliquant sa stratégie d'indépendance vis-à-vis des fournisseurs externes. Séduire un acteur aussi visible qu'Anthropic permettrait à Microsoft de valider publiquement ses capacités matérielles et de diversifier les revenus issus de son infrastructure cloud Azure. La démarche s'inscrit dans une tendance de fond : les grands fournisseurs de cloud cherchent à réduire leur dépendance aux puces Nvidia, qui dominent aujourd'hui presque l'intégralité du marché des accélérateurs IA et dont la disponibilité reste contrainte. Google dispose déjà de ses TPU, Amazon de ses puces Trainium et Inferentia. Microsoft, en retard sur ce front, tente de combler l'écart. Anthropic, de son côté, bénéficie déjà d'investissements massifs d'Amazon et de Google, ce qui rend un partenariat avec Microsoft d'autant plus significatif sur le plan stratégique.

InfrastructureActu
1 source
Créer un système de traitement de documents financiers avec Pulse AI et Amazon Bedrock
108AWS ML Blog 

Créer un système de traitement de documents financiers avec Pulse AI et Amazon Bedrock

Pulse AI et Amazon Bedrock s'associent pour proposer un pipeline de traitement intelligent des documents financiers complexes, ciblant les établissements bancaires, les fonds d'investissement privés et les grandes entreprises. Contrairement aux outils OCR traditionnels qui traitent les documents comme de simples images, la solution combine les modèles de langage visuels de Pulse avec des composants de machine learning classiques spécifiquement conçus pour comprendre la structure des documents financiers : bilans comptables, comptes de résultats, dépôts SEC, rapports de recherche et documents d'audit. Le résultat le plus concret : un lot d'environ 1 000 documents financiers complexes, qui nécessitait auparavant plusieurs jours de traitement, est désormais traité en moins de trois heures, produisant des sorties structurées et auditables prêtes pour l'analyse. La solution est déjà déployée chez Samsung, Cloudera, Howard Hughes, ainsi que dans plusieurs institutions financières du classement Fortune 500. L'enjeu est critique pour le secteur financier : une erreur OCR dans un bilan ou un tableau à cellules fusionnées ne reste pas isolée, elle se propage en cascade à travers les calculs interconnectés, faussant l'ensemble de l'analyse. Le pipeline Pulse-Bedrock extrait les données de façon structurée et sémantiquement consciente, puis utilise Amazon Bedrock pour affiner les modèles Nova d'Amazon sur ces données de haute qualité. L'organisation obtient ainsi un modèle de langage personnalisé, entraîné sur ses propres conventions financières, capable de traiter les nouveaux documents avec une compréhension spécifique à l'entreprise. La révision manuelle, qui prenait des jours, se réduit à quelques heures. Ce développement s'inscrit dans une course à l'automatisation documentaire dans laquelle les institutions financières investissent massivement, sous la pression de volumes croissants de rapports réglementaires et de due diligence. Amazon Bedrock se positionne ici comme infrastructure de fine-tuning clé en main, sans gestion d'infrastructure ML ni planification de capacité, ce qui réduit la barrière d'entrée pour les équipes sans expertise MLOps. Pour Pulse AI, ce partenariat valide son approche hybride vision-langage face aux acteurs OCR historiques comme ABBYY ou aux offres cloud génériques de Google Document AI et Azure Form Recognizer. La prochaine étape logique est l'extension à d'autres verticales documentaires lourdes, comme le juridique ou le médical, où les mêmes problèmes de structure complexe et de dépendances contextuelles se posent.

OutilsOutil
1 source
JBS Dev : données imparfaites et le dernier kilomètre de l'IA, de la performance des modèles à la viabilité des coûts
109AI News 

JBS Dev : données imparfaites et le dernier kilomètre de l'IA, de la performance des modèles à la viabilité des coûts

Joe Rose, président de JBS Dev, un fournisseur de technologies stratégiques, remet en question l'un des mythes les plus répandus autour de l'IA générative : celui selon lequel les données doivent être parfaites avant de lancer tout projet d'IA. Lors de sa participation à l'AI & Big Data Expo, Rose a détaillé comment les outils actuels permettent de travailler efficacement avec des données imparfaites, en donnant l'exemple concret d'un client dans le secteur médical. L'objectif était de migrer vers un nouveau système de réconciliation de facturation, avec des dossiers hétérogènes : certains en PDF, d'autres sous forme d'images scannées, des noms de médecins mal placés dans les champs patients, des procédures mal catégorisées. L'IA générative a permis d'extraire les données exploitables via OCR et extraction de texte, puis des approches plus agentiques ont pris le relais, comme la comparaison automatique entre un dossier patient et un contrat d'assurance pour vérifier que la facturation était correcte. Le niveau d'automatisation est ainsi passé de 20 % à 40 %, puis 60 %, puis 80 %, avec un humain dans la boucle pour traiter les cas limites. Ce changement de paradigme a des implications concrètes pour les entreprises qui hésitent à se lancer dans des projets d'IA par peur d'un patrimoine data insuffisant. Rose souligne que les conseils des éditeurs et consultants, qui recommandent des lacs de données massifs et des programmes de transformation pluriannuels, servent avant tout leurs propres intérêts commerciaux. En pratique, un LLM est capable de comprendre une instruction à moitié rédigée, ce qui rend ces systèmes étonnamment robustes face à la qualité variable des données. La vraie rupture culturelle est ailleurs : les équipes IT doivent abandonner le réflexe "on construit, ça tourne, on oublie", car les systèmes agentiques nécessitent une supervision continue et une montée en automatisation progressive. Les prochains enjeux du secteur ne seront pas dans la course aux capacités des modèles, estime Rose, mais dans leur soutenabilité économique et leur portabilité. La question centrale devient : comment faire tourner ces modèles sur un laptop ou un smartphone plutôt que dans des data centers que l'on construit à un rythme difficilement tenable ? Rose va plus loin avec une prise de position tranchée : les entreprises devraient arrêter d'acheter des solutions SaaS pour des cas d'usage IA qu'elles peuvent implémenter elles-mêmes. Les outils cloud des trois grands fournisseurs (AWS, Azure, Google Cloud) suffisent pour démarrer des workloads agentiques dès demain, sans nouvelles licences ni formations spécifiques. Une position qui tranche avec les discours dominants de l'écosystème, et qui reflète une maturité croissante du marché face aux promesses de l'IA d'entreprise.

OutilsOpinion
1 source
Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker
110AWS ML Blog 

Réservez de la capacité GPU à court terme pour vos workloads ML avec EC2 Capacity Blocks et SageMaker

Amazon Web Services propose deux solutions complémentaires pour sécuriser de la capacité GPU à court terme : les EC2 Capacity Blocks for ML et les SageMaker training plans. Les Capacity Blocks permettent de réserver un nombre précis d'instances GPU pour une fenêtre temporelle définie, jusqu'à huit semaines à l'avance, avec des durées allant de 1 à 14 jours (par paliers d'un jour) ou de 15 à 182 jours (par paliers de sept jours). Chaque bloc peut couvrir jusqu'à 64 instances d'un même type, et une organisation peut cumuler jusqu'à 256 instances sur une même date en combinant plusieurs blocs au sein d'AWS Organizations. Contrairement aux réservations de capacité à la demande classiques (ODCR), ces Capacity Blocks sont entièrement en libre-service et affichent une décote de 40 à 50 % par rapport aux tarifs à la demande, tout en offrant une bien meilleure disponibilité pour les instances de type P, particulièrement recherchées. Ces solutions répondent à un besoin concret et pressant : la demande mondiale de GPU pour l'entraînement, le fine-tuning et l'inférence de modèles d'intelligence artificielle dépasse largement l'offre disponible. Pour les équipes qui ont besoin de GPU de manière ponctuelle, que ce soit pour des tests de charge, la validation de modèles, des ateliers techniques ou la préparation d'une mise en production, les options existantes présentent des limites sérieuses. Les instances à la demande ne garantissent pas la disponibilité au moment du lancement, et relâcher une instance peut signifier ne plus pouvoir la récupérer. Les instances Spot, bien que jusqu'à 90 % moins chères, peuvent être interrompues à tout moment par AWS. Les Capacity Blocks éliminent cette incertitude : la capacité est garantie pendant toute la durée réservée, ce qui permet de planifier des workloads critiques en temps contraint sans risque de pénurie de ressources. Cette pénurie de GPU n'est pas nouvelle : depuis l'explosion des usages d'IA générative à partir de 2023, les grands hyperscalers comme AWS, Google Cloud et Microsoft Azure font face à une concurrence intense pour l'acquisition et la mise à disposition de puces Nvidia H100 et autres accélérateurs. AWS avait introduit les Capacity Blocks dès 2023 pour les instances P5, mais l'offre s'est depuis progressivement élargie. L'intégration avec les SageMaker training plans vise à couvrir également les usages managés, où AWS gère l'infrastructure sous-jacente. À terme, ces mécanismes de réservation structurée devraient devenir la norme pour toute organisation menant des expérimentations ML d'envergure, car ils permettent de concilier agilité opérationnelle et maîtrise des coûts sans recourir à des contrats pluriannuels.

UELes équipes françaises et européennes utilisant AWS pour leurs workloads ML peuvent sécuriser de la capacité GPU à court terme avec une décote de 40-50%, réduisant l'incertitude opérationnelle liée à la pénurie mondiale de GPU.

InfrastructureActu
1 source
AgentCore Optimization en préversion : la boucle de qualité des agents
111AWS ML Blog 

AgentCore Optimization en préversion : la boucle de qualité des agents

Amazon a annoncé le 5 mai 2026 la disponibilité en preview d'AgentCore Optimization, une nouvelle fonctionnalité de sa plateforme Amazon Bedrock AgentCore dédiée à l'amélioration continue des agents d'intelligence artificielle en production. Le système introduit une boucle automatisée en trois étapes : génération de recommandations à partir des traces de production, validation par évaluation en batch ou par test A/B, puis déploiement. Concrètement, l'API Recommendations analyse les logs stockés dans CloudWatch pour identifier les failles dans le prompt système ou les descriptions d'outils, en ciblant un signal de récompense défini par l'équipe, taux de succès des objectifs, précision dans la sélection d'outils, ou critères personnalisés via un LLM-as-judge. L'évaluation en batch compare ensuite la nouvelle version sur un jeu de tests préétabli, tandis que le test A/B, routé via AgentCore Gateway, divise le trafic réel selon un pourcentage configurable et produit des résultats avec intervalles de confiance et significativité statistique. NTT DATA, via Yoshiharu Okuda, son responsable de la stratégie IA générative, confirme déjà que des cycles de tuning de prompts qui prenaient auparavant plusieurs semaines sont devenus des itérations rapides et reproductibles grâce à ce système. L'enjeu est de taille pour les équipes produit qui déploient des agents à grande échelle. Jusqu'ici, lorsqu'un agent dégradait en qualité, parce qu'un modèle sous-jacent avait évolué, que les comportements utilisateurs avaient changé, ou qu'un prompt était réutilisé hors de son contexte d'origine, la correction reposait entièrement sur l'intuition d'un développeur : lire les traces, formuler une hypothèse, réécrire le prompt, tester quelques cas, déployer, et recommencer. Ce cycle manuel était non seulement lent, mais souvent contre-productif, un correctif résolvant un problème pour un utilisateur tout en en créant un nouveau pour un autre. AgentCore Optimization remplace cette mécanique artisanale par une boucle systématique alimentée par des données réelles, ce qui permet aux équipes produit de détecter les dérives au fil du quotidien plutôt que d'attendre les benchmarks hebdomadaires ou mensuels des équipes scientifiques dédiées. Amazon Bedrock AgentCore est la plateforme sur laquelle des milliers de développeurs construisent déjà des agents capables de raisonner, planifier et agir dans des workflows complexes. La composante Observability du service capture chaque appel de modèle, invocation d'outil et étape de raisonnement sous forme de traces compatibles OpenTelemetry, fournissant ainsi la matière première nécessaire à la nouvelle boucle d'optimisation. Cette annonce s'inscrit dans une tendance de fond : les grands fournisseurs cloud cherchent à industrialiser non plus seulement la création d'agents, mais leur maintenance opérationnelle dans la durée. Avec cette fonctionnalité encore en preview, Amazon positionne Bedrock comme une plateforme de bout en bout pour le cycle de vie complet des agents, dans un marché où Google Vertex AI et Microsoft Azure AI Foundry jouent la même carte d'intégration verticale.

UELes équipes produit françaises et européennes déployant des agents sur Amazon Bedrock pourront bénéficier de cycles d'optimisation automatisés, réduisant une dépendance aux processus manuels chronophages, sans impact réglementaire ou institutionnel spécifique à l'UE.

OutilsOutil
1 source
AgentCore : optimisation de la qualité des agents, désormais en préversion
112AWS ML Blog 

AgentCore : optimisation de la qualité des agents, désormais en préversion

Amazon a annoncé ce 5 mai 2026 l'intégration de nouvelles capacités d'optimisation automatique dans AgentCore, sa plateforme de déploiement d'agents IA, désormais disponibles en préversion. Ces fonctionnalités couvrent trois mécanismes complémentaires : les Recommandations, l'évaluation par lots (batch evaluation) et les tests A/B. Le moteur de recommandations analyse les traces de production et les résultats d'évaluation pour proposer des améliorations concrètes des prompts système ou des descriptions d'outils, en ciblant un critère de performance défini par le développeur. L'évaluation par lots permet ensuite de valider ces suggestions sur un jeu de données de test prédéfini, en mesurant des scores agrégés pour détecter d'éventuelles régressions. Enfin, les tests A/B comparent deux versions d'un agent en production via AgentCore Gateway, en répartissant le trafic réel selon un pourcentage configurable et en restituant les résultats avec intervalles de confiance et significativité statistique. L'ensemble s'appuie sur un système de traçabilité OpenTelemetry géré par AgentCore Observability, qui capture chaque appel au modèle, chaque invocation d'outil et chaque étape de raisonnement. Ces nouvelles capacités répondent à un problème structurel bien connu des équipes IA en production : la dégradation silencieuse des agents au fil du temps. Lorsque les modèles évoluent, les comportements utilisateurs changent, ou les prompts sont réutilisés dans des contextes imprévus, la qualité baisse sans signal d'alerte clair. Jusqu'ici, le cycle de correction restait entièrement manuel : un utilisateur se plaint, un développeur lit des traces, formule une hypothèse, réécrit le prompt, teste quelques cas et pousse un correctif qui peut en créer un autre. AgentCore ferme cette boucle en remplaçant l'intuition du développeur par des données systématiques, avec un signal de récompense configurable : taux de succès des objectifs, précision de sélection des outils, pertinence, sécurité. Yoshiharu Okuda, directeur de la stratégie IA générative chez NTT DATA, a confirmé que des processus qui nécessitaient auparavant plusieurs semaines de réglage manuel se transforment désormais en cycles rapides et reproductibles. AgentCore est la plateforme d'Amazon Web Services pour construire, connecter et optimiser des agents IA à grande échelle, avec des milliers de développeurs déjà actifs. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud pour proposer des outils d'opérationnalisation des agents, au-delà de la simple inférence. Google Vertex AI, Microsoft Azure AI et AWS se disputent les équipes qui passent de la phase expérimentale à la production à grande échelle, là où la maintenance de la qualité devient un défi d'ingénierie à part entière. En automatisant la boucle observer-évaluer-améliorer, AWS positionne AgentCore comme une infrastructure de fond pour les organisations qui ne peuvent pas se permettre des équipes dédiées à l'optimisation manuelle de prompts sur des cycles hebdomadaires, alors que leurs agents dérivent chaque jour en production.

OutilsActu
1 source
AWS : guide complet pour migrer des LLMs en production d'IA générative
113AWS ML Blog 

AWS : guide complet pour migrer des LLMs en production d'IA générative

Amazon Web Services a publié un guide technique détaillant un cadre structuré pour migrer des modèles de langage (LLM) en production, baptisé "Generative AI Model Agility Solution". Conçu pour les équipes qui souhaitent passer d'un modèle à un autre, que ce soit entre différentes familles de LLM ou vers une version plus récente du même modèle, le dispositif repose sur trois étapes clés : évaluation du modèle source, migration et optimisation des prompts via Amazon Bedrock Prompt Optimization et l'outil Anthropic Metaprompt, puis évaluation du modèle cible. La durée totale d'une migration en suivant ce cadre varie de deux jours à deux semaines selon la complexité du cas d'usage. AWS met à disposition plusieurs exemples de fonctionnalités et de scénarios concrets pour faciliter la prise en main. La capacité à changer rapidement de modèle est devenue un enjeu stratégique pour les organisations qui déploient de l'IA en production : les performances évoluent vite, les coûts varient fortement d'un fournisseur à l'autre, et rester lié à un seul LLM expose à des risques opérationnels. Ce framework répond à ce problème en automatisant une grande partie du travail de comparaison : il fournit des métriques quantifiables sur le coût, la latence, la précision et la qualité, permettant des décisions fondées sur des données plutôt que sur des impressions. Il prend également en charge les cas où aucune réponse de référence ("ground truth") n'est disponible, en s'appuyant sur des indicateurs comme la pertinence des réponses, leur fidélité au contexte, ou la détection de biais et de contenus toxiques. Le lancement de ce guide s'inscrit dans une compétition intense entre fournisseurs de cloud pour capter les budgets IA des grandes entreprises. Amazon Bedrock, la plateforme d'accès aux LLM managés d'AWS, doit convaincre les organisations qu'elles peuvent migrer vers ses modèles sans friction excessive, notamment face à des concurrents comme Azure OpenAI ou Google Vertex AI. En intégrant nativement l'outil Metaprompt d'Anthropic, AWS mise sur la qualité des prompts comme levier différenciant, une approche cohérente avec les investissements massifs du groupe dans Anthropic. La publication de ce cadre open au niveau méthodologique signale aussi une volonté d'AWS de standardiser les pratiques de migration LLM avant que ce marché ne se fragmente davantage, en positionnant Bedrock comme la plateforme de destination naturelle pour les migrations de production.

OutilsOutil
1 source
Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées
114AWS ML Blog 

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

Amazon a dévoilé une nouvelle fonctionnalité pour son service Bedrock AgentCore Gateway : la connectivité VPC gérée, qui permet aux agents d'intelligence artificielle d'accéder à des ressources privées hébergées derrière des réseaux Amazon Virtual Private Cloud (VPC) sans exposer le trafic sur l'internet public. Concrètement, ce mécanisme repose sur un composant appelé Resource Gateway, qui provisionne automatiquement des interfaces réseau élastiques (ENI) directement à l'intérieur du VPC cible, à raison d'une interface par sous-réseau. Deux modes de fonctionnement sont proposés : le mode managé, où AgentCore prend en charge l'intégralité de l'infrastructure réseau à partir des identifiants VPC, de sous-réseau et des groupes de sécurité fournis par l'utilisateur ; et le mode auto-géré, qui laisse davantage de contrôle à l'équipe technique. Trois scénarios pratiques illustrent ces cas d'usage : la connexion à un endpoint privé Amazon API Gateway, l'intégration avec un serveur MCP (Model Context Protocol) hébergé sur Amazon Elastic Kubernetes Service (EKS), et l'accès à une API REST privée dans un réseau isolé. Pour les équipes qui déploient des agents IA en production, cette capacité représente un gain opérationnel significatif. Jusqu'ici, chaque chemin de connexion entre un agent et un outil interne (base de données, API métier, microservice) nécessitait une configuration réseau manuelle, ralentissant les déploiements et multipliant les risques de mauvais paramétrage. Avec AgentCore Gateway VPC egress, une Resource Configuration délimite précisément l'endpoint accessible, un nom de domaine ou une adresse IP, plutôt que d'ouvrir l'accès à l'ensemble du VPC. La Service Network Resource Association, créée et gérée automatiquement par AgentCore, connecte ensuite cette configuration au réseau de service, ce qui permet à l'agent d'invoquer l'endpoint privé de façon sécurisée et traçable. Pour les organisations avec des architectures multi-VPC ou hybrides, le service s'intègre nativement avec AWS Transit Gateway et le VPC peering inter-régions. Cette annonce s'inscrit dans la stratégie plus large d'Amazon pour rendre ses agents IA exploitables dans des environnements d'entreprise contraints, où la sécurité réseau et la conformité interdisent tout transit par l'internet public. Bedrock AgentCore est la couche d'infrastructure d'Amazon dédiée à l'orchestration et au déploiement d'agents autonomes en production, concurrençant directement les offres de Microsoft Azure AI Foundry et Google Vertex AI Agent Builder. La prise en charge du protocole MCP, standard ouvert porté par Anthropic pour connecter les agents à des outils externes, signale une convergence de l'écosystème autour d'interfaces interopérables. À mesure que les agents IA migrent du prototype vers le système critique, la capacité à les brancher sur des ressources internes sans compromettre le périmètre de sécurité devient un prérequis incontournable pour les DSI, ce qu'Amazon positionne désormais comme une fonctionnalité de première classe.

UELes organisations européennes soumises au RGPD déployant des agents IA peuvent exploiter cette connectivité VPC privée pour maintenir leurs données internes hors de l'internet public, facilitant ainsi la conformité réglementaire.

InfrastructureTuto
1 source
Groupe SoftBank lance une pépite robotique déjà valorisée 100 milliards
115Le Big Data 

Groupe SoftBank lance une pépite robotique déjà valorisée 100 milliards

SoftBank prépare le lancement d'une nouvelle entité baptisée Roze AI, dédiée à l'automatisation de la construction de centres de données, avec une introduction en bourse envisagée dès le second semestre 2026 aux États-Unis. Selon le Financial Times et le Wall Street Journal, le groupe japonais vise une valorisation de 100 milliards de dollars pour cette structure encore embryonnaire. L'idée centrale : déployer des robots autonomes pour accélérer, standardiser et réduire les coûts de construction des data centers, infrastructures devenues critiques pour alimenter la demande explosive en puissance de calcul liée à l'IA générative. L'enjeu est colossal. Construire un centre de données reste aujourd'hui un processus long, coûteux et très dépendant de la main-d'œuvre humaine. En automatisant cette chaîne, Roze AI pourrait réduire significativement les délais de mise en service au moment précis où hyperscalers, gouvernements et entreprises technologiques se disputent la capacité de calcul disponible. Si la formule fonctionne, SoftBank ne se contenterait plus d'être un investisseur dans l'écosystème IA : il deviendrait un acteur industriel direct, capturant une part de la chaîne de valeur physique de l'intelligence artificielle, au même titre qu'un grand fournisseur cloud comme AWS ou Microsoft Azure. SoftBank évolue depuis des années dans une logique de paris technologiques massifs, parfois triomphants comme avec Alibaba, parfois catastrophiques comme avec Zume, la startup de livraison de pizzas robotisées qui a tourné court. Cette fois, la stratégie change de nature : il ne s'agit plus de financer des startups prometteuses depuis l'extérieur, mais de créer de toutes pièces une entité industrielle intégrée. SoftBank n'est pas seul sur ce terrain : Jeff Bezos a cofondé Project Prometheus, initiative visant à racheter des entreprises industrielles pour les moderniser par l'IA, signalant une convergence plus large entre capital technologique et transformation des infrastructures physiques. En interne, le projet Roze AI suscite néanmoins des interrogations : selon le Financial Times, plusieurs employés du groupe doutent de la pertinence d'une valorisation à 100 milliards pour une entité qui n'a pas encore prouvé son modèle à grande échelle, et le calendrier d'IPO pour fin 2026 est jugé très ambitieux. La question reste entière : Roze AI deviendra-t-elle un standard de l'infrastructure IA mondiale, ou un nouveau pari à haut risque dans la longue histoire des investissements de SoftBank ?

RobotiqueOpinion
1 source
Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory
116AWS ML Blog 

Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory

Amazon a publié un guide technique détaillé sur la conception de namespaces dans AgentCore Memory, le système de mémoire à long terme intégré à Amazon Bedrock. La fonctionnalité, présentée dans un billet de blog officiel d'AWS, permet aux développeurs d'organiser les souvenirs de leurs agents IA sous forme de chemins hiérarchiques, similaires à des arborescences de fichiers. Concrètement, les préférences d'un utilisateur identifié comme customer-123 seront stockées sous /actor/customer-123/preferences/, tandis que les résumés de ses sessions individuelles seront rangés sous /actor/customer-123/session/session-789/summary/. Ces chemins sont générés automatiquement à partir de trois variables prédéfinies : {actorId} pour l'identifiant de l'utilisateur, {sessionId} pour la session en cours, et {memoryStrategyId} pour le type de stratégie mémoire utilisé. Le système prend en charge plusieurs stratégies superposées, notamment la mémoire sémantique pour les faits durables sur un utilisateur, et la mémoire de résumé pour les synthèses de sessions passées. L'enjeu est concret : sans organisation rigoureuse, les agents IA récupèrent du contexte non pertinent lors de leurs requêtes, ce qui dégrade la qualité des réponses et peut créer des failles de sécurité, notamment en exposant les souvenirs d'un utilisateur à un autre. Le système de namespaces résout ces deux problèmes à la fois. D'un côté, la structure hiérarchique permet une récupération à granularité variable : on peut interroger la mémoire d'une session précise, l'ensemble des préférences d'un utilisateur à travers toutes ses sessions, ou encore des données communes à tous les utilisateurs d'un même agent. De l'autre, AWS intègre des contrôles d'accès IAM natifs qui permettent de délimiter précisément qui peut lire ou écrire dans quelle portion de la mémoire, sans dupliquer le stockage physique. Les namespaces sont des partitions logiques au sein d'une même ressource mémoire, une approche que les équipes habituées aux clés de partition DynamoDB ou aux préfixes S3 reconnaîtront immédiatement. Ce guide s'inscrit dans une dynamique plus large : l'essor des agents IA en production crée une demande croissante pour des infrastructures mémoire robustes et sécurisées. Amazon Bedrock, qui concurrence directement les offres d'OpenAI, Google et Microsoft Azure dans l'espace des plateformes d'agents d'entreprise, cherche à se différencier par des primitives de bas niveau bien pensées. AgentCore Memory, présenté comme une brique fondamentale pour les agents à longue durée de vie, cible les équipes qui construisent des assistants client, des copilotes métier ou des agents autonomes nécessitant une continuité de contexte entre les sessions. La prochaine étape annoncée par AWS porte sur les patterns de récupération multi-niveaux et les stratégies d'isolation entre agents dans des architectures multi-tenants.

UEAmazon Bedrock étant déployé dans des régions AWS européennes, ces patterns de conception sont directement exploitables par les équipes françaises et européennes qui construisent des agents IA sur cette plateforme.

OutilsActu
1 source
Le pari risqué de Larry
117The Verge AI 

Le pari risqué de Larry

Oracle se positionne aujourd'hui comme l'un des baromètres les plus fiables pour mesurer l'état réel du marché de l'intelligence artificielle. La société fondée par Larry Ellison, bien connue pour ses bases de données et ses logiciels d'entreprise, a opéré un virage stratégique radical vers l'IA, d'une nature singulière dans le paysage technologique actuel. Contrairement à OpenAI ou Anthropic, Oracle ne construit pas de modèles fondamentaux. Elle n'est pas non plus un pure player de l'infrastructure cloud nouvelle génération comme CoreWeave, même si elle s'est lancée sur le marché du bare-metal. Oracle reste avant tout une entreprise de logiciels en mode SaaS, qui a misé massivement sur une vision très précise de ce que sera l'IA demain. Ce pari est d'autant plus audacieux que le coeur historique d'Oracle, ses licences logicielles traditionnelles, connaît un déclin progressif. L'entreprise, l'une des plus anciennes du secteur tech avec Microsoft pour seul concurrent comparable en âge, a donc choisi de réinventer son modèle plutôt que de gérer une descente contrôlée. Pour les investisseurs et les analystes, Oracle devient ainsi un indicateur de choix : si son pari IA tient, c'est que la demande enterprise pour l'IA est profonde et durable ; si les résultats déçoivent, le signal sera difficile à ignorer pour l'ensemble du secteur. L'enjeu dépasse Oracle elle-même. Les grandes entreprises traditionnelles du logiciel cherchent toutes à se repositionner face aux nouveaux entrants de l'IA, et Oracle représente le cas le plus tranché de cette transition forcée. Sa capacité à convertir sa base clients historique en revenus IA, tout en concurrençant AWS, Azure et Google Cloud sur l'infrastructure, définira si les acteurs legacy peuvent survivre dans l'écosystème IA ou s'ils seront progressivement marginalisés.

UELes entreprises européennes clientes d'Oracle pourraient être indirectement affectées par ce pivot stratégique, mais l'article ne traite pas d'un impact spécifique sur le marché français ou européen.

BusinessOpinion
1 source
Créer des workflows LLM traçables et évalués avec Promptflow, Prompty et OpenAI
118MarkTechPost 

Créer des workflows LLM traçables et évalués avec Promptflow, Prompty et OpenAI

Un tutoriel publié récemment détaille la construction d'un pipeline LLM complet et prêt pour la production, en s'appuyant sur trois outils clés : Promptflow, le format Prompty, et l'API OpenAI, le tout déployé dans un environnement Google Colab. Le workflow s'articule autour de plusieurs briques : une connexion sécurisée à OpenAI via un backend keyring alternatif, un fichier Prompty structuré servant de composant LLM central (ici GPT-4o-mini, avec une température de 0,2 et un maximum de 350 tokens), puis un flux de type "flex flow" basé sur une classe Python qui combine un prétraitement déterministe avec le raisonnement du modèle. Le système permet d'injecter des hints calculés dans les réponses du modèle, d'activer une traçabilité pas-à-pas de chaque exécution, de lancer des requêtes unitaires ou en batch, et de générer des sorties dans un format structuré. La chaîne se conclut par un pipeline d'évaluation automatisé dans lequel un LLM joue le rôle de juge pour noter les réponses produites face à des réponses attendues. L'intérêt de cette approche est double : elle apporte de la traçabilité à chaque étape d'un pipeline LLM, un manque criant dans beaucoup de déploiements actuels, et elle industrialise l'évaluation en remplaçant la validation manuelle par un juge automatisé. Pour les équipes qui cherchent à passer du prototype au système en production, ce type d'architecture garantit qu'on peut auditer, déboguer et améliorer le comportement du modèle de façon systématique. La combinaison d'un outil déterministe (le calcul sécurisé) et d'un raisonnement LLM dans un même flow illustre aussi comment orchestrer des agents hybrides, sujet central du moment dans le développement d'applications IA. Promptflow est un framework open source lancé par Microsoft en 2023, initialement pensé pour Azure AI Studio mais disponible en local. Il répond à un besoin croissant dans l'industrie : les équipes ne manquent plus de modèles, mais d'outils pour structurer, tester et maintenir des workflows LLM dans la durée. Le format Prompty, introduit plus récemment, standardise la définition des appels au modèle en séparant la configuration (modèle, paramètres, connexion) du template de prompt, ce qui facilite la réutilisation et la gouvernance. Avec l'essor du concept de LLM-as-a-judge, popularisé notamment par des travaux de Lmsys et repris par OpenAI et Anthropic dans leurs propres systèmes d'évaluation, le tutoriel s'inscrit dans une tendance de fond : automatiser non seulement la génération, mais aussi le contrôle qualité des sorties, condition nécessaire pour une adoption enterprise sérieuse de l'IA générative.

OutilsTuto
1 source
119AWS ML Blog 

Amazon Bedrock propose désormais une attribution détaillée des coûts

Amazon Web Services vient d'annoncer une nouvelle fonctionnalité d'attribution granulaire des coûts pour Amazon Bedrock, son service d'inférence d'IA en cloud. Désormais, Bedrock attribue automatiquement chaque dépense d'inférence à l'identité IAM (Identity and Access Management) qui a effectué l'appel, qu'il s'agisse d'un utilisateur IAM classique, d'un rôle assumé par une application Lambda, ou d'une identité fédérée via un fournisseur comme Okta ou Microsoft Entra ID. Ces données apparaissent directement dans AWS Cost and Usage Reports (CUR 2.0) sans aucune ressource supplémentaire à gérer ni modification des workflows existants. Concrètement, un rapport peut montrer qu'Alice a dépensé 0,069 dollar en tokens d'entrée et 0,214 dollar en tokens de sortie avec Claude Sonnet 4.6, pendant que Bob a consommé 1,188 dollar au total avec Claude Opus 4.6, avec une précision à l'identité près. Il est également possible d'ajouter des tags de coût sur les identités IAM pour regrouper les dépenses par équipe, projet ou centre de coût dans AWS Cost Explorer. Cette visibilité fine répond à un besoin croissant des entreprises qui voient l'inférence IA représenter une part de plus en plus significative de leur facture cloud. Sans attribution précise, il est impossible de refacturer correctement les équipes internes, d'identifier les usages inefficaces ou de planifier les budgets. Grâce à cette fonctionnalité, un DSI peut désormais savoir exactement quelle équipe produit, quel service applicatif ou quel développeur génère quels coûts LLM, sans déployer d'infrastructure de monitoring supplémentaire. Pour les organisations qui font transiter leurs appels via une passerelle LLM centralisée, AWS recommande d'utiliser AssumeRole avec des tags de session dynamiques afin de préserver la granularité par utilisateur final, même derrière un proxy unique. Cette annonce s'inscrit dans une tendance de fond : les grands fournisseurs de cloud cherchent à rendre l'IA générative compatible avec les pratiques de gouvernance financière des entreprises. Amazon Bedrock, qui donne accès à des modèles de plusieurs éditeurs dont Anthropic, Mistral et Meta, doit convaincre les directions financières que la dépense IA est traçable et contrôlable. La concurrence avec Azure AI et Google Vertex AI pousse AWS à muscler ses outils de FinOps autour de l'IA. À mesure que les modèles comme Claude Opus deviennent plus coûteux à l'usage, la capacité à attribuer précisément chaque dollar dépensé devient un argument de vente central pour les déploiements en entreprise, où la responsabilisation budgétaire par équipe est souvent non négociable.

UELes entreprises européennes utilisant Amazon Bedrock peuvent désormais attribuer précisément leurs dépenses d'inférence IA par équipe ou projet, facilitant la gouvernance financière et la refacturation interne sans infrastructure supplémentaire.

InfrastructureActu
1 source
NewBird AI : comment le virage technologique d’Allbirds a fait bondir son action de 600 %
120Le Big Data 

NewBird AI : comment le virage technologique d’Allbirds a fait bondir son action de 600 %

Le 15 avril 2026, Allbirds, fabricant américain de chaussures durables, a annoncé l'abandon total de son activité historique pour se repositionner sous le nom NewBird AI, avec pour nouvelle mission de fournir des infrastructures de calcul dédiées à l'intelligence artificielle. L'annonce a provoqué une envolée boursière spectaculaire : le titre a bondi jusqu'à 876 % en séance avant de clôturer à 16,99 dollars, soit une progression de 582 % en une seule journée depuis les 2,49 dollars du matin. Concrètement, l'entreprise a cédé l'ensemble de ses marques et actifs liés à la chaussure à American Exchange Group pour 39 millions de dollars, et a simultanément sécurisé une facilité de financement convertible de 50 millions de dollars auprès d'un investisseur institutionnel. Ces fonds serviront à acquérir des GPU haute performance et à construire une offre de type GPU-as-a-Service, c'est-à-dire la location de puissance de calcul à des entreprises souhaitant entraîner ou faire tourner des modèles d'IA. Ce pivot illustre de façon saisissante comment la pénurie mondiale de ressources de calcul est devenue un levier de création de valeur capable de transformer instantanément la perception d'une entreprise sur les marchés, même si celle-ci n'avait aucun lien historique avec la technologie. Pour les entreprises confrontées à des délais et des contraintes d'accès aux GPU chez les grands fournisseurs cloud, une offre alternative flexible représente une réponse concrète à un goulot d'étranglement structurel. NewBird AI ne cherche pas à concurrencer AWS, Google Cloud ou Azure frontalement, mais à occuper les interstices du marché : des clients qui ne peuvent pas obtenir de capacités de manière fiable ou rapide auprès des hyperscalers traditionnels. La proposition de valeur repose sur la disponibilité immédiate et des contrats de location à long terme. Allbirds avait été introduite en Bourse en novembre 2021 à 15 dollars l'action, levant près de 348 millions de dollars sur la promesse d'une marque de chaussures éco-responsables. Depuis, la trajectoire avait été régulièrement pénalisée par la baisse des ventes, des pertes croissantes et un recul d'image, ramenant le titre à moins de 3 dollars début 2026. Ce pivot radical s'inscrit dans une tendance plus large où des sociétés cotées en difficulté cherchent à capter l'enthousiasme des investisseurs pour l'IA en procédant à des rebranding agressifs, parfois sans historique technique ni infrastructure préexistante. La capacité de NewBird AI à réellement déployer des actifs GPU compétitifs et à attirer une clientèle stable face à des acteurs déjà établis dans le GPUaaS, comme CoreWeave, reste à démontrer dans les prochains trimestres.

BusinessOpinion
1 source
L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox
121AI News 

L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox

OpenAI vient d'annoncer de nouvelles fonctionnalités pour son Agents SDK, avec notamment l'introduction de l'exécution en sandbox et d'un environnement d'exécution natif au modèle. Ces ajouts visent à permettre aux équipes de gouvernance en entreprise de déployer des workflows automatisés avec un contrôle accru des risques. Concrètement, le SDK intègre désormais une mémoire configurable, une orchestration adaptée aux environnements sandbox, et des outils de gestion de fichiers similaires à ceux de Codex. Les développeurs peuvent également utiliser des primitives standardisées comme l'appel d'outils via MCP, des instructions personnalisées via un fichier AGENTS.md, et un outil d'application de correctifs pour les modifications de fichiers. Une abstraction baptisée "Manifest" permet de décrire l'espace de travail de manière normalisée, avec la possibilité de connecter directement des environnements à des fournisseurs de stockage majeurs : AWS S3, Azure Blob Storage, Google Cloud Storage et Cloudflare R2. Ces évolutions répondent à un problème concret rencontré lors du passage des prototypes en production : les équipes devaient jusqu'ici choisir entre des frameworks agnostiques offrant de la flexibilité mais ne tirant pas pleinement parti des modèles frontier, ou des SDK propriétaires proches du modèle mais manquant de visibilité sur la couche de contrôle. Le résultat était souvent la construction de connecteurs maison fragiles. Le cas d'Oscar Health illustre bien l'impact potentiel : ce prestataire de santé américain a utilisé le nouveau SDK pour automatiser un workflow de traitement de dossiers cliniques que les approches précédentes ne pouvaient pas gérer de façon fiable. Rachael Burns, Staff Engineer et AI Tech Lead chez Oscar Health, précise que la différence n'était pas seulement d'extraire les bonnes métadonnées, mais de comprendre correctement les limites de chaque consultation au sein de longs dossiers médicaux complexes, permettant ainsi d'accélérer la coordination des soins et d'améliorer l'expérience patient. Ces avancées s'inscrivent dans une tendance plus large : la course à la standardisation des infrastructures pour agents IA en entreprise. OpenAI, face à la concurrence de frameworks comme LangChain, LlamaIndex ou les offres cloud de Google et Microsoft, cherche à imposer son SDK comme la référence native pour les équipes qui utilisent ses modèles. L'introduction du Manifest et de l'exécution en sandbox signale une ambition claire : capter les déploiements en production, segment où les enjeux de sécurité, de traçabilité et de gouvernance sont déterminants. En standardisant la couche d'infrastructure, OpenAI libère les équipes techniques de la maintenance des "plomberies" et les oriente vers la logique métier à valeur ajoutée. La prochaine étape sera de voir dans quelle mesure ces outils s'intègrent avec les systèmes legacy et si l'abstraction Manifest tient ses promesses à grande échelle.

122AWS ML Blog 

AWS propose un cadre pratique pour réussir son adoption de l'IA générative

Amazon Web Services a publié un cadre méthodologique baptisé "Generative AI Path-to-Value" (P2V), conçu pour aider les entreprises à transformer leurs projets pilotes d'IA générative en systèmes opérationnels créateurs de valeur durable. Cette initiative intervient alors qu'un nombre croissant d'organisations constatent un écart entre la phase d'expérimentation, souvent prometteuse, et le déploiement en production à grande échelle. Le cadre identifie quatre catégories de blocages récurrents : la valeur (absence de ROI clairement défini et de critères de succès mesurables), le risque (exposition légale, confidentialité des données, conformité réglementaire), la technologie (intégration avec les systèmes existants, qualité des données, observabilité, scalabilité, gestion des coûts cloud) et les ressources humaines (résistance au changement, manque de compétences, redéfinition des rôles). L'enjeu est considérable pour les équipes techniques et les directions métier : sans méthode structurée, la majorité des initiatives d'IA générative restent bloquées entre le prototype et la mise en production, sans jamais produire de bénéfices mesurables. Le cadre P2V repositionne la mise en production non pas comme une finalité, mais comme une étape intermédiaire sur un chemin plus long vers la création de valeur pérenne. Concrètement, cela oblige les organisations à définir des métriques d'évaluation, à constituer des jeux de données de test, à mettre en place un monitoring continu de la qualité, et à intégrer des pratiques FinOps pour maîtriser les coûts d'infrastructure. Pour les utilisateurs finaux et les équipes IT, cela se traduit par des projets mieux gouvernés, des déploiements plus stables et un retour sur investissement plus facile à justifier auprès des décideurs. Ce travail de formalisation s'inscrit dans une dynamique plus large : après l'euphorie des années 2023-2024 marquées par l'explosion des POC, les grandes entreprises entrent dans une phase de maturité où l'accent passe de l'expérimentation à l'industrialisation. AWS n'est pas seul sur ce terrain, Microsoft Azure, Google Cloud et des cabinets de conseil comme McKinsey ou Accenture publient des cadres similaires pour accompagner cette transition. La bataille se joue désormais sur l'adoption en entreprise, et les hyperscalers qui fourniront les meilleures méthodologies d'intégration auront un avantage décisif. La prochaine étape pour AWS sera probablement d'ancrer ce cadre P2V dans ses offres de services managés et de conseil, transformant une publication méthodologique en levier commercial concret.

UELes entreprises européennes utilisant AWS peuvent s'appuyer sur ce cadre méthodologique pour structurer l'industrialisation de leurs projets d'IA générative et mieux justifier leur ROI auprès des décideurs.

OutilsOutil
1 source
123AWS ML Blog 

Déploiements par cas d'usage sur SageMaker JumpStart

Amazon a annoncé le lancement des déploiements optimisés sur SageMaker JumpStart, une nouvelle fonctionnalité qui permet aux entreprises utilisant AWS de configurer leurs modèles d'intelligence artificielle en fonction de cas d'usage précis plutôt que de simples paramètres techniques génériques. Disponible dès maintenant dans SageMaker Studio, cette mise à jour concerne une trentaine de modèles au lancement, dont plusieurs variantes de Meta Llama 3.1 et 3.2 (de 1B à 70B paramètres), Mistral 7B et Mistral Small 24B, les modèles Qwen3 d'Alibaba (jusqu'à 32B), Phi-3 de Microsoft, Gemma de Google et Falcon3 de TII. Les utilisateurs choisissent d'abord un cas d'usage textuel, rédaction générative, interaction de type chat, résumé de contenu, questions-réponses, puis sélectionnent une contrainte d'optimisation parmi quatre options : coût, débit, latence ou performance équilibrée. Une configuration de déploiement préconfigurée est alors générée automatiquement pour l'endpoint SageMaker. Ce changement répond à une limite concrète du système précédent : JumpStart proposait jusque-là de configurer les déploiements selon le nombre d'utilisateurs simultanés attendus, avec visibilité sur la latence P50, le temps avant le premier token (TTFT) et le débit en tokens par seconde. Ce modèle était utile pour des scénarios généralistes, mais ignorait que les performances optimales varient radicalement selon le type de tâche. Un système de résumé de documents longs n'a pas les mêmes besoins qu'un chatbot temps réel ou qu'un pipeline de génération de contenu en batch. En exposant directement ces dimensions aux équipes produit et data, AWS réduit la friction entre la sélection d'un modèle et sa mise en production effective, sans exiger d'expertise fine en infrastructure GPU ni en tuning de serving. Cette évolution s'inscrit dans la compétition acharnée que se livrent les grands fournisseurs cloud, AWS, Google Cloud et Microsoft Azure, pour capter les budgets d'inférence IA des entreprises. SageMaker JumpStart existe depuis plusieurs années comme point d'entrée vers les modèles pré-entraînés sur AWS, mais la plateforme cherche à monter en valeur face à des alternatives comme Vertex AI Model Garden ou Azure AI Studio qui proposent également des expériences de déploiement guidées. Le support des modèles image et vidéo est annoncé comme prochaine étape, et la liste des modèles compatibles est présentée comme amenée à s'élargir rapidement. Pour les entreprises déjà dans l'écosystème AWS, cette simplification pourrait accélérer les cycles de mise en production de modèles open-source sans passer par des équipes MLOps dédiées.

UELes entreprises européennes déployant des modèles open-source sur AWS peuvent réduire leur dépendance aux équipes MLOps grâce à cette simplification du cycle de mise en production.

OutilsOutil
1 source
124AWS ML Blog 

Bonnes pratiques pour l'inférence sur Amazon SageMaker HyperPod

Amazon a enrichi sa plateforme SageMaker HyperPod d'un ensemble de fonctionnalités dédiées à l'inférence de modèles d'IA générative, avec pour promesse affichée une réduction du coût total de possession allant jusqu'à 40%. La solution s'appuie sur Amazon Elastic Kubernetes Service (EKS) comme orchestrateur et permet de créer un cluster en quelques clics depuis la console SageMaker AI. Deux modes de configuration sont proposés : une installation rapide avec des ressources par défaut, et une installation personnalisée permettant d'intégrer des infrastructures existantes. Une fois le cluster actif, l'opérateur d'inférence intégré permet de déployer des modèles directement depuis des buckets S3, des systèmes de fichiers FSx for Lustre, ou depuis le catalogue SageMaker JumpStart, sans écrire une seule ligne de code. Des notebooks d'exemple couvrent les cas d'usage courants : modèles préconstruits, modèles fine-tunés, configurations personnalisées. L'enjeu central de cette mise à jour est la gestion dynamique des ressources GPU, historiquement coûteuse et complexe à piloter. HyperPod introduit une architecture de scalabilité à deux niveaux : KEDA (Kubernetes Event-Driven Autoscaling), un projet open source de la Cloud Native Computing Foundation, gère l'autoscaling des pods en fonction de métriques temps réel comme la longueur de la file de requêtes, la latence, ou des métriques CloudWatch et Prometheus personnalisées. KEDA peut réduire le nombre de pods à zéro en l'absence de trafic, supprimant ainsi les coûts à l'arrêt. En parallèle, Karpenter opère au niveau des nœuds de calcul : il provisionne ou retire des instances selon les besoins des pods en attente, et tourne dans le plan de contrôle EKS, ce qui évite tout surcoût lié à l'autoscaler lui-même. Cette combinaison permet de passer de zéro à une charge de production en réponse à la demande réelle. Ce lancement intervient dans un contexte où le déploiement de modèles de fondation à grande échelle est devenu un point de friction majeur pour les équipes IA en entreprise : infrastructure difficile à calibrer, pics de trafic imprévisibles, surinvestissement GPU, et délais de mise en production allongés. AWS positionne HyperPod comme une réponse complète à ce trilemme coût-performance-simplicité, en absorbant la complexité opérationnelle dans une couche managée. La plateforme concurrence directement les offres de Google (Vertex AI) et Microsoft Azure (ML endpoints managés), qui proposent des approches similaires. Les suites probables incluent une intégration plus poussée avec les outils d'observabilité AWS et une extension du support à d'autres architectures de modèles, alors que la course aux infrastructures d'inférence efficaces s'intensifie dans tout le secteur cloud.

InfrastructureActu
1 source
125AWS ML Blog 

Le Spring AI SDK pour Amazon Bedrock AgentCore est désormais en disponibilité générale

Amazon a rendu disponible en accès général le Spring AI SDK pour Amazon Bedrock AgentCore, une bibliothèque open source qui permet aux développeurs Java de construire et déployer des agents IA autonomes en production sur l'infrastructure d'AWS. Ce SDK s'intègre nativement dans l'écosystème Spring Boot 3.5 et Java 17 minimum, en exploitant les patterns familiers du framework : annotations, auto-configuration et advisors composables. Concrètement, un développeur ajoute une dépendance au projet, annote une méthode, et le SDK prend en charge tout le reste, de la gestion des endpoints jusqu'au streaming des réponses en temps réel. Jusqu'à présent, intégrer Amazon Bedrock AgentCore dans une application Spring représentait plusieurs semaines de travail d'infrastructure avant même d'écrire la moindre logique métier : il fallait implémenter manuellement les endpoints /invocations et /ping, gérer le streaming Server-Sent Events avec son protocole précis, configurer les health checks, le rate limiting, et connecter les advisors et les outils. Le SDK automatise entièrement ce contrat technique imposé par l'AgentCore Runtime. En particulier, il détecte automatiquement les tâches asynchrones longues et signale un statut "HealthyBusy" au runtime pour éviter qu'il ne retire des ressources pendant un traitement actif, un détail critique dans un modèle de facturation à l'usage où les temps d'inactivité ne sont pas facturés. Les équipes peuvent ainsi se concentrer sur la logique des agents plutôt que sur la plomberie infrastructure, et déployer des fonctionnalités comme la mémoire conversationnelle, l'automatisation de navigateur et l'exécution de code en sandbox. L'émergence de ce SDK s'inscrit dans une tendance de fond : les entreprises cherchent à passer des preuves de concept en IA générative à des systèmes agentiques véritablement opérationnels à grande échelle, capables de planifier et d'exécuter des tâches complexes en plusieurs étapes de manière autonome. AWS positionne Bedrock AgentCore comme une plateforme universelle, compatible avec n'importe quel framework et n'importe quel modèle. En ciblant spécifiquement la communauté Java et Spring, l'une des plus larges dans l'entreprise, Amazon ouvre un couloir direct vers la production pour des millions de développeurs backend qui auraient autrement dû franchir une barrière technique considérable. La concurrence dans ce segment est vive : Microsoft avec Azure AI, Google avec Vertex AI et des acteurs comme LangChain ou CrewAI proposent leurs propres abstractions pour les agents IA. La disponibilité générale du Spring AI AgentCore SDK marque une étape dans la maturité de l'outillage autour des agents IA en entreprise, où la gouvernance, la sécurité et la scalabilité deviennent des critères aussi importants que les capacités du modèle lui-même.

UELes développeurs Java et Spring Boot en Europe peuvent intégrer directement Amazon Bedrock AgentCore dans leurs projets sans semaines de travail d'infrastructure, accélérant la mise en production d'agents IA sur AWS.

OutilsOutil
1 source
Exclusif : Peter Hoeschele, cadre du projet 'Stargate' chez OpenAI, quitte l'entreprise
126The Information AI 

Exclusif : Peter Hoeschele, cadre du projet 'Stargate' chez OpenAI, quitte l'entreprise

Peter Hoeschele, cadre chez OpenAI en charge de l'initiative Stargate, a quitté l'entreprise, selon une source proche du dossier. Il faisait partie de l'équipe originelle du projet Stargate, le programme d'infrastructure de centres de données qu'OpenAI entend construire et opérer en propre. Sa sortie intervient alors que ce chantier titanesque, annoncé en janvier 2025 avec un investissement de 500 milliards de dollars sur quatre ans, porté par OpenAI, SoftBank et Oracle, entre dans sa phase de déploiement concrète sur le territoire américain. Le départ d'un exécutif fondateur de Stargate soulève des questions sur la stabilité interne du projet à un moment critique. Stargate représente le pari stratégique central d'OpenAI pour s'affranchir de sa dépendance à Microsoft Azure et disposer de sa propre capacité de calcul à grande échelle. Toute turbulence dans l'équipe dirigeante du programme pourrait ralentir des décisions d'ingénierie et de partenariat dont dépend la compétitivité d'OpenAI face à Google, Amazon et Meta dans la course aux infrastructures IA. Hoeschele rejoint une liste croissante de cadres de haut rang ayant quitté OpenAI ces dix-huit derniers mois, dans un contexte de transformation accélérée de l'entreprise, passage au statut de société à but lucratif, levées de fonds record, et pression concurrentielle intense. OpenAI n'a pas commenté officiellement ce départ. La direction opérationnelle de Stargate et l'identité de son successeur éventuel n'ont pas été précisées.

BusinessActu
1 source
127AWS ML Blog 

Amazon Bedrock AgentCore Runtime introduit des capacités MCP client avec état

Amazon a introduit des capacités client MCP (Model Context Protocol) avec état dans son service AgentCore Runtime sur Amazon Bedrock, marquant une évolution majeure pour les développeurs d'agents IA. Jusqu'à présent, les serveurs MCP hébergés sur cette plateforme fonctionnaient en mode sans état : chaque requête HTTP était traitée de façon indépendante, sans mémoire entre les appels. Le nouveau mode avec état, activé via un simple paramètre stateless_http=False, provision une microVM dédiée par session utilisateur, persistant jusqu'à 8 heures ou 15 minutes d'inactivité. Cette architecture permet désormais trois capacités clés du protocole MCP : l'élicitation (demander une saisie utilisateur en cours d'exécution), le sampling (solliciter du contenu généré par un LLM côté client), et les notifications de progression (streamer des mises à jour en temps réel). La continuité de session est assurée via un en-tête Mcp-Session-Id, échangé lors de l'initialisation et inclus dans toutes les requêtes suivantes. Ces nouvelles capacités transforment fondamentalement la nature des workflows agents. Là où les implémentations sans état forçaient les agents à s'exécuter de bout en bout sans interruption, les agents peuvent désormais mener de véritables conversations bidirectionnelles avec leurs clients : s'arrêter pour demander une clarification à l'utilisateur au milieu d'un appel d'outil, déléguer dynamiquement la génération de contenu au LLM présent côté client, ou signaler l'avancement d'opérations longues en temps réel. Pour les équipes qui construisent des assistants IA complexes, des pipelines de traitement de documents ou des agents d'automatisation nécessitant validation humaine intermédiaire, c'est un changement de paradigme concret qui élimine des contournements architecturaux souvent coûteux à maintenir. Le Model Context Protocol, standard ouvert définissant comment les applications LLM se connectent à des outils et sources de données externes, gagne rapidement en adoption depuis son lancement par Anthropic fin 2024. Amazon avait déjà intégré l'hébergement de serveurs MCP sans état dans AgentCore Runtime dans une version précédente ; cette mise à jour complète l'implémentation bidirectionnelle du protocole. L'isolation entre sessions via des microVMs dédiées garantit la sécurité et l'indépendance des contextes, chaque session bénéficiant de CPU, mémoire et système de fichiers séparés. Si une session expire ou que le serveur redémarre, les clients reçoivent une erreur 404 et doivent réinitialiser la connexion. Cette approche positionne AWS comme un acteur central dans l'infrastructure d'agents IA d'entreprise, en rivalité directe avec les offres similaires de Microsoft Azure et Google Cloud dans la course à standardiser les architectures agentiques.

UELes équipes européennes développant des agents IA sur des plateformes cloud peuvent désormais implémenter des workflows agentiques bidirectionnels natifs sans contournements architecturaux coûteux.

OutilsActu
1 source
Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock
128AWS ML Blog 

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil
1 source
Affinage par renforcement sur Amazon Bedrock : bonnes pratiques
129AWS ML Blog 

Affinage par renforcement sur Amazon Bedrock : bonnes pratiques

Amazon a intégré le Reinforcement Fine-Tuning (RFT) à sa plateforme Bedrock, permettant aux entreprises de personnaliser ses modèles maison Amazon Nova ainsi que plusieurs modèles open source sans avoir besoin de vastes jeux de données étiquetés. Selon les résultats publiés par l'entreprise, cette technique peut générer jusqu'à 66 % de gain de précision par rapport aux modèles de base, à un coût et une complexité réduits. Concrètement, le RFT fonctionne différemment de l'apprentissage supervisé classique : au lieu de s'entraîner sur des paires entrée/sortie correctes, le modèle génère des réponses candidates, qui sont ensuite notées par une fonction de récompense, et ses paramètres sont mis à jour pour favoriser les réponses les mieux notées. Cette boucle itéractive, générer, scorer, ajuster, permet au modèle de découvrir des stratégies que de simples exemples statiques ne pourraient pas lui enseigner. La fonction de récompense est implémentée via AWS Lambda, directement appelée par Bedrock pendant l'entraînement. Cette approche ouvre des possibilités concrètes pour deux grandes familles de tâches. D'un côté, les tâches à critères vérifiables automatiquement : génération de code devant passer des tests unitaires, raisonnement mathématique avec réponses exactes, extraction de données structurées devant respecter un schéma strict, ou orchestration d'API. C'est ce qu'Amazon appelle le RLVR (Reinforcement Learning with Verifiable Rewards). De l'autre côté, les tâches subjectives comme la modération de contenu, les chatbots ou la rédaction créative, où un modèle juge évalue les sorties selon une grille d'évaluation détaillée, approche baptisée RLAIF (Reinforcement Learning with AI Feedback). Pour les équipes techniques, l'intérêt est d'éviter la collecte laborieuse de milliers d'exemples annotés, particulièrement difficile à réaliser pour des tâches de raisonnement complexe où l'expertise humaine est coûteuse. Le RFT s'inscrit dans une tendance lourde de l'industrie IA depuis les succès de DeepSeek-R1 début 2025, qui avait démontré que l'entraînement par renforcement sur des tâches vérifiables pouvait produire des capacités de raisonnement spectaculaires à moindre coût. Amazon emboîte le pas en industrialisant cette technique dans un service cloud managé, ce qui la rend accessible aux équipes sans infrastructure d'entraînement propre. En proposant RFT directement dans Bedrock avec des métriques de suivi intégrées et des guidelines de tuning d'hyperparamètres, Amazon cherche à s'imposer face à Azure et Google Cloud sur le segment de la personnalisation de modèles en entreprise. Le dataset GSM8K, utilisé comme exemple de référence dans la documentation, illustre bien l'ambition : transformer des modèles généralistes en spécialistes fiables sur des domaines métier précis, sans expertise en machine learning approfondie.

UELes entreprises européennes sur AWS peuvent désormais affiner des modèles IA sans jeux de données annotés massifs ni infrastructure ML propre, abaissant la barrière d'entrée pour la personnalisation de modèles en production.

OutilsOutil
1 source
Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?
130Le Big Data 

Top 10 des entreprises IA : qui domine vraiment la révolution mondiale ?

Une poignée de géants technologiques concentre aujourd'hui l'essentiel de la puissance de l'intelligence artificielle mondiale. Microsoft, en tête, a réalisé un pivot stratégique majeur en investissant plusieurs milliards de dollars dans OpenAI, le laboratoire créateur de ChatGPT. En échange de ce partenariat exclusif, la firme de Redmond intègre les modèles GPT dans l'ensemble de son écosystème sous la marque Copilot : Windows, la suite Office, GitHub et ses outils de cybersécurité. Son cloud Azure sert simultanément de plateforme d'entraînement pour OpenAI et d'infrastructure pour les entreprises souhaitant déployer leurs propres applications d'IA. Alphabet, maison mère de Google, incarne quant à elle une présence encore plus ancienne dans le domaine : en 2017, ses chercheurs ont publié "Attention Is All You Need", le papier fondateur de l'architecture transformer sur laquelle reposent aujourd'hui la quasi-totalité des grands modèles de langage. Nvidia, OpenAI, Meta, Amazon, Apple, Anthropic et d'autres acteurs complètent ce cercle restreint qui contrôle modèles, puces et infrastructure cloud. Ce niveau de concentration a des conséquences directes sur l'ensemble de l'économie numérique. En contrôlant à la fois les algorithmes et l'infrastructure, ces entreprises deviennent les principaux distributeurs d'IA pour des centaines de millions d'utilisateurs et pour les entreprises qui cherchent à automatiser leurs processus. Microsoft et Google, en particulier, transforment des logiciels déjà massivement adoptés en interfaces d'intelligence artificielle, rendant l'adoption quasi-transparente pour l'utilisateur final. Les entreprises qui souhaitent développer leurs propres solutions d'IA se retrouvent en grande partie dépendantes de l'infrastructure cloud de ces mêmes acteurs, renforçant ainsi leur position dominante sur toute la chaîne de valeur, de la recherche fondamentale jusqu'à la distribution commerciale. Cette domination est le fruit de décennies d'investissement massif dans la recherche et l'infrastructure. Google Finance cette transformation depuis les années 2010 via DeepMind et Google Brain, tandis que Microsoft a su reconvertir sa position de leader du logiciel d'entreprise en levier d'adoption de l'IA générative. La barrière à l'entrée est désormais astronomique : entraîner un grand modèle de langage compétitif nécessite des dizaines de milliers de GPU et des investissements se chiffrant en milliards de dollars, ce que seuls quelques acteurs peuvent se permettre. La question qui se pose pour la suite est double : comment les régulateurs, notamment en Europe avec l'AI Act, vont-ils encadrer cette concentration de pouvoir technologique, et quels nouveaux entrants, à l'image d'Anthropic ou Mistral, parviendront à s'imposer face à des géants qui ont pris plusieurs longueurs d'avance ?

UELa concentration du pouvoir IA entre quelques géants américains renforce la dépendance des entreprises européennes à des infrastructures cloud étrangères, un enjeu central de l'AI Act et une menace directe pour la souveraineté numérique de l'UE.

BusinessActu
1 source
Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur
131AWS ML Blog 

Amazon SageMaker AI accélère les appels d'outils des agents autonomes avec la personnalisation de modèles sans serveur

Amazon a introduit une fonctionnalité de personnalisation de modèles sans serveur dans SageMaker AI, permettant aux équipes d'améliorer drastiquement les capacités d'appel d'outils des agents IA sans gérer d'infrastructure GPU. Dans un cas concret publié début avril 2026, des ingénieurs ont affiné le modèle Qwen 2.5 7B Instruct en utilisant la technique RLVR (Reinforcement Learning with Verifiable Rewards) et ont obtenu une amélioration de 57% du score de qualité des appels d'outils sur des scénarios inédits, c'est-à-dire des outils que le modèle n'avait jamais vus lors de l'entraînement. La méthode repose sur un principe simple : le modèle génère huit réponses candidates par prompt, une fonction de récompense vérifie lesquelles sont correctes, et l'algorithme GRPO (Group Relative Policy Optimization) renforce les comportements qui surpassent la moyenne du groupe. SageMaker AI prend en charge les familles de modèles Amazon Nova, Llama, Qwen et DeepSeek, avec un suivi des métriques via MLflow intégré. L'enjeu est concret : les agents IA en production échouent fréquemment lors des appels d'outils, qu'il s'agisse d'halluciner des fonctions inexistantes, de passer des paramètres incorrects, ou de déclencher une action là où ils devraient demander une clarification. Ces erreurs bloquent le déploiement en production et détruisent la confiance des utilisateurs. La nouvelle approche serverless d'Amazon supprime l'obstacle opérationnel majeur que représentait jusqu'ici le fine-tuning par renforcement : achat de GPU, orchestration mémoire entre les phases de rollout et d'entraînement, infrastructure de récompenses, gestion des checkpoints. Les équipes peuvent désormais se concentrer sur leurs données, leur modèle et leur fonction de récompense, le reste étant géré par la plateforme. Le fine-tuning supervisé classique (SFT) montre ses limites pour ce type de tâche : il nécessite des exemples étiquetés pour chaque comportement souhaité, mais peine à généraliser la prise de décision entre appeler un outil, demander des informations supplémentaires, ou refuser d'agir. RLVR contourne ce problème en exploitant la nature vérifiable des appels d'outils : soit le modèle a appelé la bonne fonction avec les bons paramètres, soit non. Cette objectivité binaire rend l'appel d'outils particulièrement adapté à l'apprentissage par renforcement. Amazon positionne cette offre dans un marché de l'IA agentique en forte croissance, où des acteurs comme Google (Vertex AI), Microsoft (Azure ML) et des startups spécialisées se disputent les équipes qui cherchent à industrialiser des agents fiables, avec un accès simplifié via SageMaker Studio et un compte AWS standard.

OutilsActu
1 source
Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride
132AWS ML Blog 

Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride

Amazon a présenté une approche technique détaillée pour construire des assistants d'IA générative de nouvelle génération, combinant Amazon Bedrock, Amazon Bedrock AgentCore, le framework Strands Agents et Amazon OpenSearch dans une architecture dite "RAG hybride" (Retrieval-Augmented Generation). Ces systèmes, plus sophistiqués que de simples chatbots, sont capables de mener des conversations en plusieurs étapes, d'adapter leurs réponses aux besoins spécifiques de chaque utilisateur, et d'exécuter des tâches en arrière-plan telles que des appels d'API ou des requêtes en base de données en temps réel. L'exemple concret illustré dans l'article est celui d'un assistant de réservation hôtelière : l'agent interroge d'abord une base de données pour identifier les établissements correspondant aux critères du client, puis effectue des appels API pour récupérer disponibilités et tarifs actuels, avant de synthétiser ces informations dans une réponse cohérente. Le coeur de l'innovation réside dans la combinaison de deux approches de recherche d'information : la recherche textuelle classique par mots-clés et la recherche sémantique vectorielle. Cette dernière repose sur des embeddings vectoriels précalculés, stockés dans des bases de données vectorielles comme OpenSearch, qui permettent de trouver des résultats pertinents même lorsque les termes exacts ne correspondent pas. Le système convertit la requête de l'utilisateur en vecteur numérique et identifie les contenus les plus proches dans un espace à haute dimension, en utilisant des métriques de distance comme la similarité cosinus. Un exemple frappant illustre la puissance de cette approche : pour la requête "2x4 lumber board", le système sémantique identifie "building materials" comme résultat pertinent, là où une recherche lexicale aurait échoué. Cette capacité d'alignement sémantique est particulièrement précieuse pour les entreprises dont les bases de connaissances métier utilisent une terminologie différente de celle employée par leurs clients. Cette publication s'inscrit dans la stratégie d'Amazon Web Services de positionner Bedrock comme la plateforme centrale pour le déploiement d'agents d'IA en entreprise. Le RAG hybride répond à un défi bien documenté des LLMs : leur incapacité à accéder nativement à des données récentes ou propriétaires. En greffant une couche de récupération dynamique sur des modèles comme ceux disponibles via Bedrock, AWS propose une alternative aux solutions de fine-tuning, plus coûteuses et moins flexibles. La concurrence dans ce segment est intense, avec des offres similaires chez Microsoft Azure (Azure AI Search) et Google Cloud (Vertex AI Search). L'intégration native d'OpenSearch dans cet écosystème renforce l'attrait pour les entreprises déjà clientes AWS, tandis que l'introduction de Bedrock AgentCore signale une montée en gamme vers des architectures multi-agents plus complexes, capables d'orchestrer plusieurs outils et sources de données simultanément.

OutilsOutil
1 source
Créer un agent FinOps avec Amazon Bedrock AgentCore
133AWS ML Blog 

Créer un agent FinOps avec Amazon Bedrock AgentCore

Amazon a dévoilé une solution clé en main pour construire un agent FinOps basé sur Amazon Bedrock AgentCore, permettant aux équipes financières de gérer les coûts AWS à travers plusieurs comptes via une interface conversationnelle unique. L'architecture repose sur Claude Sonnet 4.5 d'Anthropic, le Strands Agent SDK et le protocole MCP (Model Context Protocol), déployée via AWS CDK. L'agent consolide les données de trois services AWS — Cost Explorer, Budgets et Compute Optimizer — et propose plus de 20 outils spécialisés couvrant l'intégralité du spectre de la gestion des coûts cloud. La mémoire conversationnelle conserve jusqu'à 30 jours de contexte, permettant des questions de suivi sans répéter les informations préalables. Concrètement, cette solution élimine la nécessité pour les équipes finance et DevOps de naviguer manuellement entre plusieurs consoles AWS pour obtenir une vue consolidée des dépenses. Un responsable peut simplement demander "Quels sont mes principaux postes de dépenses ce mois-ci ?" et obtenir une réponse immédiate, sans requêtes SQL ni exports manuels. L'authentification repose sur Amazon Cognito (gestion des utilisateurs et flux OAuth 2.0 machine-à-machine), tandis qu'AWS Amplify héberge l'interface web. L'accès en langage naturel démocratise la visibilité sur les coûts cloud à l'ensemble de l'organisation, y compris aux profils non techniques — un enjeu majeur dans les entreprises où la facture AWS est souvent opaque pour les décideurs métier. Le FinOps — la pratique de gouvernance financière du cloud — est devenu un domaine à part entière alors que les dépenses cloud des entreprises ont explosé ces cinq dernières années, rendant le suivi des coûts multi-comptes complexe et chronophage. Amazon Bedrock AgentCore, lancé récemment par AWS, est la réponse d'Amazon à la vague d'agents IA d'entreprise : une plateforme d'exécution managée pour déployer des agents LLM avec mémoire, outils et identité gérés nativement. Cette solution illustre parfaitement la stratégie d'AWS de transformer ses propres services (Cost Explorer, Compute Optimizer) en sources de données accessibles via des agents IA, réduisant la friction d'adoption. La concurrence s'intensifie sur ce segment : Microsoft Copilot pour Azure Cost Management et Google Cloud Carbon Footprint poursuivent des ambitions similaires. La prochaine étape logique sera l'automatisation des recommandations d'optimisation, passant d'un agent qui répond à des questions à un agent qui agit directement sur l'infrastructure pour réduire les coûts.

UELes entreprises françaises et européennes utilisant AWS peuvent simplifier leur gestion de coûts cloud multi-comptes via cet agent, sans impact réglementaire ou institutionnel spécifique.

OutilsOutil
1 source
Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)
134AWS ML Blog 

Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)

Amazon Web Services vient d'ouvrir l'accès à Amazon Bedrock depuis la région Asie-Pacifique (Nouvelle-Zélande), identifiée sous le code ap-southeast-6 et basée à Auckland. Les clients néo-zélandais peuvent désormais appeler directement les modèles d'Anthropic — Claude Opus 4.5 et 4.6, Sonnet 4.5 et 4.6, et Haiku 4.5 — ainsi que les modèles Amazon Nova 2 Lite, sans passer par une région étrangère. Le mécanisme repose sur l'inférence cross-région : lorsqu'une requête est émise depuis Auckland, Amazon Bedrock la distribue dynamiquement vers une ou plusieurs régions de destination — Auckland elle-même, Sydney (ap-southeast-2) ou Melbourne (ap-southeast-4) — en fonction de la charge et de la disponibilité. Toutes les données transitent exclusivement sur le réseau privé AWS, chiffrées en transit, sans jamais passer par l'internet public. Les appels sont enregistrés dans AWS CloudTrail depuis la région source, et les logs d'invocation peuvent être dirigés vers CloudWatch ou S3 dans la même région. Cette disponibilité régionale répond à une demande concrète des entreprises néo-zélandaises soumises à des exigences de résidence des données. Le profil géographique « AU » permet désormais de garantir que les traitements d'inférence restent dans le périmètre Australie–Nouvelle-Zélande, ce qui est décisif pour des secteurs comme la santé, la finance ou les services publics, où la localisation des données est une contrainte légale ou réglementaire. En parallèle, les organisations sans contrainte de résidence peuvent opter pour le profil global, qui route vers n'importe quelle région commerciale AWS dans le monde pour maximiser le débit disponible. Ce double choix de routage offre une flexibilité opérationnelle rare sur le marché du cloud. Amazon Bedrock s'étend ainsi progressivement dans la zone Pacifique, une région stratégique pour AWS face à la concurrence de Google Cloud et Microsoft Azure, qui ont également multiplié leurs ouvertures de datacenters locaux ces dernières années. La Nouvelle-Zélande, bien que marché de taille modeste, représente un point d'ancrage important pour les entreprises multinationales opérant dans la région ANZ. L'intégration d'Auckland dans le profil cross-région AU — sans modifier les comportements existants de Sydney et Melbourne — illustre une approche incrémentale conçue pour ne pas perturber les architectures déjà en production. La prochaine étape probable sera l'élargissement du catalogue de modèles accessibles depuis cette nouvelle région source, au fur et à mesure que les capacités d'inférence locales monteront en charge.

InfrastructureActu
1 source
Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3
135AWS ML Blog 

Affiner les LLM avec des données non structurées via SageMaker Unified Studio et S3

Amazon Web Services a annoncé une intégration entre Amazon SageMaker Unified Studio et les buckets Amazon S3 grand public, permettant d'exploiter des données non structurées directement dans les workflows de machine learning. Le cas d'usage présenté illustre l'affinage du modèle Llama 3.2 11B Vision Instruct — développé par Meta — pour des tâches de questions-réponses visuelles (VQA), comme l'extraction automatique d'informations depuis des reçus ou documents scannés. Le modèle de base atteint un score ANLS de 85,3 % sur le benchmark DocVQA, une métrique mesurant la similarité entre réponse prédite et réponse attendue. Pour l'affinage, AWS utilise le dataset DocVQA de Hugging Face, qui contient 39 500 exemples d'entraînement associant image, question et réponse. Trois versions affinées sont produites avec des volumes de données variables : 1 000, 5 000 et 10 000 images, orchestrées entièrement via SageMaker Unified Studio et évaluées avec Amazon SageMaker MLflow en mode serverless. Cet affinement ciblé permet aux équipes data de dépasser les limites d'un modèle généraliste sans reconstruire une infrastructure complexe de bout en bout. Pour les entreprises traitant des documents à haute valeur — contrats, factures, rapports médicaux — gagner quelques points de précision au-delà de 85 % peut représenter une différence opérationnelle significative. L'intégration native entre S3 et le catalogue SageMaker supprime une friction majeure : les données non structurées (images, PDF, textes bruts) deviennent des actifs directement exploitables par les équipes ML sans pipeline d'ingestion personnalisé. Le suivi des expériences via MLflow serverless permet en outre de comparer objectivement les trois variantes affinées et de documenter les gains de performance, une exigence croissante dans les déploiements enterprise. Cette annonce s'inscrit dans la stratégie d'AWS pour faire de SageMaker Unified Studio une plateforme unifiée couvrant l'ensemble du cycle MLOps, depuis l'ingestion des données brutes jusqu'au déploiement en production. La montée en puissance des modèles multimodaux — capables de traiter simultanément texte et image — crée une demande forte pour des outils d'affinage accessibles, sans que chaque équipe doive maîtriser les subtilités de l'entraînement distribué. AWS positionne ici SageMaker JumpStart comme point d'accès aux modèles fondamentaux, tandis que l'infrastructure d'entraînement repose sur des instances p4de.24xlarge, des GPU haute performance nécessitant une demande d'augmentation de quota. La prochaine étape logique pour AWS sera d'élargir cette intégration à d'autres formats de données non structurées et à davantage de modèles fondamentaux, dans un contexte où Google, Microsoft Azure et les plateformes spécialisées comme Modal ou Together AI se disputent le même terrain des équipes ML entreprise.

OutilsOutil
1 source
ElevenLabs et IBM unissent leurs forces pour des agents IA vocaux
136Le Big Data 

ElevenLabs et IBM unissent leurs forces pour des agents IA vocaux

ElevenLabs et IBM ont annoncé le 25 mars 2026 un partenariat stratégique visant à intégrer les technologies vocales d'ElevenLabs — synthèse vocale (TTS) et reconnaissance vocale (STT) — à IBM WatsonX Orchestrate, la plateforme unifiée d'IBM pour la création, le déploiement et la gestion d'agents IA. Concrètement, les clients d'IBM auront accès à un catalogue de plus de 10 000 voix générées par IA, avec des garanties de conformité de niveau entreprise : certification PCI, mode « Zéro rétention » pour les données HIPAA, et résidence des données configurable. ElevenLabs, fondée en janvier 2023, compte aujourd'hui plus de 10 millions d'utilisateurs enregistrés et plus d'un million d'utilisateurs actifs quotidiens. Sa base de clients entreprise est passée d'environ 50 à 500 en dix-huit mois, signe d'une adoption rapide dans les secteurs exigeants. Ce partenariat marque un tournant concret dans la façon dont les entreprises déploient leurs agents conversationnels. Jusqu'ici, la majorité des agents IA en entreprise fonctionnaient en mode texte — chatbots, assistants intégrés aux workflows. L'ajout d'une couche vocale expressive et multilingue change radicalement l'expérience utilisateur : les banques, assureurs, établissements de santé ou fournisseurs d'énergie peuvent désormais proposer une assistance vocale naturelle, dans plusieurs langues et accents régionaux, sans sacrifier la conformité réglementaire. Les administrations publiques y voient également un levier pour informer leurs citoyens dans des contextes sensibles — santé, services sociaux, éducation — avec une accessibilité accrue. Comme le résume Nick Holda, vice-président des partenariats technologiques IA chez IBM : « Nos clients veulent des expériences intuitives et accessibles. » Ce rapprochement s'inscrit dans une tendance de fond : la voix devient le prochain front de bataille pour les agents IA en entreprise. IBM, déjà solide sur l'orchestration des agents et la gestion des données d'entreprise via WatsonX, manquait d'une brique vocale crédible. ElevenLabs apporte exactement cela — une synthèse vocale réputée quasi humaine, déjà adoptée massivement dans les médias, le divertissement et l'éducation. Pour ElevenLabs, l'alliance avec IBM ouvre l'accès aux grands comptes dans des secteurs régulés (finance, santé, télécoms) où sa crédibilité seule n'aurait pas suffi à convaincre les directions des systèmes d'information. Mati Staniszewski, cofondateur d'ElevenLabs, l'a dit sans détour : « C'est par la voix que l'IA gagne ou perd la confiance. » La suite logique pourrait inclure une intégration plus profonde avec Red Hat OpenShift et les environnements cloud hybrides d'IBM, positionnant les deux entreprises face à des concurrents comme Microsoft Azure AI Speech ou Google Cloud Text-to-Speech sur le marché des agents vocaux d'entreprise.

UELes garanties de conformité (résidence des données configurable, mode zéro rétention) et le support multilingue ouvrent des perspectives pour les entreprises et administrations européennes des secteurs régulés, en cohérence avec les exigences du RGPD.

OutilsOutil
1 source
Ocorian : les family offices se tournent vers l'IA pour analyser leurs données financières
137AI News 

Ocorian : les family offices se tournent vers l'IA pour analyser leurs données financières

Selon une étude mondiale publiée par Ocorian, 86 % des family offices ont désormais recours à l'intelligence artificielle pour analyser leurs données financières et améliorer leurs opérations quotidiennes. Ces structures de gestion de patrimoine privé, représentant ensemble 119,37 milliards de dollars d'actifs, utilisent le machine learning pour moderniser leurs workflows, détecter des anomalies, automatiser le reporting et respecter des cadres réglementaires de plus en plus exigeants. Les outils déployés s'appuient majoritairement sur de grandes infrastructures cloud comme Microsoft Azure ou Google Cloud, qui fournissent la puissance de calcul et les protocoles de sécurité nécessaires. Sur le calendrier d'adoption, 26 % des dirigeants interrogés estiment que l'IA va transformer l'administration et les performances dès l'année prochaine, tandis que 72 % tablent sur un impact plus large à horizon deux à cinq ans. Cette adoption massive marque un tournant pour un secteur historiquement conservateur. L'IA permet aux équipes opérationnelles de repérer des schémas de fraude ou des manquements à la conformité bien plus rapidement que les contrôles manuels, tout en allégeant la charge administrative liée aux obligations réglementaires. Mais l'intégration reste complexe : les architectures de données héritées nécessitent souvent une refonte profonde avant de pouvoir supporter des outils d'analyse prédictive, et moderniser les systèmes sans perturber les services clients constitue un défi majeur. Michael Harman, directeur commercial d'Ocorian pour le Royaume-Uni et les îles Anglo-Normandes, résume bien la situation : les family offices comprennent que l'IA aura un impact considérable et qu'ils doivent commencer à explorer ce domaine, mais ils auront besoin d'accompagnement pour réussir cette transition. Paradoxalement, malgré ce fort taux d'utilisation opérationnelle, seuls 7 % des répondants — issus de 16 territoires dont le Royaume-Uni, les États-Unis, les Émirats arabes unis et Singapour — cherchent actuellement à investir directement dans des entreprises du secteur IA, préférant s'appuyer sur des solutions éprouvées plutôt qu'absorber les risques liés aux startups émergentes. Ce chiffre devrait toutefois évoluer rapidement : 74 % de ces organisations prévoient d'augmenter leurs investissements dans les actifs numériques au cours des trois prochaines années, dont 20 % de façon significative. Les family offices gèrent le patrimoine de familles fortunées et constituent l'un des segments les plus discrets — et les plus puissants — de la finance mondiale. Leur adoption accélérée de l'IA s'inscrit dans une tendance plus large de numérisation du secteur financier, sous la pression conjuguée de la complexité réglementaire croissante et de la concurrence des fintechs.

UELes family offices britanniques et des îles Anglo-Normandes figurent parmi les 16 territoires étudiés, illustrant une adoption croissante de l'IA dans la gestion de patrimoine en Europe, notamment sous la pression des cadres réglementaires financiers comme DORA.

BusinessActu
1 source
OpenAI va créer son propre GitHub : une humiliation de plus pour Microsoft ?
138Le Big Data 

OpenAI va créer son propre GitHub : une humiliation de plus pour Microsoft ?

OpenAI envisage de créer sa propre plateforme de dépôt de code, alternative à GitHub, propriété de Microsoft, son principal investisseur. Cette initiative est motivée par des pannes fréquentes de GitHub qui perturbent le travail des ingénieurs d'OpenAI, entraînant des heures de perte de productivité. Ces interruptions, incluant une panne de quatre heures en février 2026, sont attribuées à des problèmes d'infrastructure migrant vers Azure, causant des configurations erronées et des temps d'arrêt intermittents. OpenAI souhaite une solution plus fiable pour gérer ses modèles d'IA à grande échelle, nécessitant des volumes de données massifs et des cycles d'expérimentation rapides, ce qui rend même les petites pannes intolérables pour leurs équipes.

UEOpenAI développe sa propre plateforme de dépôt de code pour remplacer GitHub, influençant potentiellement l'autonomie technologique française via des entreprises comme OVHcloud, soutenant ainsi l'indépendance numérique européenne.

RégulationOutil
1 source
Fonds souverain britannique pour l'IA consolide sa structure cybernétique
139AI News 

Fonds souverain britannique pour l'IA consolide sa structure cybernétique

Le Royaume-Uni lance officiellement le 16 avril son fonds souverain pour l'IA, doté de 500 millions de livres sterling, avec pour objectif de développer une infrastructure informatique nationale indépendante des hyperscalers étrangers (AWS, Google Cloud, Azure). Piloté par James Wise de Balderton Capital, le fonds s'appuie sur des supercalculateurs domestiques comme Isambard-AI à Bristol et Dawn à Cambridge, et a déjà investi 8 millions de livres dans le consortium OpenBind, qui cartographie les interactions moléculaires à une échelle 20 fois supérieure aux bases de données existantes. L'initiative vise à protéger la propriété intellectuelle locale et à réduire les coûts de R&D — jusqu'à 40 % dans le secteur pharmaceutique — tout en capitalisant sur un marché tech national estimé à 1 000 milliards de livres et plus de 5 800 entreprises d'IA.

RégulationActu
1 source