Aller au contenu principal
Créez une suite de tests évolutive pour votre agent avec la gestion de datasets dans Amazon Bedrock AgentCore
OutilsAWS ML Blog23h

Créez une suite de tests évolutive pour votre agent avec la gestion de datasets dans Amazon Bedrock AgentCore

Résumé IASource uniqueImpact UE
Source originale ↗·

Amazon a annoncé une fonctionnalité de gestion de jeux de données dans Amazon Bedrock AgentCore, conçue pour stabiliser l'évaluation des agents d'intelligence artificielle. Le principe repose sur la constitution de jeux de tests versionnés : chaque scénario contient une entrée, une sortie attendue, des assertions à vérifier et la séquence d'outils que l'agent doit appeler. Ces jeux de données sont d'abord éditables dans un état brouillon, puis publiés en versions numérotées immuables. Une fois verrouillée, une version ne peut plus changer, ce qui garantit que deux évaluations successives comparent exactement les mêmes entrées. Lorsqu'un bug survient en production, la trace fautive est capturée et intégrée définitivement au jeu de test, de sorte que toute modification future de l'agent sera systématiquement confrontée à ce cas limite.

L'enjeu est de taille parce que les agents LLM sont non-déterministes par nature : la même requête peut produire des réponses différentes d'une exécution à l'autre. Sans entrées stables, il est impossible de distinguer une vraie amélioration de l'agent d'une simple variation statistique du modèle. Par ailleurs, un juge LLM peut apprécier si une réponse semble pertinente, mais il ne peut pas vérifier si un cours boursier est exact, si une séquence d'appels d'outils s'est déroulée dans le bon ordre, ou si des données personnelles ont fuité entre deux sessions. Seule la vérité terrain, c'est-à-dire la réponse attendue et les assertions explicites, transforme un score subjectif en mesure vérifiable. C'est précisément ce que les datasets versionnés apportent : stabilité des inputs et ancrage dans le réel.

La fonctionnalité répond à deux cycles de travail distincts dans le développement d'agents. Le premier est la boucle courte du développeur, qui modifie un outil, relance une évaluation et observe le score en quelques minutes : sans jeu de tests stable en dessous, une amélioration du score peut simplement signifier que les questions sont devenues plus faciles. Le second est la pipeline CI/CD, qui doit valider chaque changement avant déploiement. La plupart des équipes ont ce verrou, mais peu disposent d'un socle de scénarios versionnés avec assertions explicites, ce qui signifie qu'un pipeline peut valider une build simplement parce que les questions ont changé, ratant les régressions réelles. En ancrant les deux boucles sur le même dataset publié, Amazon Bedrock AgentCore vise à faire du score qui convainc le développeur en local le même score que celui que surveille la CI en production.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Créer des agents IA pour la business intelligence avec Amazon Bedrock AgentCore
1AWS ML Blog 

Créer des agents IA pour la business intelligence avec Amazon Bedrock AgentCore

OPLOG, entreprise turque spécialisée dans la logistique e-commerce pilotée par l'IA et la robotique, traite des millions de colis chaque mois en Turquie, au Royaume-Uni et en Allemagne pour des marques internationales et des marketplaces globales. Face à une fragmentation critique de ses données métier réparties entre HubSpot CRM, Microsoft Teams, Databricks et plusieurs autres systèmes indépendants, la société a développé une plateforme de business intelligence (BI) basée sur des agents IA déployés via Amazon Bedrock AgentCore. Concrètement, OPLOG a construit trois agents distincts à l'aide du Strands Agents SDK d'AWS, intégrés avec le modèle Claude Sonnet d'Anthropic et Amazon Bedrock Knowledge Bases pour la recherche par RAG. Les résultats mesurés sont nets : réduction de 35 % des cycles de vente, amélioration de 91 % de la complétude des données CRM, et réduction de 98 % du temps consacré à la recherche manuelle. L'impact opérationnel est significatif pour toute organisation B2B confrontée à des silos de données. Avant ce système, les équipes d'OPLOG passaient plusieurs heures par jour à extraire manuellement des rapports de systèmes disparates, à synthétiser l'information et à préparer des mises à jour. Les rapports hebdomadaires manquaient 60 % des opportunités commerciales, les deals ayant déjà évolué avant que l'analyse soit disponible. Désormais, trois agents autonomes prennent en charge ces tâches en temps réel : le Deal Analyzer Agent tourne selon un calendrier aligné sur l'activité commerciale et analyse les deals HubSpot récents pour vérifier leur conformité méthodologique, en remontant les résultats directement dans Microsoft Teams. Le Sales Coach Agent réagit aux webhooks HubSpot lorsqu'un deal change de stade, valide les champs requis selon le modèle commercial (B2C, B2B, ou mixte), et crée automatiquement des tâches pour les données manquantes. Un troisième agent, dont le détail n'est pas entièrement publié, complète le dispositif côté recherche de prospects. Ce déploiement s'inscrit dans une tendance de fond : les grandes plateformes cloud cherchent à faire des agents IA le nouveau standard de l'automatisation d'entreprise. Amazon Bedrock AgentCore, l'environnement d'exécution managé d'AWS pour agents IA, vise à simplifier ce type d'architecture en éliminant la gestion d'infrastructure tout en offrant scalabilité et traçabilité. Le choix de Claude Sonnet (Anthropic) comme moteur de raisonnement positionne AWS dans une logique de multi-partenariat avec les principaux labs IA. Pour des entreprises comme OPLOG, dont la croissance rapide dépasse les capacités des outils BI traditionnels, cette approche par agents spécialisés et indépendants offre une voie pragmatique vers l'automatisation sans refonte complète du système d'information.

UEOPLOG, présent en Allemagne et au Royaume-Uni, illustre une architecture d'agents IA applicable aux entreprises logistiques et B2B européennes pour automatiser leur BI et réduire les silos de données.

OutilsOutil
1 source
Amazon Bedrock AgentCore : créer des agents IA pour le support métier
2AWS ML Blog 

Amazon Bedrock AgentCore : créer des agents IA pour le support métier

Works Human Intelligence (WHI), éditeur japonais du système RH intégré "COMPANY" utilisé par de grandes entreprises et organismes publics nippons, a collaboré avec le AWS Generative AI Innovation Center (GenAIIC) pour développer deux agents d'IA reposant sur Amazon Bedrock AgentCore. Le premier, le Commuting Allowance Agent, automatise la validation des demandes d'indemnités de transport lors d'événements comme les déménagements d'employés. Le second, le Browser Operation Agent, accède au système "COMPANY" au nom des clients pour vérifier des contenus, effectuer des opérations et collecter des preuves. Le résultat le plus marquant de cette collaboration est une réduction des coûts allant jusqu'à 97 %, combinée à une amélioration mesurable de l'efficacité opérationnelle des équipes support. Pour les départements RH de grandes organisations, la gestion quotidienne d'un système comme "COMPANY" génère un volume considérable de tâches répétitives : changements organisationnels, révisions des politiques salariales, mises à jour d'informations employés. L'automatisation via des agents d'IA permet de décharger les équipes opérationnelles de ces traitements routiniers, libérant du temps pour des missions à plus forte valeur ajoutée. La réduction de 97 % des coûts illustre concrètement ce que peut apporter une architecture bien conçue : WHI auto-hébergeait auparavant Langfuse pour surveiller ses agents, ce qui entraînait des coûts d'exploitation récurrents. La migration vers AgentCore Observability a supprimé cette charge. Pour l'industrie RH, ce cas démontre qu'il est possible de déployer des agents multi-tenants fiables, avec authentification via Amazon Cognito et gestion des tenants par Amazon DynamoDB, sans infrastructure monolithique difficile à faire évoluer. WHI avait initialement lancé un proof of concept avec LangGraph, Amazon ECS et AWS Fargate, mais la mise en disponibilité générale d'Amazon Bedrock AgentCore en cours de projet a conduit l'équipe à repenser l'architecture. Plutôt que de maintenir un ECS task monolithique où tous les composants s'exécutaient en bloc, la nouvelle architecture décompose les sous-agents pour les faire tourner individuellement sur l'AgentCore Runtime, ce qui facilite leur évolution future indépendante. Slack a été intégré comme point d'entrée, avec une authentification déclenchée au moment de chaque appel. WHI envisage également de remplacer l'agent superviseur actuel par Strands Agents à terme. Ce projet illustre une tendance croissante : les éditeurs de logiciels métier cherchent à enrichir leurs solutions avec des couches d'IA agentique en s'appuyant sur des services cloud managés pour absorber la complexité opérationnelle, plutôt que de maintenir leur propre outillage d'orchestration.

OutilsOutil
1 source
Créer des agents multi-locataires avec Amazon Bedrock AgentCore
3AWS ML Blog 

Créer des agents multi-locataires avec Amazon Bedrock AgentCore

Amazon a lancé Bedrock AgentCore, un service managé et serverless conçu pour permettre aux éditeurs de logiciels SaaS de déployer des applications agentiques en environnement multi-tenant sur AWS. Le service offre des primitives pour héberger des agents et des serveurs MCP (Model Context Protocol), avec une gestion intégrée des identités, de la mémoire, de l'observabilité et des évaluations. Le coeur de son architecture repose sur des microVMs isolées par session: chaque session client obtient son propre environnement d'exécution éphémère, avec un système de fichiers persistant propre, sans le coût ni la latence d'une machine virtuelle complète. Le contexte du tenant transite via des en-têtes HTTP personnalisés, portant l'identifiant du tenant, son niveau de service, ses préférences régionales et ses droits d'accès aux outils, ce qui permet à l'agent d'adapter dynamiquement son comportement sans logique de routage codée en dur. Cette approche répond directement au fossé qui sépare un prototype fonctionnel d'un déploiement en production dans un contexte SaaS. Les architectes d'applications agentiques devaient jusqu'ici résoudre manuellement six problèmes distincts: l'isolation des tenants, la propagation de leur identité, l'observabilité par tenant, l'isolation des données, l'attribution des coûts et la mitigation du "noisy neighbor" (un tenant monopolisant les ressources au détriment des autres). AgentCore propose trois patterns d'isolation, appelés Silo, Pool et Bridge, chacun offrant un compromis différent entre protection stricte et mutualisation des coûts. Pour les éditeurs gérant des centaines ou des milliers de clients sur une même plateforme, cette capacité à choisir un modèle d'isolation par segment tarifaire change concrètement l'équation économique et de conformité. Le lancement s'inscrit dans une course des grands fournisseurs cloud à imposer leurs infrastructures agentiques comme standard de facto pour la prochaine génération d'applications IA. AWS fait face à la concurrence directe de Google avec Vertex AI Agent Builder et de Microsoft avec Azure AI Agent Service, tous trois cherchant à capter les équipes d'ingénierie qui passent de l'expérimentation à la production. L'article publié par AWS est le premier d'une série, ce qui suggère que d'autres composants d'AgentCore (évaluation, fine-tuning par tenant, facturation granulaire) seront détaillés dans les prochaines semaines. La question centrale pour les équipes SaaS reste le degré de lock-in accepté en échange de la simplicité opérationnelle qu'offre un service pleinement managé.

UELes éditeurs SaaS européens construisant sur AWS peuvent exploiter les patterns d'isolation et les préférences régionales d'AgentCore pour satisfaire les exigences de résidence des données imposées par le RGPD.

OutilsOpinion
1 source
Créer un agent FinOps avec Amazon Bedrock AgentCore
4AWS ML Blog 

Créer un agent FinOps avec Amazon Bedrock AgentCore

Amazon a dévoilé une solution clé en main pour construire un agent FinOps basé sur Amazon Bedrock AgentCore, permettant aux équipes financières de gérer les coûts AWS à travers plusieurs comptes via une interface conversationnelle unique. L'architecture repose sur Claude Sonnet 4.5 d'Anthropic, le Strands Agent SDK et le protocole MCP (Model Context Protocol), déployée via AWS CDK. L'agent consolide les données de trois services AWS — Cost Explorer, Budgets et Compute Optimizer — et propose plus de 20 outils spécialisés couvrant l'intégralité du spectre de la gestion des coûts cloud. La mémoire conversationnelle conserve jusqu'à 30 jours de contexte, permettant des questions de suivi sans répéter les informations préalables. Concrètement, cette solution élimine la nécessité pour les équipes finance et DevOps de naviguer manuellement entre plusieurs consoles AWS pour obtenir une vue consolidée des dépenses. Un responsable peut simplement demander "Quels sont mes principaux postes de dépenses ce mois-ci ?" et obtenir une réponse immédiate, sans requêtes SQL ni exports manuels. L'authentification repose sur Amazon Cognito (gestion des utilisateurs et flux OAuth 2.0 machine-à-machine), tandis qu'AWS Amplify héberge l'interface web. L'accès en langage naturel démocratise la visibilité sur les coûts cloud à l'ensemble de l'organisation, y compris aux profils non techniques — un enjeu majeur dans les entreprises où la facture AWS est souvent opaque pour les décideurs métier. Le FinOps — la pratique de gouvernance financière du cloud — est devenu un domaine à part entière alors que les dépenses cloud des entreprises ont explosé ces cinq dernières années, rendant le suivi des coûts multi-comptes complexe et chronophage. Amazon Bedrock AgentCore, lancé récemment par AWS, est la réponse d'Amazon à la vague d'agents IA d'entreprise : une plateforme d'exécution managée pour déployer des agents LLM avec mémoire, outils et identité gérés nativement. Cette solution illustre parfaitement la stratégie d'AWS de transformer ses propres services (Cost Explorer, Compute Optimizer) en sources de données accessibles via des agents IA, réduisant la friction d'adoption. La concurrence s'intensifie sur ce segment : Microsoft Copilot pour Azure Cost Management et Google Cloud Carbon Footprint poursuivent des ambitions similaires. La prochaine étape logique sera l'automatisation des recommandations d'optimisation, passant d'un agent qui répond à des questions à un agent qui agit directement sur l'infrastructure pour réduire les coûts.

UELes entreprises françaises et européennes utilisant AWS peuvent simplifier leur gestion de coûts cloud multi-comptes via cet agent, sans impact réglementaire ou institutionnel spécifique.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour