OutilsAWS ML Blog6sem

Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables

Résumé IASource uniqueImpact UE

Amazon a lancé AgentCore Evaluations, un service entièrement géré intégré à Amazon Bedrock, conçu pour mesurer la performance des agents d'IA tout au long de leur cycle de développement. Le problème que ce service cherche à résoudre est bien documenté dans l'industrie : un agent fonctionne parfaitement en démo, convainc les parties prenantes lors des tests, puis échoue en production face à de vrais utilisateurs. Les symptômes sont prévisibles — mauvais appels d'outils, réponses incohérentes, comportements imprévus — mais leur détection systématique exige une infrastructure que la plupart des équipes n'ont pas. AgentCore Evaluations propose un cycle continu : construction de cas de tests, exécution sur l'agent, notation automatisée, analyse des échecs et amélioration itérative. Chaque échec devient automatiquement un nouveau cas de test, ce qui permet de fermer progressivement l'écart entre le comportement attendu et le comportement réel.

L'enjeu est structurel : les grands modèles de langage sont non-déterministes. Une même requête peut produire des sélections d'outils différentes, des raisonnements distincts et des réponses variées d'un run à l'autre. Un seul passage de test ne dit pas ce qui se passe habituellement — il dit seulement ce qui peut arriver. Pour obtenir une image fiable du comportement d'un agent, il faut répéter chaque scénario plusieurs fois et agréger les résultats. Sans cela, chaque modification de prompt devient un pari : les équipes ignorent si leurs changements améliorent ou dégradent les performances, et brûlent des crédits API sans visibilité réelle. AgentCore Evaluations adresse précisément cette incertitude en fournissant des métriques de qualité sur plusieurs dimensions — exactitude des sélections d'outils, validité des paramètres, précision des réponses finales — pour le développement comme pour la production.

Ce lancement s'inscrit dans une tendance plus large : la maturité des agents d'IA dépasse désormais la phase d'expérimentation et entre dans celle de l'ingénierie de fiabilité. Construire l'infrastructure d'évaluation en interne — curation de datasets, hébergement de modèles de scoring, gestion des limites de débit, pipelines de transformation des traces, tableaux de bord — représente un coût fixe considérable que les équipes multiplient pour chaque agent déployé. Amazon positionne AgentCore Evaluations comme la réponse cloud à ce problème, en absorbant cette complexité dans un service managé. La concurrence est vive : des outils comme LangSmith, Braintrust ou PromptFoo couvrent des besoins similaires, mais l'intégration native dans l'écosystème Bedrock donne à AWS un avantage naturel pour les entreprises déjà engagées sur sa plateforme. La prochaine étape logique sera de voir si le service s'étend aux agents multi-modaux et aux architectures multi-agents, deux domaines où l'évaluation reste un problème ouvert.

Impact France/UE

Les équipes européennes développant des agents IA sur Amazon Bedrock peuvent adopter ce service managé pour remplacer une infrastructure d'évaluation coûteuse à construire en interne.

Dans nos dossiers

Agents IA

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Contrôlez la navigation de vos agents IA avec les politiques Chrome Enterprise sur Amazon Bedrock AgentCore

Amazon a annoncé le support des politiques d'entreprise Chrome et des certificats CA racine personnalisés dans Amazon Bedrock AgentCore Browser. Cette mise à jour permet aux organisations de configurer plus de 450 paramètres de navigateur via des fichiers JSON conformes au standard Chrome Enterprise, stockés dans Amazon S3 et appliqués à chaque session d'agent. Concrètement, les équipes peuvent désormais définir des listes blanches et noires d'URL, bloquer les téléchargements de fichiers, désactiver le gestionnaire de mots de passe ou contrôler le remplissage automatique de formulaires, le tout appliqué au niveau du navigateur, indépendamment de la logique ou des instructions de l'agent. Le support des certificats CA racine, stockés dans AWS Secrets Manager, permet en outre aux agents de se connecter aux services internes qui utilisent une autorité de certification privée, résolvant ainsi les erreurs de validation HTTPS qui bloquaient jusqu'ici l'accès aux infrastructures d'entreprise. L'enjeu est significatif pour les organisations qui déploient des agents IA autonomes sur le web. Un agent sans restriction de navigation peut accéder à des domaines non autorisés, stocker des identifiants dans le navigateur, télécharger des fichiers hors des flux de travail approuvés, voire exfiltrer des données sensibles. Le nouveau système introduit une séparation claire des responsabilités : les équipes de sécurité configurent les politiques au niveau du navigateur via l'API de plan de contrôle, tandis que les développeurs se concentrent sur la logique métier de l'agent, sans avoir à intégrer des décisions de conformité dans le code applicatif. Les politiques dites "managed", stockées côté service et non surchargeables, s'appliquent à toutes les sessions créées à partir d'un navigateur donné, alors que les politiques "recommended", définies au démarrage de session, jouent le rôle de préférences utilisateur et sont écrasées en cas de conflit. Cette évolution s'inscrit dans une tendance plus large : les agents IA accèdent de plus en plus à des interfaces web réelles pour exécuter des tâches, de la saisie de données à la recherche documentaire en passant par la gestion de portails métier. Cette capacité, aussi puissante soit-elle, ouvre des vecteurs d'attaque inédits, manipulation via des pages web malveillantes (prompt injection), exfiltration involontaire, navigation hors périmètre. En s'appuyant sur l'écosystème Chrome Enterprise, déjà utilisé par des millions d'entreprises pour gérer les navigateurs humains, Amazon évite de réinventer une couche de politique maison et offre aux DSI un cadre familier. L'intégration native avec S3 et Secrets Manager renforce l'alignement avec les architectures AWS existantes, ce qui devrait faciliter l'adoption dans les environnements régulés, finance, santé, administration, où le contrôle granulaire de l'accès aux données est non négociable.

UELes entreprises européennes opérant sur AWS dans des secteurs régulés (finance, santé, administration publique) peuvent désormais imposer des politiques de navigation granulaires à leurs agents IA, facilitant la conformité avec le RGPD et les exigences sectorielles de contrôle des accès aux données.

OutilsOpinion

1 source

2AWS ML Blog

Amazon Bedrock AgentCore Payments : les agents IA peuvent désormais effectuer des transactions, avec Coinbase et Stripe

Amazon a annoncé le 7 mai 2026 le lancement en préversion d'Amazon Bedrock AgentCore Payments, une nouvelle couche de fonctionnalités permettant aux agents d'intelligence artificielle d'accéder à des ressources payantes et de régler des transactions de manière autonome, en temps réel. Développée en partenariat avec Coinbase et Stripe, qui fournissent respectivement l'infrastructure de portefeuilles numériques et les rails de paiement, cette solution s'intègre nativement à la plateforme AgentCore d'AWS. Des entreprises comme Cox Automotive, Thomson Reuters et le PGA TOUR utilisent déjà AgentCore pour orchestrer des agents capables de raisonner et d'agir sur des flux de travail complexes. Avec cette annonce, ces mêmes agents peuvent désormais payer des flux de données en temps réel, des publications sous paywall, des serveurs MCP privés ou d'autres agents spécialisés, le tout au sein d'une seule boucle d'exécution. Les limites de dépenses sont configurées par session, et AgentCore gère l'authentification des identifiants, le cycle de vie des tokens et la négociation de protocoles de paiement comme x402, ACP ou MPP. Ce lancement représente un tournant concret pour les développeurs d'agents autonomes. Jusqu'ici, brancher un agent à des services payants exigeait de négocier des relations de facturation distinctes avec chaque fournisseur, de sécuriser les identifiants, de gérer la conformité réglementaire et d'écrire une logique d'orchestration sur mesure, soit plusieurs mois d'ingénierie avec des enjeux financiers réels à la clé. AgentCore Payments supprime cette friction : un agent de recherche financière peut payer à la volée un article de presse spécialisé ou un flux de données boursières, un agent de développement peut appeler un registre de packages privé ou un environnement d'exécution isolé sans que le développeur ait à câbler chaque relation commerciale manuellement. La gouvernance des dépenses et l'observabilité restent centralisées dans la même infrastructure que les autres actions de l'agent, ce qui réduit la surface d'erreur sur des flux qui, contrairement à une mauvaise réponse, déplacent de l'argent réel. Ce mouvement s'inscrit dans une tendance de fond : le déploiement à grande échelle d'agents capables non seulement de chercher et raisonner, mais aussi de consommer des services et d'effectuer des achats au nom des utilisateurs. Les premiers protocoles de paiement pour agents, notamment x402 d'Ethereum et d'autres standards émergents, restaient jusqu'ici expérimentaux et fragmentés. Amazon, en s'associant à Coinbase pour la couche crypto et à Stripe pour les paiements traditionnels, positionne AWS comme l'infrastructure centrale d'une économie agentique encore naissante. L'étape suivante annoncée est la capacité pour les agents de réserver des billets d'avion, des hôtels et d'effectuer des achats auprès de plateformes marchandes, ouvrant la voie à des agents commerciaux pleinement autonomes.

UELes développeurs européens devront composer avec les contraintes réglementaires (PSD2, RGPD) pour déployer des agents à capacité de paiement autonome, ce qui pourrait ralentir significativement l'adoption en Europe par rapport aux États-Unis.

💬 Brancher un paiement dans une boucle d'agent, jusqu'ici c'était plusieurs mois d'ingénierie rien que pour les credentials et la conformité. AWS compresse tout ça en une ligne de config, avec Stripe pour le classique et Coinbase pour la couche crypto, et c'est là que ça devient vraiment pratique pour qui orchestre des flux complexes. Reste que quand un agent se plante sur une réponse ça coûte rien, sur une transaction c'est une autre histoire.

OutilsOpinion

1 source

3AWS ML Blog

Créer un agent FinOps avec Amazon Bedrock AgentCore

Amazon a dévoilé une solution clé en main pour construire un agent FinOps basé sur Amazon Bedrock AgentCore, permettant aux équipes financières de gérer les coûts AWS à travers plusieurs comptes via une interface conversationnelle unique. L'architecture repose sur Claude Sonnet 4.5 d'Anthropic, le Strands Agent SDK et le protocole MCP (Model Context Protocol), déployée via AWS CDK. L'agent consolide les données de trois services AWS — Cost Explorer, Budgets et Compute Optimizer — et propose plus de 20 outils spécialisés couvrant l'intégralité du spectre de la gestion des coûts cloud. La mémoire conversationnelle conserve jusqu'à 30 jours de contexte, permettant des questions de suivi sans répéter les informations préalables. Concrètement, cette solution élimine la nécessité pour les équipes finance et DevOps de naviguer manuellement entre plusieurs consoles AWS pour obtenir une vue consolidée des dépenses. Un responsable peut simplement demander "Quels sont mes principaux postes de dépenses ce mois-ci ?" et obtenir une réponse immédiate, sans requêtes SQL ni exports manuels. L'authentification repose sur Amazon Cognito (gestion des utilisateurs et flux OAuth 2.0 machine-à-machine), tandis qu'AWS Amplify héberge l'interface web. L'accès en langage naturel démocratise la visibilité sur les coûts cloud à l'ensemble de l'organisation, y compris aux profils non techniques — un enjeu majeur dans les entreprises où la facture AWS est souvent opaque pour les décideurs métier. Le FinOps — la pratique de gouvernance financière du cloud — est devenu un domaine à part entière alors que les dépenses cloud des entreprises ont explosé ces cinq dernières années, rendant le suivi des coûts multi-comptes complexe et chronophage. Amazon Bedrock AgentCore, lancé récemment par AWS, est la réponse d'Amazon à la vague d'agents IA d'entreprise : une plateforme d'exécution managée pour déployer des agents LLM avec mémoire, outils et identité gérés nativement. Cette solution illustre parfaitement la stratégie d'AWS de transformer ses propres services (Cost Explorer, Compute Optimizer) en sources de données accessibles via des agents IA, réduisant la friction d'adoption. La concurrence s'intensifie sur ce segment : Microsoft Copilot pour Azure Cost Management et Google Cloud Carbon Footprint poursuivent des ambitions similaires. La prochaine étape logique sera l'automatisation des recommandations d'optimisation, passant d'un agent qui répond à des questions à un agent qui agit directement sur l'infrastructure pour réduire les coûts.

UELes entreprises françaises et européennes utilisant AWS peuvent simplifier leur gestion de coûts cloud multi-comptes via cet agent, sans impact réglementaire ou institutionnel spécifique.

OutilsOutil

1 source

4AWS ML Blog

Rede Mater Dei de Saúde surveille ses agents IA dans le circuit de facturation avec Amazon Bedrock AgentCore

Le réseau hospitalier brésilien Rede Mater Dei de Saúde déploie actuellement une suite de douze agents d'intelligence artificielle pour automatiser l'ensemble de son cycle de facturation médicale, en s'appuyant sur Amazon Bedrock AgentCore, le service d'infrastructure d'agents d'AWS. Cette initiative, développée en partenariat avec le cabinet de données A3Data et le AWS Generative AI Innovation Center, vise à réduire drastiquement le taux de refus de remboursement des assureurs, qui a bondi en 2024 de 11,89 % à 15,89 % dans le secteur hospitalier privé brésilien, selon l'association nationale Anahp, représentant jusqu'à 10 milliards de reais de revenus non perçus pour le secteur. Parmi les premiers agents déployés figurent un agent Contrats, qui centralise les règles contractuelles dispersées dans des documents hétérogènes, un agent Paramétrage, qui traduit automatiquement ces règles dans le système ERP de l'hôpital, et un agent Autorisation, qui automatise les échanges avec les compagnies d'assurance santé. L'enjeu est directement financier et opérationnel. Rede Mater Dei, qui gère des établissements à Belo Horizonte, Salvador, Goiânia, Uberlândia et plusieurs autres villes brésiliennes, faisait face à des centaines d'employés affectés à des tâches manuelles répétitives, à des données fragmentées et à un fort turnover sur ces postes. Chaque erreur dans le cycle de facturation, de l'accréditation des prestataires jusqu'à la facturation finale, se traduisait par des refus de remboursement coûteux et des corrections chronophages. Les agents IA fonctionnent désormais de manière orchestrée et continue, structurés en trois couches : une couche de données (DEL), une couche d'exécution des agents (AEL) et une couche de gouvernance et conformité (TCL), garantissant traçabilité et auditabilité de chaque décision automatisée. Ce projet s'inscrit dans un contexte de pression croissante sur la rentabilité des hôpitaux privés en Amérique latine, où les processus administratifs restent largement manuels et les systèmes d'information souvent morcelés. Rede Mater Dei, fort de 45 ans d'histoire, fait figure de pionnier continental en testant AgentCore Evaluation dans un environnement de production réel à haute criticité. Amazon Bedrock AgentCore, lancé comme service d'exécution serverless pour agents IA, offre nativement la gestion de la mémoire, l'intégration d'outils et l'observabilité en production, des capacités indispensables lorsque des agents autonomes prennent des décisions impactant directement les flux de trésorerie d'un réseau hospitalier. La suite complète de douze agents, une fois déployée intégralement, ambitionne de constituer une véritable "force de travail numérique" capable de percevoir, décider et agir sans intervention humaine sur l'ensemble du cycle de revenus.

OutilsActu

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour