OutilsAWS ML Blog · 11 juin 2026, 18:49· 2 min de lecture

Évaluation systématique des agents IA avec Agent-EvalKit

Agent-EvalKit est une boîte à outils open source (licence Apache 2.0) conçue pour évaluer les agents IA de manière systématique, en s'intégrant directement dans les assistants de codage comme Claude Code, Kiro CLI ou Kilo Code. Plutôt que de fonctionner comme une plateforme externe, l'outil s'insère dans l'environnement de développement existant et pilote l'évaluation via des commandes slash telles que /evalkit.plan et /evalkit.data, accompagnées d'instructions en langage naturel. Le toolkit couvre six phases d'évaluation : lecture du code source de l'agent, génération de cas de test ciblés, exécution des évaluations, puis production d'un rapport avec des recommandations d'amélioration pointant vers des emplacements précis dans le code. Il a été conçu et démontré sur un agent de recherche de voyages construit avec le SDK Strands Agents et Amazon Bedrock.

Ce type d'outil répond à un angle mort majeur dans le développement d'agents IA : les tests classiques basés sur la vérification des sorties ne suffisent pas. Un agent peut formuler une réponse bien structurée tout en halluciant des faits, parce que ses outils ont renvoyé des résultats vides. Il peut aussi atteindre la bonne conclusion en court-circuitant les étapes de vérification qui garantissent un processus fiable. Ces défaillances, invisibles dans la réponse finale, n'apparaissent qu'en traçant le chemin d'exécution complet : quels outils ont été appelés, quelles données ont été retournées, et si la réponse reflète fidèlement ces données. Agent-EvalKit combine des évaluateurs basés sur du code, rapides et reproductibles, avec des évaluateurs de type "LLM as judge", plus nuancés mais plus coûteux en inférence, pour couvrir trois dimensions distinctes : l'ancrage factuel dans les résultats des outils, la pertinence des appels d'outils, et la cohérence globale de la réponse.

La difficulté d'évaluer les agents IA n'est pas nouvelle, mais elle s'est intensifiée à mesure que ces systèmes autonomes s'imposent dans des workflows professionnels critiques. La plupart des équipes ne disposent pas des ressources pour construire from scratch l'infrastructure nécessaire : cas de test avec vérité terrain, instrumentation d'observabilité pour capturer les appels intermédiaires, et métriques adaptées. Agent-EvalKit tente de démocratiser cet accès en faisant de l'assistant de codage l'interface centrale de l'évaluation, évitant ainsi la fragmentation entre outils de développement et outils de test post-déploiement. La vraie valeur revendiquée par le projet est de transformer des scores d'évaluation en recommandations concrètes au niveau du code, là où beaucoup d'efforts d'évaluation s'arrêtent à un tableau de bord de métriques sans suite actionnable.

Dans nos dossiers

Agents IA AWS Claude Code Open weight & Open source

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables

Amazon a lancé AgentCore Evaluations, un service entièrement géré intégré à Amazon Bedrock, conçu pour mesurer la performance des agents d'IA tout au long de leur cycle de développement. Le problème que ce service cherche à résoudre est bien documenté dans l'industrie : un agent fonctionne parfaitement en démo, convainc les parties prenantes lors des tests, puis échoue en production face à de vrais utilisateurs. Les symptômes sont prévisibles — mauvais appels d'outils, réponses incohérentes, comportements imprévus — mais leur détection systématique exige une infrastructure que la plupart des équipes n'ont pas. AgentCore Evaluations propose un cycle continu : construction de cas de tests, exécution sur l'agent, notation automatisée, analyse des échecs et amélioration itérative. Chaque échec devient automatiquement un nouveau cas de test, ce qui permet de fermer progressivement l'écart entre le comportement attendu et le comportement réel. L'enjeu est structurel : les grands modèles de langage sont non-déterministes. Une même requête peut produire des sélections d'outils différentes, des raisonnements distincts et des réponses variées d'un run à l'autre. Un seul passage de test ne dit pas ce qui se passe habituellement — il dit seulement ce qui peut arriver. Pour obtenir une image fiable du comportement d'un agent, il faut répéter chaque scénario plusieurs fois et agréger les résultats. Sans cela, chaque modification de prompt devient un pari : les équipes ignorent si leurs changements améliorent ou dégradent les performances, et brûlent des crédits API sans visibilité réelle. AgentCore Evaluations adresse précisément cette incertitude en fournissant des métriques de qualité sur plusieurs dimensions — exactitude des sélections d'outils, validité des paramètres, précision des réponses finales — pour le développement comme pour la production. Ce lancement s'inscrit dans une tendance plus large : la maturité des agents d'IA dépasse désormais la phase d'expérimentation et entre dans celle de l'ingénierie de fiabilité. Construire l'infrastructure d'évaluation en interne — curation de datasets, hébergement de modèles de scoring, gestion des limites de débit, pipelines de transformation des traces, tableaux de bord — représente un coût fixe considérable que les équipes multiplient pour chaque agent déployé. Amazon positionne AgentCore Evaluations comme la réponse cloud à ce problème, en absorbant cette complexité dans un service managé. La concurrence est vive : des outils comme LangSmith, Braintrust ou PromptFoo couvrent des besoins similaires, mais l'intégration native dans l'écosystème Bedrock donne à AWS un avantage naturel pour les entreprises déjà engagées sur sa plateforme. La prochaine étape logique sera de voir si le service s'étend aux agents multi-modaux et aux architectures multi-agents, deux domaines où l'évaluation reste un problème ouvert.

UELes équipes européennes développant des agents IA sur Amazon Bedrock peuvent adopter ce service managé pour remplacer une infrastructure d'évaluation coûteuse à construire en interne.

OutilsOutil

1 source

2AWS ML Blog

« Évaluer les agents IA : un modèle de production avec Strands et AgentCore »

Motorway, une place de marché britannique de voitures d'occasion en ligne, organise chaque jour une enchère où jusqu'à 8 000 concessionnaires se disputent jusqu'à 2 500 véhicules. L'entreprise a collaboré avec l'équipe AWS Prototyping and AI Customer Engineering (PACE) pour développer un agent IA de recherche de stock destiné à ses concessionnaires, capable de remplacer des heures de filtrage manuel par de simples requêtes en langage naturel. Ensemble, elles ont construit un pipeline d'évaluation de bout en bout qui a fait chuter le taux de résultats erronés d'une requête sur huit à une sur cinquante, tout en réduisant le temps de détection des problèmes de plusieurs heures à quelques minutes seulement. L'agent repose sur le SDK Strands Agents combiné à Amazon Bedrock AgentCore, le service entièrement géré d'AWS pour déployer et exploiter des agents IA à grande échelle. Il expose huit outils associant un filtrage structuré sur plus de 89 attributs de véhicules à une recherche par similarité vectorielle, propulsée par la base LanceDB et les embeddings Amazon Titan Text Embeddings V2. Un concessionnaire peut désormais demander « des SUV diesel à moins de 25 000 livres près de mon site » ou « quelque chose de sportif et automatique pour une famille », plutôt que de parcourir des fichiers CSV et des filtres rigides pendant des heures. Le système absorbe environ 1 500 utilisateurs simultanés aux heures de pointe. Cette fiabilité n'est pas un détail cosmétique : de l'argent réel est en jeu à chaque enchère. Une erreur de sélection d'outil par l'agent renvoie de mauvais résultats et érode la confiance des concessionnaires ; une mauvaise interprétation sémantique fait remonter des annonces hors sujet ; une dérive du contexte au fil d'une conversation à plusieurs tours fait perdre les critères affinés par l'utilisateur ; et la nature non déterministe des réponses rend les tests à essai unique peu fiables. Une requête aussi banale que « voitures essence, hybrides et électriques de moins de cinq ans » exige déjà que l'agent interprète correctement plusieurs contraintes combinées. Sans méthode d'évaluation rigoureuse, ces failles restent invisibles jusqu'à ce qu'un concessionnaire tombe sur un résultat absurde, avec un impact direct sur la confiance et, potentiellement, sur les transactions. AWS a publié un dépôt compagnon documentant une méthodologie transposable à d'autres agents, au-delà de son propre écosystème. Elle repose sur une évaluation en deux temps : des tests réalisés en amont du déploiement avec la bibliothèque open source strands-agents-evals, puis une surveillance en production via Amazon Bedrock AgentCore Evaluations. S'y ajoute un cadre à trois niveaux, évaluant l'usage des outils, le raisonnement et la qualité des réponses, ainsi qu'un pipeline de déploiement en cinq étapes doté de portes de qualité qui bloquent une mise en production si les métriques passent sous un seuil défini, notamment via l'indicateur pass^k mesurant la constance des réponses. Le déploiement initial prend de 30 à 45 minutes, son adaptation à un autre domaine deux à trois heures, pour un coût d'environ 5 à 10 dollars de calcul via Bedrock. Le dépôt applique par ailleurs des rôles IAM à privilèges minimaux et stocke les clés API dans AWS Systems Manager Parameter Store plutôt que dans des variables d'environnement.

OutilsActu

1 source

3AWS ML Blog

Détection des pannes et analyse des causes racines des agents IA avec Strands Evals

Amazon a publié Strands Evals, un kit de développement Python conçu pour automatiser le diagnostic des pannes dans les agents IA en production. Disponible via pip install strands-agents-evals et compatible avec Amazon Bedrock, l'outil introduit un système de "détecteurs" capables d'analyser automatiquement les traces d'exécution d'un agent et d'identifier les causes racines des défaillances. Là où les évaluations classiques se contentent d'un score global, "l'agent a réussi 60 % de ses objectifs", Strands Evals descend au niveau de chaque étape individuelle (chaque "span") pour catégoriser les erreurs, mesurer leur gravité par un score de confiance, et retracer la chaîne causale qui a conduit à l'échec. Le pipeline fonctionne en deux phases pilotées par un LLM : une première phase de détection qui passe en revue neuf catégories de pannes (hallucination, mauvaise sélection d'outil, erreurs d'orchestration, non-conformité aux instructions, erreurs d'exécution, problèmes de gestion du contexte, comportements répétitifs, sorties LLM mal formées, et incompatibilités de configuration), puis une seconde phase d'analyse des causes racines qui classe chaque défaillance en primaire, secondaire ou tertiaire et génère des recommandations de correction ciblées. L'enjeu est directement opérationnel : lorsqu'un taux de succès chute de 85 % à 70 % après un déploiement, les ingénieurs passaient jusqu'ici des heures à inspecter manuellement des centaines de traces pour comprendre ce qui avait changé. Strands Evals promet de ramener ce diagnostic de plusieurs heures à quelques minutes. L'outil indique non seulement quelle étape a échoué, mais aussi si la correction doit porter sur le prompt système ou sur la définition des outils, une distinction qui évite des cycles d'itération coûteux. Pour les équipes qui opèrent des agents à grande échelle, intégrer ces détecteurs dans le pipeline d'évaluation automatisé signifie que chaque run de test produit désormais un diagnostic structuré, pas seulement un score. Ce lancement s'inscrit dans la montée en maturité de l'écosystème des agents IA autonomes, où l'observabilité devient aussi critique qu'elle l'est depuis longtemps dans le développement logiciel classique. Amazon Bedrock AgentCore fournit déjà des primitives de sessions, traces et spans ; Strands Evals se positionne comme la couche d'analyse au-dessus. La dépendance à Amazon Bedrock pour faire tourner les LLM d'analyse est une contrainte notable, les équipes utilisant d'autres fournisseurs devront adapter leur infrastructure. La prochaine étape logique pour l'écosystème sera d'étendre ces capacités de diagnostic à des frameworks d'agents tiers, alors que des acteurs comme LangChain, AutoGen ou CrewAI construisent leurs propres couches d'observabilité en parallèle.

OutilsOutil

1 source

4AWS ML Blog

Des agents d'intégration des employés par IA avec Amazon Quick

Amazon a lancé Quick, un service d'agents IA entièrement géré et sans code, conçu pour automatiser l'onboarding des nouveaux employés en entreprise. Concrètement, Quick permet aux équipes RH de créer des assistants conversationnels capables de répondre aux questions des nouvelles recrues sur les politiques internes, les avantages sociaux ou les procédures administratives, de suivre la complétion des documents de conformité, et de traiter automatiquement les tickets courants, comme une demande d'équipement IT via ServiceNow ou l'envoi d'un message de bienvenue sur Slack. Le service s'intègre aux outils existants de l'entreprise : SharePoint, OneDrive, Confluence, Amazon S3, et les outils de gestion de projet. Il repose sur trois composants clés : des bases de connaissances indexées depuis ces sources multiples, des connecteurs d'actions permettant à l'agent d'agir directement dans les systèmes tiers, et des espaces collaboratifs qui regroupent fichiers, tableaux de bord et bases de connaissances pour une équipe donnée. L'enjeu est significatif pour les grandes organisations : les entreprises perdent un temps considérable par nouvelle recrue pendant la période d'intégration, les employés n'atteignant souvent qu'une fraction de leur productivité potentielle durant le premier mois. Les équipes RH, elles, s'épuisent à répondre aux mêmes questions répétitives, à basculer entre wikis, emails, outils de ticketing et plateformes de messagerie pour coordonner chaque étape. Avec Quick, un agent unifié centralise toutes ces interactions : il présente la checklist d'onboarding à jour, répond avec un langage validé par l'entreprise, ouvre des demandes dans les outils métier, et oriente le nouvel arrivant vers l'étape suivante, le tout sans intervention manuelle d'un chargé RH. Ce lancement s'inscrit dans la stratégie plus large d'Amazon Web Services d'imposer ses services managés dans les workflows d'entreprise, face à des concurrents comme Microsoft Copilot ou ServiceNow Now Assist qui occupent déjà ce terrain. L'approche sans code de Quick vise explicitement les équipes RH non techniques, qui peuvent configurer leurs agents via une interface visuelle plutôt que du développement sur mesure. Deux modes coexistent : un assistant système généraliste disponible par défaut, et des agents personnalisés adaptés aux processus spécifiques de chaque organisation. La question qui se pose désormais est celle de l'adoption réelle dans des environnements enterprise souvent fragmentés, où les intégrations avec des dizaines d'outils legacy restent le principal frein, et où la gouvernance des données RH sensibles transitant par un service cloud tiers soulèvera inévitablement des questions de conformité.

UELes entreprises européennes devront évaluer la conformité RGPD avant de confier des données RH sensibles à ce service cloud américain.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic