OutilsAWS ML Blog · 15 juin 2026, 21:07· 2 min de lecture

Détection des pannes et analyse des causes racines des agents IA avec Strands Evals

Amazon a publié Strands Evals, un kit de développement Python conçu pour automatiser le diagnostic des pannes dans les agents IA en production. Disponible via pip install strands-agents-evals et compatible avec Amazon Bedrock, l'outil introduit un système de "détecteurs" capables d'analyser automatiquement les traces d'exécution d'un agent et d'identifier les causes racines des défaillances. Là où les évaluations classiques se contentent d'un score global, "l'agent a réussi 60 % de ses objectifs", Strands Evals descend au niveau de chaque étape individuelle (chaque "span") pour catégoriser les erreurs, mesurer leur gravité par un score de confiance, et retracer la chaîne causale qui a conduit à l'échec. Le pipeline fonctionne en deux phases pilotées par un LLM : une première phase de détection qui passe en revue neuf catégories de pannes (hallucination, mauvaise sélection d'outil, erreurs d'orchestration, non-conformité aux instructions, erreurs d'exécution, problèmes de gestion du contexte, comportements répétitifs, sorties LLM mal formées, et incompatibilités de configuration), puis une seconde phase d'analyse des causes racines qui classe chaque défaillance en primaire, secondaire ou tertiaire et génère des recommandations de correction ciblées.

L'enjeu est directement opérationnel : lorsqu'un taux de succès chute de 85 % à 70 % après un déploiement, les ingénieurs passaient jusqu'ici des heures à inspecter manuellement des centaines de traces pour comprendre ce qui avait changé. Strands Evals promet de ramener ce diagnostic de plusieurs heures à quelques minutes. L'outil indique non seulement quelle étape a échoué, mais aussi si la correction doit porter sur le prompt système ou sur la définition des outils, une distinction qui évite des cycles d'itération coûteux. Pour les équipes qui opèrent des agents à grande échelle, intégrer ces détecteurs dans le pipeline d'évaluation automatisé signifie que chaque run de test produit désormais un diagnostic structuré, pas seulement un score.

Ce lancement s'inscrit dans la montée en maturité de l'écosystème des agents IA autonomes, où l'observabilité devient aussi critique qu'elle l'est depuis longtemps dans le développement logiciel classique. Amazon Bedrock AgentCore fournit déjà des primitives de sessions, traces et spans ; Strands Evals se positionne comme la couche d'analyse au-dessus. La dépendance à Amazon Bedrock pour faire tourner les LLM d'analyse est une contrainte notable, les équipes utilisant d'autres fournisseurs devront adapter leur infrastructure. La prochaine étape logique pour l'écosystème sera d'étendre ces capacités de diagnostic à des frameworks d'agents tiers, alors que des acteurs comme LangChain, AutoGen ou CrewAI construisent leurs propres couches d'observabilité en parallèle.

Dans nos dossiers

AWS Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

« Évaluer les agents IA : un modèle de production avec Strands et AgentCore »

Motorway, une place de marché britannique de voitures d'occasion en ligne, organise chaque jour une enchère où jusqu'à 8 000 concessionnaires se disputent jusqu'à 2 500 véhicules. L'entreprise a collaboré avec l'équipe AWS Prototyping and AI Customer Engineering (PACE) pour développer un agent IA de recherche de stock destiné à ses concessionnaires, capable de remplacer des heures de filtrage manuel par de simples requêtes en langage naturel. Ensemble, elles ont construit un pipeline d'évaluation de bout en bout qui a fait chuter le taux de résultats erronés d'une requête sur huit à une sur cinquante, tout en réduisant le temps de détection des problèmes de plusieurs heures à quelques minutes seulement. L'agent repose sur le SDK Strands Agents combiné à Amazon Bedrock AgentCore, le service entièrement géré d'AWS pour déployer et exploiter des agents IA à grande échelle. Il expose huit outils associant un filtrage structuré sur plus de 89 attributs de véhicules à une recherche par similarité vectorielle, propulsée par la base LanceDB et les embeddings Amazon Titan Text Embeddings V2. Un concessionnaire peut désormais demander « des SUV diesel à moins de 25 000 livres près de mon site » ou « quelque chose de sportif et automatique pour une famille », plutôt que de parcourir des fichiers CSV et des filtres rigides pendant des heures. Le système absorbe environ 1 500 utilisateurs simultanés aux heures de pointe. Cette fiabilité n'est pas un détail cosmétique : de l'argent réel est en jeu à chaque enchère. Une erreur de sélection d'outil par l'agent renvoie de mauvais résultats et érode la confiance des concessionnaires ; une mauvaise interprétation sémantique fait remonter des annonces hors sujet ; une dérive du contexte au fil d'une conversation à plusieurs tours fait perdre les critères affinés par l'utilisateur ; et la nature non déterministe des réponses rend les tests à essai unique peu fiables. Une requête aussi banale que « voitures essence, hybrides et électriques de moins de cinq ans » exige déjà que l'agent interprète correctement plusieurs contraintes combinées. Sans méthode d'évaluation rigoureuse, ces failles restent invisibles jusqu'à ce qu'un concessionnaire tombe sur un résultat absurde, avec un impact direct sur la confiance et, potentiellement, sur les transactions. AWS a publié un dépôt compagnon documentant une méthodologie transposable à d'autres agents, au-delà de son propre écosystème. Elle repose sur une évaluation en deux temps : des tests réalisés en amont du déploiement avec la bibliothèque open source strands-agents-evals, puis une surveillance en production via Amazon Bedrock AgentCore Evaluations. S'y ajoute un cadre à trois niveaux, évaluant l'usage des outils, le raisonnement et la qualité des réponses, ainsi qu'un pipeline de déploiement en cinq étapes doté de portes de qualité qui bloquent une mise en production si les métriques passent sous un seuil défini, notamment via l'indicateur pass^k mesurant la constance des réponses. Le déploiement initial prend de 30 à 45 minutes, son adaptation à un autre domaine deux à trois heures, pour un coût d'environ 5 à 10 dollars de calcul via Bedrock. Le dépôt applique par ailleurs des rôles IAM à privilèges minimaux et stocke les clés API dans AWS Systems Manager Parameter Store plutôt que dans des variables d'environnement.

OutilsActu

1 source

2AWS ML Blog

Évaluer les agents IA pour la production : un guide pratique de Strands Evals

Le passage des agents IA du prototype à la production soulève un défi fondamental : comment évaluer de manière systématique des systèmes qui, par nature, ne produisent pas de résultats déterministes ? Strands Evals, un framework d'évaluation développé pour le Strands Agents SDK, apporte une réponse structurée à cette question en combinant évaluateurs automatisés, simulation de conversations multi-tours et outils de reporting. L'enjeu est de taille pour le secteur. Les tests logiciels traditionnels reposent sur un principe simple : même entrée, même sortie attendue. Les agents IA brisent cette règle fondamentale. Un agent peut répondre à la question "Quel temps fait-il à Tokyo ?" de dizaines de façons différentes, en Celsius ou en Fahrenheit, avec ou sans humidité, et toutes peuvent être correctes. S'y ajoutent les interactions multi-tours où le contexte s'accumule au fil de la conversation, et les appels d'outils dont la pertinence doit elle aussi être évaluée, indépendamment de la réponse finale. Strands Evals structure cette évaluation autour de trois concepts centraux : les Cases (scénarios de test unitaires, contenant l'entrée, la sortie attendue et la séquence d'outils prévue appelée trajectory), les Experiments (regroupements de cases avec leurs évaluateurs associés, analogues aux suites de tests), et les Evaluators eux-mêmes. Pour dépasser les limites de la comparaison mécanique de mots-clés, le framework s'appuie sur des modèles de langage (LLM) comme évaluateurs, capables de juger des dimensions qualitatives comme l'utilité, la cohérence ou la fidélité aux sources. Cette approche marque une évolution significative dans la manière dont les équipes d'ingénierie peuvent industrialiser le déploiement d'agents IA. En fournissant une infrastructure de mesure répétable et traçable, Strands Evals ouvre la voie à des pipelines d'intégration continue adaptés aux systèmes non déterministes, un prérequis pour tout passage à l'échelle en production.

OutilsOutil

1 source

3AWS ML Blog

Évaluation systématique des agents IA avec Agent-EvalKit

Agent-EvalKit est une boîte à outils open source (licence Apache 2.0) conçue pour évaluer les agents IA de manière systématique, en s'intégrant directement dans les assistants de codage comme Claude Code, Kiro CLI ou Kilo Code. Plutôt que de fonctionner comme une plateforme externe, l'outil s'insère dans l'environnement de développement existant et pilote l'évaluation via des commandes slash telles que /evalkit.plan et /evalkit.data, accompagnées d'instructions en langage naturel. Le toolkit couvre six phases d'évaluation : lecture du code source de l'agent, génération de cas de test ciblés, exécution des évaluations, puis production d'un rapport avec des recommandations d'amélioration pointant vers des emplacements précis dans le code. Il a été conçu et démontré sur un agent de recherche de voyages construit avec le SDK Strands Agents et Amazon Bedrock. Ce type d'outil répond à un angle mort majeur dans le développement d'agents IA : les tests classiques basés sur la vérification des sorties ne suffisent pas. Un agent peut formuler une réponse bien structurée tout en halluciant des faits, parce que ses outils ont renvoyé des résultats vides. Il peut aussi atteindre la bonne conclusion en court-circuitant les étapes de vérification qui garantissent un processus fiable. Ces défaillances, invisibles dans la réponse finale, n'apparaissent qu'en traçant le chemin d'exécution complet : quels outils ont été appelés, quelles données ont été retournées, et si la réponse reflète fidèlement ces données. Agent-EvalKit combine des évaluateurs basés sur du code, rapides et reproductibles, avec des évaluateurs de type "LLM as judge", plus nuancés mais plus coûteux en inférence, pour couvrir trois dimensions distinctes : l'ancrage factuel dans les résultats des outils, la pertinence des appels d'outils, et la cohérence globale de la réponse. La difficulté d'évaluer les agents IA n'est pas nouvelle, mais elle s'est intensifiée à mesure que ces systèmes autonomes s'imposent dans des workflows professionnels critiques. La plupart des équipes ne disposent pas des ressources pour construire from scratch l'infrastructure nécessaire : cas de test avec vérité terrain, instrumentation d'observabilité pour capturer les appels intermédiaires, et métriques adaptées. Agent-EvalKit tente de démocratiser cet accès en faisant de l'assistant de codage l'interface centrale de l'évaluation, évitant ainsi la fragmentation entre outils de développement et outils de test post-déploiement. La vraie valeur revendiquée par le projet est de transformer des scores d'évaluation en recommandations concrètes au niveau du code, là où beaucoup d'efforts d'évaluation s'arrêtent à un tableau de bord de métriques sans suite actionnable.

OutilsOutil

1 source

4AWS ML Blog

Des agents avec recherche web grâce à Strands et Exa

AWS a publié une intégration native entre son SDK open source Strands Agents et le moteur de recherche Exa, permettant aux agents IA d'accéder au web en temps réel sans couche de post-traitement. Cette combinaison expose deux outils principaux : exasearch, qui effectue des recherches sémantiques avec prise en charge de catégories comme les articles d'actualité, les publications de recherche ou les dépôts de code, et exaget_contents, qui récupère le contenu complet de pages web ciblées. Le SDK Strands Agents, distribué en open source par AWS, repose sur une architecture pilotée par le modèle : plutôt que de définir des workflows figés, le développeur fournit un modèle de langage, un prompt système et une liste d'outils, puis c'est le modèle lui-même qui décide quels outils appeler, dans quel ordre, et quand la tâche est accomplie. Le SDK embarque déjà plus de 40 outils préconstruits couvrant la gestion de fichiers, l'exécution de code, les API AWS, la mémoire et la recherche web. Pour les développeurs qui construisent des agents dédiés à la veille, à la vérification des faits ou à l'intelligence concurrentielle, cette intégration élimine un obstacle persistant : la plupart des API de recherche généralistes renvoient des pages HTML chargées de balisage et des snippets courts optimisés pour la navigation humaine, ce qui oblige à construire des couches supplémentaires de parsing, de nettoyage et de reclassement avant de pouvoir injecter ces données dans une fenêtre de contexte LLM. Exa résout ce problème à la source en fournissant un contenu propre, structuré et directement exploitable. Concrètement, un agent peut enchaîner plusieurs appels de recherche, accumuler les résultats dans son historique de conversation et raisonner sur l'ensemble pour produire une réponse finale, sans que le développeur n'ait à orchestrer chaque étape manuellement. Exa se distingue des moteurs traditionnels par son approche sémantique : une requête comme "startups développant des solutions climatiques" retourne effectivement des entreprises du secteur, même si leurs pages ne contiennent pas cette formulation exacte, car le moteur travaille sur la similarité de sens plutôt que sur la correspondance de mots-clés. Le SDK supporte également le Model Context Protocol (MCP), ce qui facilite l'ajout de tout nouveau serveur d'outils sans travail d'intégration supplémentaire. L'intégration Exa est disponible via le package strands-agents-tools et s'ajoute à la liste d'outils en une ligne de code. Dans un contexte où les agents IA peinent encore à accéder à des informations récentes et fiables, cette combinaison d'un framework agentique piloté par le modèle et d'un moteur de recherche conçu pour les LLM ouvre des perspectives concrètes pour des cas d'usage comme l'analyse de marché, la recherche documentaire automatisée ou le suivi de l'actualité technologique en temps réel.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic