Aller au contenu principal
Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours
OutilsAWS ML Blog13sem· 2 min de lecture

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours

Source originale ↗·

Amazon a publié dans son SDK Strands Evaluations une fonctionnalité appelée ActorSimulator, destinée à automatiser l'évaluation des agents IA dans des conversations multi-tours. Contrairement aux tests à tour unique — où l'on fournit une entrée, on collecte une sortie et on juge le résultat — les interactions réelles s'étendent sur plusieurs échanges : l'utilisateur pose des questions de suivi, change de direction ou exprime sa frustration face à des réponses incomplètes. Un assistant de voyage qui gère correctement "Réserve-moi un vol pour Paris" peut échouer lorsque le même utilisateur enchaîne avec "En fait, peut-on regarder les trains ?" ou "Qu'en est-il des hôtels près de la tour Eiffel ?". L'ActorSimulator permet de générer des utilisateurs simulés avec des personas structurés et des objectifs définis, puis de les laisser converser naturellement avec un agent sur plusieurs tours, à grande échelle.

L'enjeu est considérable pour les équipes qui développent des agents conversationnels en production. Conduire manuellement des centaines de conversations multi-tours à chaque modification d'un agent est insoutenable, et les jeux de données statiques d'entrées/sorties ne capturent pas la dynamique réelle : la "bonne" prochaine question de l'utilisateur dépend entièrement de ce que l'agent vient de répondre. Les approches artisanales consistant à demander à un LLM de "jouer l'utilisateur" sans définition structurée du persona produisent des résultats incohérents d'une exécution à l'autre, rendant impossible la détection fiable de régressions. L'ActorSimulator répond à ce problème en combinant le réalisme d'une conversation humaine avec la reproductibilité et l'échelle des tests automatisés.

Ce développement s'inscrit dans une tendance plus large de l'industrie à professionnaliser l'évaluation des agents IA, à mesure que ceux-ci quittent les démos pour entrer dans des usages critiques. AWS positionne Strands Evaluations comme une infrastructure d'évaluation systématique, comparable aux simulateurs de vol ou aux moteurs de jeu qui testent des millions de comportements avant déploiement. La difficulté fondamentale réside dans la croissance combinatoire des chemins de conversation : plus les capacités d'un agent s'étoffent, plus le nombre de scénarios possibles explose au-delà de ce que des équipes humaines peuvent explorer. En permettant la simulation structurée de personas avec des objectifs explicites et un suivi de progression, Strands Evals vise à offrir aux équipes d'évaluation un outil comparable à ce que les testeurs de logiciels ont dans d'autres disciplines d'ingénierie, avec des résultats comparables dans le temps.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog 

Évaluer les agents IA pour la production : un guide pratique de Strands Evals

Évaluer des agents IA en production est fondamentalement différent des tests logiciels classiques : les agents produisent des sorties non déterministes, prennent des décisions contextuelles et opèrent sur plusieurs tours de conversation. Strands Evals est un framework structuré conçu pour l'Agents SDK de Strands, qui utilise des LLMs comme évaluateurs pour mesurer des critères qualitatifs comme la pertinence, la cohérence et la fidélité aux sources. Il propose des évaluateurs intégrés, des outils de simulation multi-tours et des capacités de reporting pour suivre la qualité des agents de façon rigoureuse et reproductible.

OutilsOutil
1 source
2AWS ML Blog 

Simulateur d'outils : tests à grande échelle pour agents IA

Amazon Web Services a lancé ToolSimulator, un framework de simulation d'outils propulsé par des LLM, intégré au SDK Strands Evals. Disponible dès maintenant, cet outil permet aux développeurs de tester en profondeur les agents IA qui dépendent d'API externes, de bases de données ou de services MCP, sans jamais déclencher d'appels réels. Concrètement, un développeur qui teste un agent de réservation de vols peut simuler des recherches, des confirmations et des annulations avec des données réalistes et cohérentes, sans envoyer de vraie requête à une compagnie aérienne. L'installation se résume à une commande pip install strands-evals, et aucun compte AWS n'est requis pour exécuter les simulations localement. L'enjeu est considérable pour les équipes qui industrialisent des agents IA. Tester contre des API en production expose des données personnelles, risque de déclencher des actions irréversibles comme l'envoi d'e-mails ou la modification de bases de données, et se heurte aux limites de débit qui rendent impraticable le passage à l'échelle sur des centaines de scénarios de test. Les mocks statiques, l'alternative habituelle, s'avèrent insuffisants dès qu'un agent enchaîne plusieurs appels dont le deuxième dépend de l'état laissé par le premier. ToolSimulator résout ce problème en maintenant un état partagé cohérent entre les appels successifs : une écriture affecte les lectures suivantes, exactement comme dans un système réel. Les schémas de réponse peuvent être imposés via des modèles Pydantic, ce qui garantit la validité structurelle des sorties simulées et permet de détecter les bugs d'intégration tôt dans le cycle de développement. Ce lancement s'inscrit dans la montée en maturité de l'outillage autour des agents IA autonomes, un segment en pleine explosion depuis l'essor des modèles capables d'utiliser des outils externes. AWS positionne Strands Evals comme une réponse aux besoins des équipes qui passent du prototype à la production : l'absence de cadre de test robuste est aujourd'hui l'un des principaux freins à ce passage. ToolSimulator rejoint un écosystème d'évaluation d'agents qui comprend déjà des solutions comme LangSmith d'Anthropic ou les environnements de sandbox d'OpenAI, mais mise sur l'intégration native avec le SDK Strands et la génération adaptative de réponses par LLM plutôt que sur des templates figés. La prochaine étape naturelle sera d'étendre ces capacités aux workflows MCP complexes et aux agents multi-modaux, à mesure que les cas d'usage en production se diversifient.

OutilsOutil
1 source
Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals
3AWS ML Blog 

Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals

Amazon a annoncé le lancement de quatre nouveaux évaluateurs multimodaux dans son SDK Strands Evals, conçus pour juger automatiquement la qualité des réponses textuelles générées à partir d'images. Baptisés Overall Quality, Correctness, Faithfulness et Instruction Following, ces évaluateurs fonctionnent sur Amazon Bedrock et s'intègrent directement dans le flux de travail Case/Experiment/Report de Strands Evals. Leur principe : envoyer l'image source, la requête et la réponse du modèle à un modèle juge multimodal, qui retourne un score (sur une échelle de Likert 1-5 ou binaire) accompagné d'un raisonnement exploitable pour le débogage. Ils supportent deux modes d'évaluation, avec ou sans réponse de référence, et peuvent être branchés directement dans des pipelines d'intégration continue pour détecter automatiquement hallucinations visuelles, erreurs factuelles et violations d'instructions. La limitation des évaluateurs textuels classiques est au coeur de cette annonce. Un juge qui ne voit pas l'image peut valider un texte bien rédigé tout en laissant passer des erreurs critiques : un modèle qui invente une tendance dans un graphique qui ne la montre pas, hallucine un produit absent d'une photo, ou ignore une instruction de format. Ces trois types d'échecs nécessitent trois types de corrections différents, et les agréger en un seul score global rend le débogage quasi impossible. Sans évaluation multimodale automatisée, les équipes sont coincées entre la revue humaine, coûteuse et non scalable, et des proxys textuels qui manquent précisément les défaillances qui comptent, notamment dans des cas d'usage comme la lecture de factures, l'analyse de tableaux de bord ou la description de captures d'écran. L'enjeu est considérable à l'échelle de l'industrie. Selon Gartner, 80 % des logiciels d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. Cette transition rapide pousse les équipes d'ingénierie à construire des pipelines d'évaluation capables de suivre la complexité croissante des modèles déployés. Strands Evals s'inscrit dans l'écosystème d'agents IA open source qu'Amazon a commencé à assembler ces derniers mois, avec une ambition claire : fournir une chaîne d'outils complète, de la construction à l'évaluation des agents. Ces quatre évaluateurs représentent une brique manquante pour les équipes qui travaillent sur le commerce visuel, la compréhension de documents ou tout système où la vérité de terrain réside dans l'image et non dans le texte. La prochaine étape logique sera d'étendre ces mécanismes à des modalités supplémentaires, vidéo, audio, à mesure que les modèles fondamentaux gagnent en capacités.

OutilsOutil
1 source
Détection des pannes et analyse des causes racines des agents IA avec Strands Evals
4AWS ML Blog 

Détection des pannes et analyse des causes racines des agents IA avec Strands Evals

Amazon a publié Strands Evals, un kit de développement Python conçu pour automatiser le diagnostic des pannes dans les agents IA en production. Disponible via pip install strands-agents-evals et compatible avec Amazon Bedrock, l'outil introduit un système de "détecteurs" capables d'analyser automatiquement les traces d'exécution d'un agent et d'identifier les causes racines des défaillances. Là où les évaluations classiques se contentent d'un score global, "l'agent a réussi 60 % de ses objectifs", Strands Evals descend au niveau de chaque étape individuelle (chaque "span") pour catégoriser les erreurs, mesurer leur gravité par un score de confiance, et retracer la chaîne causale qui a conduit à l'échec. Le pipeline fonctionne en deux phases pilotées par un LLM : une première phase de détection qui passe en revue neuf catégories de pannes (hallucination, mauvaise sélection d'outil, erreurs d'orchestration, non-conformité aux instructions, erreurs d'exécution, problèmes de gestion du contexte, comportements répétitifs, sorties LLM mal formées, et incompatibilités de configuration), puis une seconde phase d'analyse des causes racines qui classe chaque défaillance en primaire, secondaire ou tertiaire et génère des recommandations de correction ciblées. L'enjeu est directement opérationnel : lorsqu'un taux de succès chute de 85 % à 70 % après un déploiement, les ingénieurs passaient jusqu'ici des heures à inspecter manuellement des centaines de traces pour comprendre ce qui avait changé. Strands Evals promet de ramener ce diagnostic de plusieurs heures à quelques minutes. L'outil indique non seulement quelle étape a échoué, mais aussi si la correction doit porter sur le prompt système ou sur la définition des outils, une distinction qui évite des cycles d'itération coûteux. Pour les équipes qui opèrent des agents à grande échelle, intégrer ces détecteurs dans le pipeline d'évaluation automatisé signifie que chaque run de test produit désormais un diagnostic structuré, pas seulement un score. Ce lancement s'inscrit dans la montée en maturité de l'écosystème des agents IA autonomes, où l'observabilité devient aussi critique qu'elle l'est depuis longtemps dans le développement logiciel classique. Amazon Bedrock AgentCore fournit déjà des primitives de sessions, traces et spans ; Strands Evals se positionne comme la couche d'analyse au-dessus. La dépendance à Amazon Bedrock pour faire tourner les LLM d'analyse est une contrainte notable, les équipes utilisant d'autres fournisseurs devront adapter leur infrastructure. La prochaine étape logique pour l'écosystème sera d'étendre ces capacités de diagnostic à des frameworks d'agents tiers, alors que des acteurs comme LangChain, AutoGen ou CrewAI construisent leurs propres couches d'observabilité en parallèle.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic