Aller au contenu principal
OutilsAWS ML Blog6j

Évaluer les agents IA pour la production : un guide pratique de Strands Evals

1 source couvre ce sujet·Source originale ↗·
Résumé IA

Évaluer des agents IA en production est fondamentalement différent des tests logiciels classiques : les agents produisent des sorties non déterministes, prennent des décisions contextuelles et opèrent sur plusieurs tours de conversation. Strands Evals est un framework structuré conçu pour l'Agents SDK de Strands, qui utilise des LLMs comme évaluateurs pour mesurer des critères qualitatifs comme la pertinence, la cohérence et la fidélité aux sources. Il propose des évaluateurs intégrés, des outils de simulation multi-tours et des capacités de reporting pour suivre la qualité des agents de façon rigoureuse et reproductible.

Moving AI agents from prototypes to production surfaces a challenge that traditional testing is unable to address. Agents are flexible, adaptive, and context-aware by design, but the same qualities that make them powerful also make them difficult to evaluate systematically. Traditional software testing relies on deterministic outputs: same input, same expected output, every time. AI agents break this assumption. They generate natural language, make context-dependent decisions, and produce varied outputs even from identical inputs. How do you systematically evaluate something that is not deterministic? In this post, we show how to evaluate AI agents systematically using Strands Evals . We walk through the core concepts, built-in evaluators, multi-turn simulation capabilities and practical approaches and patterns for integration. Strands Evals provides a structured framework for evaluating AI agents built with the Strands Agents SDK, offering evaluators, simulation tools, and reporting capabilities. Whether you need to verify that your agent uses the right tools, produces helpful responses, or guides users toward their goals, the framework provides infrastructure to measure and track these qualities systematically. Why evaluating AI agents is different When you ask an agent “What is the weather like in Tokyo?”, many valid responses exist, and no single answer is definitively correct. The agent might report temperature in Celsius or Fahrenheit, include humidity and wind, or only focus on temperature. These variations could be correct and helpful, which is exactly why traditional assertion-based testing falls short. Beyond text generation, agents also take action. A well-designed agent calls tools, retrieves information, and makes decisions throughout a conversation. Evaluating the final response alone misses whether the agent took appropriate steps to reach that response. Even correct responses can fall short. A response might be factually accurate but unhelpful, or helpful but unfaithful to source materials. No single metric captures these different quality dimensions. Conversations add another layer of complexity because they unfold over time. In multi-turn interactions, earlier responses affect later ones. An agent might handle individual queries well but fail to maintain a coherent context across a conversation. Testing single turns in isolation misses these interaction patterns. These characteristics demand evaluation that requires judgment rather than keyword comparison. Large language model (LLM)-based evaluation addresses this need. By using language models as evaluators, we can assess qualities like helpfulness, coherence, and faithfulness that resist mechanical checking. Strands Evals embraces this flexibility while still offering rigorous, repeatable quality assessments. Core concepts of Strands Evals Strands Evals follows a pattern that should feel familiar to anyone who has written unit tests but adapts it for the judgment-based evaluation that AI agents require. The framework introduces three foundational concepts that work together: Cases, Experiments, and Evaluators . Figure: High-Level Architecture A Case represents a single test scenario. It contains the input that you want to test, perhaps a user’s query like “What is the weather in Paris?”, along with optional expected outputs, expected tool sequences known as trajectories, and metadata. Cases are the atomic unit of evaluation. Each one defines one scenario that you want your agent to handle correctly. from strands_evals import Case case = Case( name="Weather Query", input="What is the weather like in Tokyo?", expected_output="Should include temperature and conditions", expected_trajectory=["weather_api"] ) An Experiment bundles multiple Cases together with one or more evaluators. Think of it as a test suite in traditional testing. The Experiment orchestrates the evaluation process. It takes each Case, runs your agent on it, and applies the configured evaluators to score the results. Evaluators are the judges. They examine what your agent produced (the actual output and trajectory) and compare it against what was expected. Unlike simple assertion checks, evaluators in Strands Evals are primarily LLM-based. They use language models to make nuanced judgments about quality, relevance, helpfulness, and other qualities that cannot be reduced to string comparison. Separating these concerns helps keep the framework flexible. You can define what to test with Cases, how to test it with evaluators, and the framework handles orchestration and reporting through Experiments. Each piece can be configured independently so that you can build evaluation suites that are tailored to your specific needs. The task function: connecting agents to evaluation Cases define your scenarios, and evaluators provide judgment. But how does your agent actually connect to this evaluation system? That is where the Task Function comes in. A Task Function is a callable that

À lire aussi

1The Verge AI1h

Le mode automatique de Claude Code d'Anthropic devient plus sûr

Anthropic a lancé un nouveau mode appelé « auto mode » pour Claude Code, son outil de codage assisté par IA. Cette fonctionnalité permet à l'agent de prendre des décisions autonomes concernant les permissions, sans nécessiter une validation manuelle constante de l'utilisateur. Elle s'adresse particulièrement aux développeurs qui souhaitent déléguer davantage de tâches à l'IA tout en conservant un filet de sécurité. L'enjeu est de taille : Claude Code peut agir de manière indépendante, ce qui présente des risques réels comme la suppression de fichiers, la fuite de données sensibles ou l'exécution d'instructions malveillantes. L'auto mode vise à combler le fossé entre une supervision permanente — jugée contraignante — et une autonomie totale jugée dangereuse. Concrètement, le système détecte et bloque les actions potentiellement risquées avant leur exécution, tout en proposant à l'agent une alternative plus sûre. Anthropic positionne ainsi Claude Code dans un segment en pleine expansion : les outils d'IA « agentiques » capables d'agir seuls sur un poste de travail, un marché où la gestion des risques devient un argument commercial différenciant.

OutilsOutil
1 source
2Blog du Modérateur1h

ChatGPT enrichit son expérience shopping et abandonne Instant Checkout

OpenAI a mis à jour l'interface shopping de ChatGPT, la rendant plus visuelle et intuitive. La nouvelle version permet de comparer les produits plus facilement et introduit une recherche par image. En parallèle, la fonctionnalité Instant Checkout, qui permettait d'acheter directement depuis le chatbot, a été abandonnée. Ce repositionnement transforme ChatGPT en outil de découverte et de comparaison plutôt qu'en canal de vente directe. Cela redirige les utilisateurs vers les marchands pour finaliser leurs achats, ce qui soulage les tensions avec les retailers tout en conservant ChatGPT comme point d'entrée dans le parcours d'achat. Cette évolution s'inscrit dans la montée en puissance des assistants IA comme moteurs de recherche commerciale, en concurrence directe avec Google Shopping et Amazon.

OutilsOutil
1 source
3NVIDIA AI Blog1h

Les usines d'IA flexibles en énergie peuvent stabiliser le réseau électrique mondial

Lors du match de l'Euro 2020 entre l'Angleterre et l'Allemagne, des millions de téléspectateurs britanniques ont allumé leur bouilloire à la mi-temps simultanément, provoquant un pic de demande d'environ 1 gigawatt sur le réseau électrique national — l'équivalent d'un réacteur nucléaire standard. C'est ce phénomène, surnommé le "TV pickup", qui a inspiré une démonstration inédite menée en décembre 2025 à Londres par Emerald AI, en collaboration avec NVIDIA, EPRI, National Grid et Nebius. L'expérience s'est déroulée dans une "usine IA" construite sur l'infrastructure NVIDIA de Nebius, équipée de 96 GPU NVIDIA Blackwell Ultra connectés via la plateforme InfiniBand NVIDIA Quantum-X800. En simulant ce même pic d'énergie lié au match de football, le cluster IA a automatiquement réduit sa consommation pour absorber le choc — sans interrompre les charges de travail prioritaires. Cette technologie, baptisée Emerald AI Conductor Platform, ouvre une perspective concrète pour la gestion des réseaux électriques sous tension. Les usines IA, habituellement perçues comme de nouveaux fardeau énergétiques, deviennent ici des actifs flexibles capables d'ajuster leur consommation en quelques secondes selon des signaux envoyés par les gestionnaires de réseau. Lors des tests, le système a respecté 100 % des plus de 200 cibles de puissance définies par EPRI et National Grid, couvrant non seulement les GPU mais aussi les CPU et l'ensemble des équipements informatiques. En pratique, cela signifie que le réseau peut gérer les pics de demande avec les capacités existantes, sans avoir à construire d'infrastructures permanentes surdimensionnées pour les scénarios les plus extrêmes — ce qui contribue directement à limiter la hausse des tarifs pour les consommateurs. Pour les opérateurs de centres de données, l'avantage est également majeur : cette flexibilité leur permet d'obtenir des raccordements au réseau bien plus rapidement, sans attendre des années de travaux d'infrastructure. Après des essais probants dans trois États américains — Arizona, Virginie et Illinois —, Emerald AI a transposé son approche au Royaume-Uni, dans un contexte où la croissance explosive des besoins énergétiques liés à l'IA met sous pression les gestionnaires de réseaux du monde entier.

UELes gestionnaires de réseaux européens confrontés à la même explosion des besoins énergétiques liés à l'IA pourraient adopter cette approche pour stabiliser leur réseau sans surinvestissement en infrastructures permanentes.

OutilsActu
1 source
4InfoQ AI1h

Podcast : [Vidéo] Systèmes agentiques sans chaos : premiers modèles opérationnels pour agents autonomes

Shweta Vohra et Joseph Stein consacrent un épisode de podcast à la question des systèmes agentiques — ces logiciels capables de planifier, d'agir et de prendre des décisions de manière autonome. Les deux experts y examinent ce qui distingue véritablement un agent IA d'une simple automatisation traditionnelle, et comment concevoir ces systèmes sans perdre le contrôle. La discussion porte sur les défis concrets pour les architectes et ingénieurs : comment définir les limites d'action d'un agent, comment orchestrer plusieurs agents entre eux, et quels modèles organisationnels adopter dès les premières phases de déploiement. L'enjeu est de tirer parti de l'autonomie de ces systèmes tout en évitant le chaos opérationnel. Le sujet s'inscrit dans une réflexion plus large sur la maturité croissante des agents IA, qui passent progressivement du statut d'assistants réactifs à celui d'acteurs autonomes dans les infrastructures logicielles.

OutilsOpinion
1 source