Aller au contenu principal
LangSmith sur AWS pour évaluer les agents LLM avancés
OutilsAWS ML Blog21h

LangSmith sur AWS pour évaluer les agents LLM avancés

Résumé IASource uniqueImpact UE
Source originale ↗·

AWS et LangChain ont publié conjointement un guide pratique sur l'évaluation des agents IA complexes en production, en s'appuyant sur l'outil LangSmith déployé sur l'infrastructure AWS. Co-rédigé par Karan Singh, directeur des partenariats chez LangChain, ce guide combine les travaux de LangChain et le guide publié par Anthropic sur la démystification des évaluations d'agents. Il présente cinq patterns d'évaluation, une méthode pour construire des tests hors ligne via pytest et LangSmith, ainsi qu'une configuration de monitoring en production. Le cas d'usage central est un agent "texte vers SQL" fonctionnant sur Amazon Bedrock, utilisant le modèle Amazon Nova 2 Lite, un modèle de raisonnement rapide et économique avec une fenêtre de contexte d'un million de tokens, capable de traiter texte, images, vidéos et documents, et bien adapté aux charges de travail agentiques.

Le défi posé par l'évaluation des agents IA est fondamentalement différent de celui des LLMs classiques, pour trois raisons majeures : la non-déterminisme (le même agent peut réussir 90 % du temps et échouer dans 10 % des cas), la propagation d'erreurs (une faute à l'étape 3 peut fausser toutes les étapes suivantes, un agent SQL qui identifie mal le schéma construira un JOIN incorrect et produira une réponse erronée), et la créativité des solutions (les modèles frontières trouvent parfois des chemins valides non anticipés par les concepteurs de tests). Pour mesurer la fiabilité réelle, le guide introduit deux métriques clés : pass@k, qui mesure la probabilité d'au moins un succès en k tentatives, et pass^k, qui mesure la probabilité que toutes les k tentatives aboutissent, permettant ainsi de distinguer les agents capables d'improviser de ceux qui produisent des résultats cohérents et reproductibles.

Ce guide s'inscrit dans une tendance de fond : à mesure que les agents IA passent des démonstrations aux déploiements réels, l'absence d'outils d'évaluation rigoureuse est devenue l'un des principaux freins à leur adoption industrielle. LangChain, qui développe l'un des frameworks d'orchestration les plus utilisés, et AWS, qui héberge une part croissante des charges de travail IA via Bedrock, se positionnent ensemble sur ce segment critique. LangSmith est disponible sur AWS Marketplace, ce qui simplifie son intégration dans les environnements cloud existants. Cette collaboration reflète une maturité croissante de l'écosystème : après une phase d'enthousiasme autour des agents autonomes, l'industrie se tourne désormais vers les questions de fiabilité, d'observabilité et de gouvernance, conditions indispensables à un déploiement à grande échelle.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours
1AWS ML Blog 

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours

Amazon a publié dans son SDK Strands Evaluations une fonctionnalité appelée ActorSimulator, destinée à automatiser l'évaluation des agents IA dans des conversations multi-tours. Contrairement aux tests à tour unique — où l'on fournit une entrée, on collecte une sortie et on juge le résultat — les interactions réelles s'étendent sur plusieurs échanges : l'utilisateur pose des questions de suivi, change de direction ou exprime sa frustration face à des réponses incomplètes. Un assistant de voyage qui gère correctement "Réserve-moi un vol pour Paris" peut échouer lorsque le même utilisateur enchaîne avec "En fait, peut-on regarder les trains ?" ou "Qu'en est-il des hôtels près de la tour Eiffel ?". L'ActorSimulator permet de générer des utilisateurs simulés avec des personas structurés et des objectifs définis, puis de les laisser converser naturellement avec un agent sur plusieurs tours, à grande échelle. L'enjeu est considérable pour les équipes qui développent des agents conversationnels en production. Conduire manuellement des centaines de conversations multi-tours à chaque modification d'un agent est insoutenable, et les jeux de données statiques d'entrées/sorties ne capturent pas la dynamique réelle : la "bonne" prochaine question de l'utilisateur dépend entièrement de ce que l'agent vient de répondre. Les approches artisanales consistant à demander à un LLM de "jouer l'utilisateur" sans définition structurée du persona produisent des résultats incohérents d'une exécution à l'autre, rendant impossible la détection fiable de régressions. L'ActorSimulator répond à ce problème en combinant le réalisme d'une conversation humaine avec la reproductibilité et l'échelle des tests automatisés. Ce développement s'inscrit dans une tendance plus large de l'industrie à professionnaliser l'évaluation des agents IA, à mesure que ceux-ci quittent les démos pour entrer dans des usages critiques. AWS positionne Strands Evaluations comme une infrastructure d'évaluation systématique, comparable aux simulateurs de vol ou aux moteurs de jeu qui testent des millions de comportements avant déploiement. La difficulté fondamentale réside dans la croissance combinatoire des chemins de conversation : plus les capacités d'un agent s'étoffent, plus le nombre de scénarios possibles explose au-delà de ce que des équipes humaines peuvent explorer. En permettant la simulation structurée de personas avec des objectifs explicites et un suivi de progression, Strands Evals vise à offrir aux équipes d'évaluation un outil comparable à ce que les testeurs de logiciels ont dans d'autres disciplines d'ingénierie, avec des résultats comparables dans le temps.

OutilsOutil
1 source
AWS lance des agents autonomes pour les tests de sécurité et les opérations cloud
2AWS ML Blog 

AWS lance des agents autonomes pour les tests de sécurité et les opérations cloud

Amazon Web Services a annoncé la disponibilité générale de deux agents autonomes d'intelligence artificielle lors de son événement re:Invent : AWS Security Agent, dédié aux tests d'intrusion, et AWS DevOps Agent, spécialisé dans les opérations cloud. Ces systèmes appartiennent à une nouvelle catégorie baptisée « frontier agents » — des IA capables de travailler de façon autonome pendant des heures, voire des jours, sans supervision humaine continue. Selon AWS, les retours des clients en phase de préversion sont significatifs : AWS Security Agent réduit les délais de tests de pénétration de plusieurs semaines à quelques heures, tandis qu'AWS DevOps Agent accélère la résolution d'incidents de 3 à 5 fois. Des entreprises comme Bamboo Health et HENNGE K.K. témoignent de résultats concrets, cette dernière affirmant avoir réduit la durée de ses cycles de sécurité de plus de 90 %. L'enjeu pour les équipes de sécurité et d'exploitation est majeur. La plupart des organisations ne peuvent aujourd'hui faire réaliser des tests de pénétration manuels que sur leurs applications les plus critiques, faute de temps et de budget — laissant la majorité de leur portefeuille logiciel vulnérable entre deux cycles d'audit. AWS Security Agent change cette équation en analysant le code source, les diagrammes d'architecture et la documentation pour reconstituer des chaînes d'attaque complexes que les scanners traditionnels ne détectent pas. Côté opérations, AWS DevOps Agent s'intègre avec les principaux outils du marché — CloudWatch, Datadog, Dynatrace, Splunk, Grafana, GitHub, GitLab — et corrèle télémétrie, code et données de déploiement pour identifier la cause racine d'un incident, qu'il s'agisse d'infrastructures AWS, Azure, hybrides ou on-premise. Pour les équipes SRE débordées, c'est la promesse d'un coéquipier disponible en permanence. Ces annonces s'inscrivent dans une course à l'automatisation des opérations IT qui s'intensifie depuis l'essor des grands modèles de langage. Les hyperscalers — AWS, Microsoft Azure, Google Cloud — cherchent tous à proposer des agents capables de gérer des tâches complexes et durables, au-delà des simples assistants conversationnels. AWS positionne explicitement ces outils non comme des aides ponctuelles, mais comme de véritables extensions de l'équipe humaine, capables de prendre des décisions en plusieurs étapes sans intervention constante. Amy Herzog, vice-présidente et RSSI d'AWS, indique que l'entreprise utilise elle-même AWS Security Agent en interne. La question qui se posera à mesure de l'adoption est celle de la gouvernance : jusqu'où déléguer à une IA des décisions critiques sur la sécurité ou la stabilité des systèmes de production ?

UELes entreprises européennes utilisant AWS peuvent adopter ces agents pour réduire leurs coûts et délais de tests de sécurité, mais la délégation de décisions critiques à une IA soulève des questions de conformité avec le RGPD et l'AI Act.

OutilsOutil
1 source
AgentWatch : surveillance proactive d'AWS avec des agents de veille
3AWS ML Blog 

AgentWatch : surveillance proactive d'AWS avec des agents de veille

AgentWatch est un agent de surveillance AWS dit "ambiant", développé par Amazon et déployé sur Amazon Bedrock, conçu pour transformer la façon dont les équipes DevOps gèrent l'infrastructure cloud. Plutôt que de réagir aux alertes CloudWatch après que les problèmes ont déjà affecté les utilisateurs, AgentWatch effectue des vérifications automatiques toutes les 15 minutes, analysant les métriques, journaux et alarmes CloudWatch sur plusieurs comptes AWS simultanément. Les rapports synthétiques sont envoyés directement sur Slack, et l'outil répond aux requêtes en langage naturel sur l'état de l'infrastructure. Le système repose sur trois modes d'interaction "human-in-the-loop" qui maintiennent une supervision humaine appropriée tout en maximisant l'automatisation. L'enjeu est considérable pour les équipes d'ingénierie cloud : selon le problème décrit par Amazon, les erreurs AWS Lambda s'accumulent inaperçues, les dégradations de performance EC2 passent sous le radar jusqu'aux signalements clients, et les ingénieurs d'astreinte souffrent de "fatigue aux alertes" en jonglant entre outils fragmentés. AgentWatch vise à éliminer ce cycle réactif en assurant une veille continue sans intervention humaine constante, libérant du temps pour l'innovation plutôt que la lutte contre les incidents. Concrètement, l'outil traduit des données dispersées, métriques, logs de dizaines de services, alarmes en cascade, en informations exploitables, n'impliquant les équipes humaines que lorsque leur jugement est véritablement nécessaire. Ce projet s'inscrit dans une tendance plus large de l'industrie vers les "agents ambiants", une nouvelle catégorie de systèmes IA événementiels et autonomes capables de traiter plusieurs flux de données en parallèle. Contrairement aux outils de monitoring traditionnels qui exigent des requêtes manuelles et une analyse humaine continue, ces agents opèrent en arrière-plan de façon persistante, à la manière d'un collaborateur invisible. Pour Amazon, c'est aussi une démonstration concrète des capacités d'Amazon Bedrock comme socle pour des applications d'IA opérationnelle en entreprise. La question des suites reste ouverte : l'adoption large de tels agents dans les environnements cloud complexes nécessitera de définir précisément les frontières entre décision automatisée et validation humaine, notamment pour les actions correctives à fort impact comme le redémarrage d'instances ou la modification de configurations critiques.

OutilsOutil
1 source
Laserfiche lance des agents IA pour les flux de travail en langage naturel
4AI News 

Laserfiche lance des agents IA pour les flux de travail en langage naturel

Laserfiche, éditeur spécialisé dans la gestion de contenu d'entreprise, a lancé le 7 mai 2026 des agents d'intelligence artificielle capables d'exécuter des tâches complexes à partir de simples instructions en langage naturel. Ces agents sont accessibles via Smart Chat, une interface conversationnelle intégrée à la plateforme Laserfiche Cloud. Ils s'appuient sur des modèles de raisonnement génératifs (LLM) pour analyser des documents, identifier des informations spécifiques et déclencher des actions concrètes, comme déplacer un fichier, signaler une anomalie ou router un contrat vers le bon interlocuteur. Les capacités de chaque agent sont strictement encadrées par les permissions de l'utilisateur connecté, ce qui garantit que les données sensibles restent protégées selon les règles de conformité en vigueur dans l'organisation. L'intérêt principal de ces agents réside dans leur capacité à automatiser la zone grise entre les workflows préconçus et les tâches manuelles répétitives, sans exiger de compétences techniques de la part des utilisateurs. Dans les services juridiques, ils peuvent détecter des incohérences dans des contrats avant de les soumettre à une revue humaine. En comptabilité fournisseurs, ils repèrent les factures en retard et les transmettent aux équipes concernées. En RH, ils analysent les dossiers employés pour classer automatiquement les documents dans les bons répertoires selon le niveau d'accès de l'utilisateur. Cette polyvalence opérationnelle réduit le temps consacré à la gestion documentaire et libère les équipes pour des tâches à plus forte valeur ajoutée, quel que soit leur niveau de maîtrise technique. Laserfiche s'inscrit dans une tendance de fond qui voit les grandes plateformes de gestion de contenu intégrer des couches d'IA agentique pour transformer la relation des entreprises à leurs données. Jusqu'ici, retrouver un document impliquait de connaître son emplacement exact dans une arborescence souvent complexe. Justin Pava, chief product evangelist de l'entreprise, résume l'évolution en cours : l'endroit où un document est stocké va progressivement perdre de son importance, au profit de la capacité à agir directement sur l'information grâce aux métadonnées extraites automatiquement et à la recherche assistée par IA. Des mises à jour sont déjà prévues pour permettre aux agents de fonctionner en arrière-plan, de surveiller des conditions système de manière autonome et de s'intégrer plus profondément dans les processus métier existants. Cette annonce positionne Laserfiche en concurrence directe avec d'autres acteurs de la gestion documentaire qui cherchent eux aussi à capitaliser sur l'essor des agents IA en entreprise.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour