OutilsAWS ML Blog · 2 juin 2026, 18:45· 2 min de lecture

Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore

Baz, une startup spécialisée dans l'automatisation des revues de code, a développé un agent IA capable de vérifier non seulement la qualité technique du code, mais aussi sa conformité aux spécifications produit et aux maquettes de design. Baptisé Spec Review Agent, ce système repose sur Amazon Bedrock et Amazon Bedrock AgentCore, les services d'IA managés d'AWS. Concrètement, l'agent s'active automatiquement à l'ouverture d'une pull request GitHub, interroge simultanément Figma pour récupérer les spécifications visuelles et Jira pour les exigences fonctionnelles, puis décompose l'ensemble en critères vérifiables. Il spawne ensuite des sous-agents parallèles, un par exigence, qui analysent le code source et interagissent avec l'environnement de prévisualisation via l'outil AgentCore Browser Tool, capable d'inspecter le DOM, de simuler des interactions utilisateur et de comparer visuellement l'interface rendue avec les maquettes Figma.

L'enjeu est considérable pour les équipes de développement modernes. Jusqu'ici, la vérification qu'une fonctionnalité correspondait réellement à ce que le product owner avait demandé ou que le designer avait conçu reposait entièrement sur des tests manuels effectués par des équipes QA. Ces vérifications prenaient des heures, introduisaient des incohérences d'une release à l'autre et s'appuyaient sur une connaissance interne non documentée et donc fragile. En automatisant cette couche de validation, Baz cherche à supprimer le délai systématique entre la livraison du code et la détection des écarts, réduisant ainsi les régressions et accélérant les cycles de mise en production. Pour les équipes engineering qui travaillent à haute vélocité, c'est potentiellement une transformation profonde du workflow de review, qui passe d'une vérification de syntaxe à une validation de comportement réel.

Ce projet s'inscrit dans une tendance plus large d'industrialisation des agents IA dans le cycle de développement logiciel, après l'émergence des assistants de génération de code comme GitHub Copilot. Amazon Bedrock AgentCore, lancé récemment par AWS, propose des primitives spécifiquement conçues pour l'orchestration d'agents multi-étapes en production, incluant la navigation web autonome, la gestion de la mémoire et l'exécution de code dans des environnements isolés. Baz exploite ces capacités pour bâtir une infrastructure d'orchestration déployée sur Amazon EKS, avec un Application Load Balancer en entrée. La prochaine étape logique pour ce type de système sera d'étendre la couverture au-delà des critères d'acceptation Jira et des maquettes Figma, vers des dimensions comme la performance ou l'accessibilité, transformant progressivement la revue de code en audit produit complet piloté par l'IA.

Dans nos dossiers

AWS Agents IA Microsoft

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA

AWS a déployé en interne un assistant conversationnel baptisé Field Advisor, construit sur Amazon Bedrock AgentCore, pour résoudre un problème concret apparu dans ses propres équipes commerciales mondiales : la prolifération d'agents IA spécialisés sans coordination centrale. L'organisation AWS Sales utilisait plus de 20 agents distincts couvrant la gestion CRM, la planification de réunions, les recommandations produits, les analyses clients et les vérifications de conformité. Les représentants commerciaux devaient eux-mêmes choisir quel agent invoquer selon la tâche, gérer les changements de contexte entre systèmes fragmentés et assembler manuellement les résultats, une charge cognitive qui réduisait d'autant le temps passé avec les clients. Field Advisor agit comme une couche d'orchestration centrale : les commerciaux posent leurs questions en langage naturel, et le système route automatiquement les requêtes vers l'agent ou l'outil approprié, maintient le contexte conversationnel entre les interactions et livre une réponse unifiée via une interface unique. L'impact est concret pour les équipes de vente : Field Advisor s'intègre directement dans les outils déjà utilisés au quotidien, systèmes CRM, Slack, applications internes, évitant toute rupture de flux de travail. Le système inclut des mécanismes de validation humaine pour les opérations sensibles : avant de modifier des données CRM, il présente les changements proposés et attend une approbation explicite, ce qui préserve la fiabilité des données et la responsabilité des commerciaux. La mémoire persistante, combinant historique de session à court terme et mémoire sémantique à long terme, permet aux représentants de reprendre une conversation là où elle s'était arrêtée sans avoir à répéter le contexte à chaque interaction. L'ensemble de ces fonctionnalités réduit la charge opérationnelle et libère du temps pour les échanges à valeur ajoutée avec les clients. Ce projet illustre un défi structurel qui émerge dans de nombreuses grandes entreprises à mesure que l'adoption des agents IA s'accélère : la multiplication d'agents spécialisés crée paradoxalement une nouvelle complexité si aucune orchestration ne les unifie. AWS a choisi Bedrock AgentCore précisément pour ses capacités natives à l'échelle enterprise, environnements d'exécution isolés pour les opérations multi-locataires sécurisées, passerelle unifiée pour les outils et agents répartis sur plusieurs comptes AWS, propagation d'identité cohérente via OAuth et observabilité intégrée sur les flux complexes. En s'appuyant sur une infrastructure clé en main plutôt que sur du développement sur mesure, l'équipe d'ingénierie a pu concentrer ses efforts sur la logique métier plutôt que sur les fondations techniques. Field Advisor représente ainsi autant un cas d'usage commercial qu'une démonstration de la viabilité d'AgentCore comme substrat pour des déploiements agentiques en production à grande échelle.

OutilsOutil

1 source

2AWS ML Blog

Amazon Lex améliore la précision des bots grâce au NLU assisté

Amazon a enrichi son service de création de chatbots Amazon Lex avec une fonctionnalité baptisée Assisted NLU (Natural Language Understanding), qui intègre des grands modèles de langage pour améliorer significativement la compréhension des requêtes utilisateurs. Concrètement, le système atteint en moyenne 92 % de précision dans la classification des intentions et 84 % dans la résolution des paramètres de conversation (les "slots"). Parmi les centaines de clients déjà déployés sur cette fonctionnalité, les retours terrain font état d'une amélioration de 11 à 15 % de la classification des intentions, d'une réduction de 23,5 % des réponses de type "je n'ai pas compris", et d'une meilleure gestion de 30 % des entrées ambiguës ou mal formulées. La fonctionnalité est disponible en deux modes : un mode primaire où le LLM traite chaque entrée utilisateur, et un mode de secours où il n'intervient que lorsque le système traditionnel est en faible confiance. Elle est incluse sans surcoût dans la tarification standard d'Amazon Lex. L'enjeu est de taille pour toutes les entreprises qui déploient des assistants conversationnels en production. Les systèmes classiques basés sur des règles imposaient aux développeurs de configurer manuellement des dizaines de variantes pour chaque formulation possible, sans jamais couvrir l'exhaustivité du langage naturel. Un bot de réservation hôtelière entraîné sur "réserver une chambre" échouait dès qu'un client disait "j'aimerais prendre une suite pour mon séjour à Seattle du 15 au 18 décembre", perdant au passage le type de chambre, la ville et les dates. Avec Assisted NLU, ces requêtes complexes ou ambiguës sont gérées sans configuration supplémentaire, ce qui réduit directement le taux d'abandon des conversations et allège la charge de maintenance pour les équipes techniques. Amazon Lex existe depuis 2017, initialement comme le moteur NLU d'Alexa adapté aux développeurs tiers. La montée en puissance des LLMs a créé une pression sur tous les fournisseurs de plateformes conversationnelles pour intégrer ces modèles dans leurs pipelines. L'approche hybride retenue ici, combiner le ML traditionnel avec un LLM en mode fallback ou primaire, reflète une tendance de fond dans l'industrie : ne pas remplacer les anciens systèmes d'un coup, mais les augmenter progressivement pour amortir la transition. Plusieurs clients pilotes auraient déjà annoncé un déploiement plus large après leurs tests initiaux. La prochaine étape pour les équipes produit sera probablement d'affiner la façon dont les descriptions d'intentions et de slots alimentent le LLM, car c'est là que se joue désormais l'essentiel de la qualité de compréhension.

UELes entreprises européennes déployant des chatbots en production peuvent bénéficier de cette amélioration de précision sans surcoût, réduisant directement les coûts de maintenance de leurs systèmes conversationnels.

OutilsOutil

1 source

3AWS ML Blog

Amazon Bedrock AgentCore intègre la recherche web

Amazon a annoncé la disponibilité générale de Web Search on Amazon Bedrock AgentCore, une fonctionnalité de recherche web entièrement gérée et compatible avec le protocole MCP (Model Context Protocol). Concrètement, elle permet aux agents d'IA déployés sur Bedrock d'accéder en temps réel à des informations issues du web, sans que les équipes techniques aient à gérer une API de recherche tierce, des clés d'accès, des quotas ou du code d'extraction de résultats. Le service s'intègre via l'AgentCore Gateway avec une simple authentification IAM ou JWT, et les agents le découvrent via un appel standard tools/list, comme n'importe quel autre outil MCP. Derrière ce connecteur repose un index web propriétaire maintenu par Amazon, couvrant des dizaines de milliards de documents, mis à jour en continu avec un délai de rafraîchissement de quelques minutes. Le service inclut également un graphe de connaissances pour les réponses factuelles à haute confiance, et une extraction sémantique de passages optimisée pour les fenêtres de contexte des modèles de langage. L'ensemble du trafic de requêtes reste dans l'infrastructure AWS, sans transmission externe. L'enjeu est structurel pour quiconque construit des agents d'IA en production : ces systèmes ont une connaissance figée à la date de leur entraînement. Interroger un agent sur un cours de bourse, un score sportif ou une annonce publiée il y a une heure retourne au mieux une réponse périmée, au pire une hallucination confiante. Web Search on AgentCore supprime ce plafond sans imposer aux équipes de construire et maintenir elles-mêmes une infrastructure de recherche, tâche qui représente en réalité plusieurs projets distincts, gestion des quotas, normalisation des formats, politique de rétention des données, fraîcheur de l'index. Pour les entreprises qui déploient des agents sur des cas d'usage temps réel (veille concurrentielle, support client, analyse de marché), la disponibilité générale de ce service réduit significativement le coût et la complexité d'un composant jusqu'ici souvent bricolé. Ce lancement s'inscrit dans la montée en puissance des architectures agentiques au sein des grands fournisseurs cloud, où Amazon, Google et Microsoft se disputent le rôle de plateforme de référence pour les agents d'entreprise. L'adoption du protocole MCP comme standard d'interopérabilité est un signal fort : Amazon ne cherche pas à enfermer les développeurs dans un écosystème propriétaire, mais à s'imposer comme couche d'infrastructure de confiance. La proposition de valeur repose sur trois piliers que les solutions tierces peinent à réunir simultanément : fraîcheur de l'index, confidentialité des requêtes garantie dans AWS, et qualité de l'extraction pour les modèles. La prochaine étape logique sera probablement l'intégration native avec d'autres outils AgentCore (mémoire, orchestration multi-agents), consolidant Bedrock comme environnement d'exécution complet pour les agents d'IA en production.

UELes entreprises européennes déployant des agents IA sur AWS Bedrock bénéficient d'un accès simplifié à la recherche web en temps réel, sans infrastructure de recherche tierce à maintenir.

💬 Ce qui me frappe plus que la feature en elle-même, c'est qu'Amazon a choisi MCP plutôt qu'une API proprio. En faisant ça, Bedrock se positionne comme couche d'infrastructure neutre pour les agents enterprise, pas comme un silo de plus, et c'est le genre de pari discret qui pèse plus lourd que ça en a l'air dans les décisions d'architecture. Si tu construis des agents avec des besoins temps réel, tu viens de perdre une bonne excuse pour bricoler ta propre pile de recherche.

OutilsOutil

1 source

4AWS ML Blog

Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables

Amazon a lancé AgentCore Evaluations, un service entièrement géré intégré à Amazon Bedrock, conçu pour mesurer la performance des agents d'IA tout au long de leur cycle de développement. Le problème que ce service cherche à résoudre est bien documenté dans l'industrie : un agent fonctionne parfaitement en démo, convainc les parties prenantes lors des tests, puis échoue en production face à de vrais utilisateurs. Les symptômes sont prévisibles — mauvais appels d'outils, réponses incohérentes, comportements imprévus — mais leur détection systématique exige une infrastructure que la plupart des équipes n'ont pas. AgentCore Evaluations propose un cycle continu : construction de cas de tests, exécution sur l'agent, notation automatisée, analyse des échecs et amélioration itérative. Chaque échec devient automatiquement un nouveau cas de test, ce qui permet de fermer progressivement l'écart entre le comportement attendu et le comportement réel. L'enjeu est structurel : les grands modèles de langage sont non-déterministes. Une même requête peut produire des sélections d'outils différentes, des raisonnements distincts et des réponses variées d'un run à l'autre. Un seul passage de test ne dit pas ce qui se passe habituellement — il dit seulement ce qui peut arriver. Pour obtenir une image fiable du comportement d'un agent, il faut répéter chaque scénario plusieurs fois et agréger les résultats. Sans cela, chaque modification de prompt devient un pari : les équipes ignorent si leurs changements améliorent ou dégradent les performances, et brûlent des crédits API sans visibilité réelle. AgentCore Evaluations adresse précisément cette incertitude en fournissant des métriques de qualité sur plusieurs dimensions — exactitude des sélections d'outils, validité des paramètres, précision des réponses finales — pour le développement comme pour la production. Ce lancement s'inscrit dans une tendance plus large : la maturité des agents d'IA dépasse désormais la phase d'expérimentation et entre dans celle de l'ingénierie de fiabilité. Construire l'infrastructure d'évaluation en interne — curation de datasets, hébergement de modèles de scoring, gestion des limites de débit, pipelines de transformation des traces, tableaux de bord — représente un coût fixe considérable que les équipes multiplient pour chaque agent déployé. Amazon positionne AgentCore Evaluations comme la réponse cloud à ce problème, en absorbant cette complexité dans un service managé. La concurrence est vive : des outils comme LangSmith, Braintrust ou PromptFoo couvrent des besoins similaires, mais l'intégration native dans l'écosystème Bedrock donne à AWS un avantage naturel pour les entreprises déjà engagées sur sa plateforme. La prochaine étape logique sera de voir si le service s'étend aux agents multi-modaux et aux architectures multi-agents, deux domaines où l'évaluation reste un problème ouvert.

UELes équipes européennes développant des agents IA sur Amazon Bedrock peuvent adopter ce service managé pour remplacer une infrastructure d'évaluation coûteuse à construire en interne.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic