Aller au contenu principal
OutilsAWS ML Blog1h

Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore

Résumé IASource uniqueImpact UE
Source originale ↗·

Baz, une startup spécialisée dans l'automatisation des revues de code, a développé un agent IA capable de vérifier non seulement la qualité technique du code, mais aussi sa conformité aux spécifications produit et aux maquettes de design. Baptisé Spec Review Agent, ce système repose sur Amazon Bedrock et Amazon Bedrock AgentCore, les services d'IA managés d'AWS. Concrètement, l'agent s'active automatiquement à l'ouverture d'une pull request GitHub, interroge simultanément Figma pour récupérer les spécifications visuelles et Jira pour les exigences fonctionnelles, puis décompose l'ensemble en critères vérifiables. Il spawne ensuite des sous-agents parallèles, un par exigence, qui analysent le code source et interagissent avec l'environnement de prévisualisation via l'outil AgentCore Browser Tool, capable d'inspecter le DOM, de simuler des interactions utilisateur et de comparer visuellement l'interface rendue avec les maquettes Figma.

L'enjeu est considérable pour les équipes de développement modernes. Jusqu'ici, la vérification qu'une fonctionnalité correspondait réellement à ce que le product owner avait demandé ou que le designer avait conçu reposait entièrement sur des tests manuels effectués par des équipes QA. Ces vérifications prenaient des heures, introduisaient des incohérences d'une release à l'autre et s'appuyaient sur une connaissance interne non documentée et donc fragile. En automatisant cette couche de validation, Baz cherche à supprimer le délai systématique entre la livraison du code et la détection des écarts, réduisant ainsi les régressions et accélérant les cycles de mise en production. Pour les équipes engineering qui travaillent à haute vélocité, c'est potentiellement une transformation profonde du workflow de review, qui passe d'une vérification de syntaxe à une validation de comportement réel.

Ce projet s'inscrit dans une tendance plus large d'industrialisation des agents IA dans le cycle de développement logiciel, après l'émergence des assistants de génération de code comme GitHub Copilot. Amazon Bedrock AgentCore, lancé récemment par AWS, propose des primitives spécifiquement conçues pour l'orchestration d'agents multi-étapes en production, incluant la navigation web autonome, la gestion de la mémoire et l'exécution de code dans des environnements isolés. Baz exploite ces capacités pour bâtir une infrastructure d'orchestration déployée sur Amazon EKS, avec un Application Load Balancer en entrée. La prochaine étape logique pour ce type de système sera d'étendre la couverture au-delà des critères d'acceptation Jira et des maquettes Figma, vers des dimensions comme la performance ou l'accessibilité, transformant progressivement la revue de code en audit produit complet piloté par l'IA.

Dans nos dossiers

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA
1AWS ML Blog 

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA

AWS a déployé en interne un assistant conversationnel baptisé Field Advisor, construit sur Amazon Bedrock AgentCore, pour résoudre un problème concret apparu dans ses propres équipes commerciales mondiales : la prolifération d'agents IA spécialisés sans coordination centrale. L'organisation AWS Sales utilisait plus de 20 agents distincts couvrant la gestion CRM, la planification de réunions, les recommandations produits, les analyses clients et les vérifications de conformité. Les représentants commerciaux devaient eux-mêmes choisir quel agent invoquer selon la tâche, gérer les changements de contexte entre systèmes fragmentés et assembler manuellement les résultats, une charge cognitive qui réduisait d'autant le temps passé avec les clients. Field Advisor agit comme une couche d'orchestration centrale : les commerciaux posent leurs questions en langage naturel, et le système route automatiquement les requêtes vers l'agent ou l'outil approprié, maintient le contexte conversationnel entre les interactions et livre une réponse unifiée via une interface unique. L'impact est concret pour les équipes de vente : Field Advisor s'intègre directement dans les outils déjà utilisés au quotidien, systèmes CRM, Slack, applications internes, évitant toute rupture de flux de travail. Le système inclut des mécanismes de validation humaine pour les opérations sensibles : avant de modifier des données CRM, il présente les changements proposés et attend une approbation explicite, ce qui préserve la fiabilité des données et la responsabilité des commerciaux. La mémoire persistante, combinant historique de session à court terme et mémoire sémantique à long terme, permet aux représentants de reprendre une conversation là où elle s'était arrêtée sans avoir à répéter le contexte à chaque interaction. L'ensemble de ces fonctionnalités réduit la charge opérationnelle et libère du temps pour les échanges à valeur ajoutée avec les clients. Ce projet illustre un défi structurel qui émerge dans de nombreuses grandes entreprises à mesure que l'adoption des agents IA s'accélère : la multiplication d'agents spécialisés crée paradoxalement une nouvelle complexité si aucune orchestration ne les unifie. AWS a choisi Bedrock AgentCore précisément pour ses capacités natives à l'échelle enterprise, environnements d'exécution isolés pour les opérations multi-locataires sécurisées, passerelle unifiée pour les outils et agents répartis sur plusieurs comptes AWS, propagation d'identité cohérente via OAuth et observabilité intégrée sur les flux complexes. En s'appuyant sur une infrastructure clé en main plutôt que sur du développement sur mesure, l'équipe d'ingénierie a pu concentrer ses efforts sur la logique métier plutôt que sur les fondations techniques. Field Advisor représente ainsi autant un cas d'usage commercial qu'une démonstration de la viabilité d'AgentCore comme substrat pour des déploiements agentiques en production à grande échelle.

OutilsOutil
1 source
Amazon Lex améliore la précision des bots grâce au NLU assisté
2AWS ML Blog 

Amazon Lex améliore la précision des bots grâce au NLU assisté

Amazon a enrichi son service de création de chatbots Amazon Lex avec une fonctionnalité baptisée Assisted NLU (Natural Language Understanding), qui intègre des grands modèles de langage pour améliorer significativement la compréhension des requêtes utilisateurs. Concrètement, le système atteint en moyenne 92 % de précision dans la classification des intentions et 84 % dans la résolution des paramètres de conversation (les "slots"). Parmi les centaines de clients déjà déployés sur cette fonctionnalité, les retours terrain font état d'une amélioration de 11 à 15 % de la classification des intentions, d'une réduction de 23,5 % des réponses de type "je n'ai pas compris", et d'une meilleure gestion de 30 % des entrées ambiguës ou mal formulées. La fonctionnalité est disponible en deux modes : un mode primaire où le LLM traite chaque entrée utilisateur, et un mode de secours où il n'intervient que lorsque le système traditionnel est en faible confiance. Elle est incluse sans surcoût dans la tarification standard d'Amazon Lex. L'enjeu est de taille pour toutes les entreprises qui déploient des assistants conversationnels en production. Les systèmes classiques basés sur des règles imposaient aux développeurs de configurer manuellement des dizaines de variantes pour chaque formulation possible, sans jamais couvrir l'exhaustivité du langage naturel. Un bot de réservation hôtelière entraîné sur "réserver une chambre" échouait dès qu'un client disait "j'aimerais prendre une suite pour mon séjour à Seattle du 15 au 18 décembre", perdant au passage le type de chambre, la ville et les dates. Avec Assisted NLU, ces requêtes complexes ou ambiguës sont gérées sans configuration supplémentaire, ce qui réduit directement le taux d'abandon des conversations et allège la charge de maintenance pour les équipes techniques. Amazon Lex existe depuis 2017, initialement comme le moteur NLU d'Alexa adapté aux développeurs tiers. La montée en puissance des LLMs a créé une pression sur tous les fournisseurs de plateformes conversationnelles pour intégrer ces modèles dans leurs pipelines. L'approche hybride retenue ici, combiner le ML traditionnel avec un LLM en mode fallback ou primaire, reflète une tendance de fond dans l'industrie : ne pas remplacer les anciens systèmes d'un coup, mais les augmenter progressivement pour amortir la transition. Plusieurs clients pilotes auraient déjà annoncé un déploiement plus large après leurs tests initiaux. La prochaine étape pour les équipes produit sera probablement d'affiner la façon dont les descriptions d'intentions et de slots alimentent le LLM, car c'est là que se joue désormais l'essentiel de la qualité de compréhension.

UELes entreprises européennes déployant des chatbots en production peuvent bénéficier de cette amélioration de précision sans surcoût, réduisant directement les coûts de maintenance de leurs systèmes conversationnels.

OutilsOutil
1 source
Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables
3AWS ML Blog 

Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables

Amazon a lancé AgentCore Evaluations, un service entièrement géré intégré à Amazon Bedrock, conçu pour mesurer la performance des agents d'IA tout au long de leur cycle de développement. Le problème que ce service cherche à résoudre est bien documenté dans l'industrie : un agent fonctionne parfaitement en démo, convainc les parties prenantes lors des tests, puis échoue en production face à de vrais utilisateurs. Les symptômes sont prévisibles — mauvais appels d'outils, réponses incohérentes, comportements imprévus — mais leur détection systématique exige une infrastructure que la plupart des équipes n'ont pas. AgentCore Evaluations propose un cycle continu : construction de cas de tests, exécution sur l'agent, notation automatisée, analyse des échecs et amélioration itérative. Chaque échec devient automatiquement un nouveau cas de test, ce qui permet de fermer progressivement l'écart entre le comportement attendu et le comportement réel. L'enjeu est structurel : les grands modèles de langage sont non-déterministes. Une même requête peut produire des sélections d'outils différentes, des raisonnements distincts et des réponses variées d'un run à l'autre. Un seul passage de test ne dit pas ce qui se passe habituellement — il dit seulement ce qui peut arriver. Pour obtenir une image fiable du comportement d'un agent, il faut répéter chaque scénario plusieurs fois et agréger les résultats. Sans cela, chaque modification de prompt devient un pari : les équipes ignorent si leurs changements améliorent ou dégradent les performances, et brûlent des crédits API sans visibilité réelle. AgentCore Evaluations adresse précisément cette incertitude en fournissant des métriques de qualité sur plusieurs dimensions — exactitude des sélections d'outils, validité des paramètres, précision des réponses finales — pour le développement comme pour la production. Ce lancement s'inscrit dans une tendance plus large : la maturité des agents d'IA dépasse désormais la phase d'expérimentation et entre dans celle de l'ingénierie de fiabilité. Construire l'infrastructure d'évaluation en interne — curation de datasets, hébergement de modèles de scoring, gestion des limites de débit, pipelines de transformation des traces, tableaux de bord — représente un coût fixe considérable que les équipes multiplient pour chaque agent déployé. Amazon positionne AgentCore Evaluations comme la réponse cloud à ce problème, en absorbant cette complexité dans un service managé. La concurrence est vive : des outils comme LangSmith, Braintrust ou PromptFoo couvrent des besoins similaires, mais l'intégration native dans l'écosystème Bedrock donne à AWS un avantage naturel pour les entreprises déjà engagées sur sa plateforme. La prochaine étape logique sera de voir si le service s'étend aux agents multi-modaux et aux architectures multi-agents, deux domaines où l'évaluation reste un problème ouvert.

UELes équipes européennes développant des agents IA sur Amazon Bedrock peuvent adopter ce service managé pour remplacer une infrastructure d'évaluation coûteuse à construire en interne.

OutilsOutil
1 source
Créer des agents IA pour la business intelligence avec Amazon Bedrock AgentCore
4AWS ML Blog 

Créer des agents IA pour la business intelligence avec Amazon Bedrock AgentCore

OPLOG, entreprise turque spécialisée dans la logistique e-commerce pilotée par l'IA et la robotique, traite des millions de colis chaque mois en Turquie, au Royaume-Uni et en Allemagne pour des marques internationales et des marketplaces globales. Face à une fragmentation critique de ses données métier réparties entre HubSpot CRM, Microsoft Teams, Databricks et plusieurs autres systèmes indépendants, la société a développé une plateforme de business intelligence (BI) basée sur des agents IA déployés via Amazon Bedrock AgentCore. Concrètement, OPLOG a construit trois agents distincts à l'aide du Strands Agents SDK d'AWS, intégrés avec le modèle Claude Sonnet d'Anthropic et Amazon Bedrock Knowledge Bases pour la recherche par RAG. Les résultats mesurés sont nets : réduction de 35 % des cycles de vente, amélioration de 91 % de la complétude des données CRM, et réduction de 98 % du temps consacré à la recherche manuelle. L'impact opérationnel est significatif pour toute organisation B2B confrontée à des silos de données. Avant ce système, les équipes d'OPLOG passaient plusieurs heures par jour à extraire manuellement des rapports de systèmes disparates, à synthétiser l'information et à préparer des mises à jour. Les rapports hebdomadaires manquaient 60 % des opportunités commerciales, les deals ayant déjà évolué avant que l'analyse soit disponible. Désormais, trois agents autonomes prennent en charge ces tâches en temps réel : le Deal Analyzer Agent tourne selon un calendrier aligné sur l'activité commerciale et analyse les deals HubSpot récents pour vérifier leur conformité méthodologique, en remontant les résultats directement dans Microsoft Teams. Le Sales Coach Agent réagit aux webhooks HubSpot lorsqu'un deal change de stade, valide les champs requis selon le modèle commercial (B2C, B2B, ou mixte), et crée automatiquement des tâches pour les données manquantes. Un troisième agent, dont le détail n'est pas entièrement publié, complète le dispositif côté recherche de prospects. Ce déploiement s'inscrit dans une tendance de fond : les grandes plateformes cloud cherchent à faire des agents IA le nouveau standard de l'automatisation d'entreprise. Amazon Bedrock AgentCore, l'environnement d'exécution managé d'AWS pour agents IA, vise à simplifier ce type d'architecture en éliminant la gestion d'infrastructure tout en offrant scalabilité et traçabilité. Le choix de Claude Sonnet (Anthropic) comme moteur de raisonnement positionne AWS dans une logique de multi-partenariat avec les principaux labs IA. Pour des entreprises comme OPLOG, dont la croissance rapide dépasse les capacités des outils BI traditionnels, cette approche par agents spécialisés et indépendants offre une voie pragmatique vers l'automatisation sans refonte complète du système d'information.

UEOPLOG, présent en Allemagne et au Royaume-Uni, illustre une architecture d'agents IA applicable aux entreprises logistiques et B2B européennes pour automatiser leur BI et réduire les silos de données.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour