Aller au contenu principal
Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore
OutilsAWS ML Blog2sem· 2 min de lecture

Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore

Source originale ↗·

Baz, une startup spécialisée dans l'automatisation des revues de code, a développé un agent IA capable de vérifier non seulement la qualité technique du code, mais aussi sa conformité aux spécifications produit et aux maquettes de design. Baptisé Spec Review Agent, ce système repose sur Amazon Bedrock et Amazon Bedrock AgentCore, les services d'IA managés d'AWS. Concrètement, l'agent s'active automatiquement à l'ouverture d'une pull request GitHub, interroge simultanément Figma pour récupérer les spécifications visuelles et Jira pour les exigences fonctionnelles, puis décompose l'ensemble en critères vérifiables. Il spawne ensuite des sous-agents parallèles, un par exigence, qui analysent le code source et interagissent avec l'environnement de prévisualisation via l'outil AgentCore Browser Tool, capable d'inspecter le DOM, de simuler des interactions utilisateur et de comparer visuellement l'interface rendue avec les maquettes Figma.

L'enjeu est considérable pour les équipes de développement modernes. Jusqu'ici, la vérification qu'une fonctionnalité correspondait réellement à ce que le product owner avait demandé ou que le designer avait conçu reposait entièrement sur des tests manuels effectués par des équipes QA. Ces vérifications prenaient des heures, introduisaient des incohérences d'une release à l'autre et s'appuyaient sur une connaissance interne non documentée et donc fragile. En automatisant cette couche de validation, Baz cherche à supprimer le délai systématique entre la livraison du code et la détection des écarts, réduisant ainsi les régressions et accélérant les cycles de mise en production. Pour les équipes engineering qui travaillent à haute vélocité, c'est potentiellement une transformation profonde du workflow de review, qui passe d'une vérification de syntaxe à une validation de comportement réel.

Ce projet s'inscrit dans une tendance plus large d'industrialisation des agents IA dans le cycle de développement logiciel, après l'émergence des assistants de génération de code comme GitHub Copilot. Amazon Bedrock AgentCore, lancé récemment par AWS, propose des primitives spécifiquement conçues pour l'orchestration d'agents multi-étapes en production, incluant la navigation web autonome, la gestion de la mémoire et l'exécution de code dans des environnements isolés. Baz exploite ces capacités pour bâtir une infrastructure d'orchestration déployée sur Amazon EKS, avec un Application Load Balancer en entrée. La prochaine étape logique pour ce type de système sera d'étendre la couverture au-delà des critères d'acceptation Jira et des maquettes Figma, vers des dimensions comme la performance ou l'accessibilité, transformant progressivement la revue de code en audit produit complet piloté par l'IA.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA
1AWS ML Blog 

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA

AWS a déployé en interne un assistant conversationnel baptisé Field Advisor, construit sur Amazon Bedrock AgentCore, pour résoudre un problème concret apparu dans ses propres équipes commerciales mondiales : la prolifération d'agents IA spécialisés sans coordination centrale. L'organisation AWS Sales utilisait plus de 20 agents distincts couvrant la gestion CRM, la planification de réunions, les recommandations produits, les analyses clients et les vérifications de conformité. Les représentants commerciaux devaient eux-mêmes choisir quel agent invoquer selon la tâche, gérer les changements de contexte entre systèmes fragmentés et assembler manuellement les résultats, une charge cognitive qui réduisait d'autant le temps passé avec les clients. Field Advisor agit comme une couche d'orchestration centrale : les commerciaux posent leurs questions en langage naturel, et le système route automatiquement les requêtes vers l'agent ou l'outil approprié, maintient le contexte conversationnel entre les interactions et livre une réponse unifiée via une interface unique. L'impact est concret pour les équipes de vente : Field Advisor s'intègre directement dans les outils déjà utilisés au quotidien, systèmes CRM, Slack, applications internes, évitant toute rupture de flux de travail. Le système inclut des mécanismes de validation humaine pour les opérations sensibles : avant de modifier des données CRM, il présente les changements proposés et attend une approbation explicite, ce qui préserve la fiabilité des données et la responsabilité des commerciaux. La mémoire persistante, combinant historique de session à court terme et mémoire sémantique à long terme, permet aux représentants de reprendre une conversation là où elle s'était arrêtée sans avoir à répéter le contexte à chaque interaction. L'ensemble de ces fonctionnalités réduit la charge opérationnelle et libère du temps pour les échanges à valeur ajoutée avec les clients. Ce projet illustre un défi structurel qui émerge dans de nombreuses grandes entreprises à mesure que l'adoption des agents IA s'accélère : la multiplication d'agents spécialisés crée paradoxalement une nouvelle complexité si aucune orchestration ne les unifie. AWS a choisi Bedrock AgentCore précisément pour ses capacités natives à l'échelle enterprise, environnements d'exécution isolés pour les opérations multi-locataires sécurisées, passerelle unifiée pour les outils et agents répartis sur plusieurs comptes AWS, propagation d'identité cohérente via OAuth et observabilité intégrée sur les flux complexes. En s'appuyant sur une infrastructure clé en main plutôt que sur du développement sur mesure, l'équipe d'ingénierie a pu concentrer ses efforts sur la logique métier plutôt que sur les fondations techniques. Field Advisor représente ainsi autant un cas d'usage commercial qu'une démonstration de la viabilité d'AgentCore comme substrat pour des déploiements agentiques en production à grande échelle.

OutilsOutil
1 source
Amazon Lex améliore la précision des bots grâce au NLU assisté
2AWS ML Blog 

Amazon Lex améliore la précision des bots grâce au NLU assisté

Amazon a enrichi son service de création de chatbots Amazon Lex avec une fonctionnalité baptisée Assisted NLU (Natural Language Understanding), qui intègre des grands modèles de langage pour améliorer significativement la compréhension des requêtes utilisateurs. Concrètement, le système atteint en moyenne 92 % de précision dans la classification des intentions et 84 % dans la résolution des paramètres de conversation (les "slots"). Parmi les centaines de clients déjà déployés sur cette fonctionnalité, les retours terrain font état d'une amélioration de 11 à 15 % de la classification des intentions, d'une réduction de 23,5 % des réponses de type "je n'ai pas compris", et d'une meilleure gestion de 30 % des entrées ambiguës ou mal formulées. La fonctionnalité est disponible en deux modes : un mode primaire où le LLM traite chaque entrée utilisateur, et un mode de secours où il n'intervient que lorsque le système traditionnel est en faible confiance. Elle est incluse sans surcoût dans la tarification standard d'Amazon Lex. L'enjeu est de taille pour toutes les entreprises qui déploient des assistants conversationnels en production. Les systèmes classiques basés sur des règles imposaient aux développeurs de configurer manuellement des dizaines de variantes pour chaque formulation possible, sans jamais couvrir l'exhaustivité du langage naturel. Un bot de réservation hôtelière entraîné sur "réserver une chambre" échouait dès qu'un client disait "j'aimerais prendre une suite pour mon séjour à Seattle du 15 au 18 décembre", perdant au passage le type de chambre, la ville et les dates. Avec Assisted NLU, ces requêtes complexes ou ambiguës sont gérées sans configuration supplémentaire, ce qui réduit directement le taux d'abandon des conversations et allège la charge de maintenance pour les équipes techniques. Amazon Lex existe depuis 2017, initialement comme le moteur NLU d'Alexa adapté aux développeurs tiers. La montée en puissance des LLMs a créé une pression sur tous les fournisseurs de plateformes conversationnelles pour intégrer ces modèles dans leurs pipelines. L'approche hybride retenue ici, combiner le ML traditionnel avec un LLM en mode fallback ou primaire, reflète une tendance de fond dans l'industrie : ne pas remplacer les anciens systèmes d'un coup, mais les augmenter progressivement pour amortir la transition. Plusieurs clients pilotes auraient déjà annoncé un déploiement plus large après leurs tests initiaux. La prochaine étape pour les équipes produit sera probablement d'affiner la façon dont les descriptions d'intentions et de slots alimentent le LLM, car c'est là que se joue désormais l'essentiel de la qualité de compréhension.

UELes entreprises européennes déployant des chatbots en production peuvent bénéficier de cette amélioration de précision sans surcoût, réduisant directement les coûts de maintenance de leurs systèmes conversationnels.

OutilsOutil
1 source
Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables
3AWS ML Blog 

Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables

Amazon a lancé AgentCore Evaluations, un service entièrement géré intégré à Amazon Bedrock, conçu pour mesurer la performance des agents d'IA tout au long de leur cycle de développement. Le problème que ce service cherche à résoudre est bien documenté dans l'industrie : un agent fonctionne parfaitement en démo, convainc les parties prenantes lors des tests, puis échoue en production face à de vrais utilisateurs. Les symptômes sont prévisibles — mauvais appels d'outils, réponses incohérentes, comportements imprévus — mais leur détection systématique exige une infrastructure que la plupart des équipes n'ont pas. AgentCore Evaluations propose un cycle continu : construction de cas de tests, exécution sur l'agent, notation automatisée, analyse des échecs et amélioration itérative. Chaque échec devient automatiquement un nouveau cas de test, ce qui permet de fermer progressivement l'écart entre le comportement attendu et le comportement réel. L'enjeu est structurel : les grands modèles de langage sont non-déterministes. Une même requête peut produire des sélections d'outils différentes, des raisonnements distincts et des réponses variées d'un run à l'autre. Un seul passage de test ne dit pas ce qui se passe habituellement — il dit seulement ce qui peut arriver. Pour obtenir une image fiable du comportement d'un agent, il faut répéter chaque scénario plusieurs fois et agréger les résultats. Sans cela, chaque modification de prompt devient un pari : les équipes ignorent si leurs changements améliorent ou dégradent les performances, et brûlent des crédits API sans visibilité réelle. AgentCore Evaluations adresse précisément cette incertitude en fournissant des métriques de qualité sur plusieurs dimensions — exactitude des sélections d'outils, validité des paramètres, précision des réponses finales — pour le développement comme pour la production. Ce lancement s'inscrit dans une tendance plus large : la maturité des agents d'IA dépasse désormais la phase d'expérimentation et entre dans celle de l'ingénierie de fiabilité. Construire l'infrastructure d'évaluation en interne — curation de datasets, hébergement de modèles de scoring, gestion des limites de débit, pipelines de transformation des traces, tableaux de bord — représente un coût fixe considérable que les équipes multiplient pour chaque agent déployé. Amazon positionne AgentCore Evaluations comme la réponse cloud à ce problème, en absorbant cette complexité dans un service managé. La concurrence est vive : des outils comme LangSmith, Braintrust ou PromptFoo couvrent des besoins similaires, mais l'intégration native dans l'écosystème Bedrock donne à AWS un avantage naturel pour les entreprises déjà engagées sur sa plateforme. La prochaine étape logique sera de voir si le service s'étend aux agents multi-modaux et aux architectures multi-agents, deux domaines où l'évaluation reste un problème ouvert.

UELes équipes européennes développant des agents IA sur Amazon Bedrock peuvent adopter ce service managé pour remplacer une infrastructure d'évaluation coûteuse à construire en interne.

OutilsOutil
1 source
Amazon Bedrock Data Automation : améliorer la précision de l'extraction de plans
4AWS ML Blog 

Amazon Bedrock Data Automation : améliorer la précision de l'extraction de plans

Amazon Web Services a enrichi son service Amazon Bedrock Data Automation (BDA) d'une fonctionnalité appelée "blueprint instruction optimization", conçue pour améliorer automatiquement la précision d'extraction de données structurées à partir de documents non structurés, factures, contrats, formulaires fiscaux ou dossiers d'inscription. Le principe repose sur des blueprints, des schémas personnalisables qui définissent les champs à extraire (numéro de commande, montant total, date, demandes spéciales) accompagnés d'instructions en langage naturel guidant le modèle. Jusqu'ici, lorsqu'un champ était mal extrait, les équipes devaient affiner manuellement ces instructions en boucle. Désormais, il suffit de fournir entre trois et dix documents d'exemple avec les valeurs attendues : BDA analyse les écarts entre ses résultats et la vérité terrain, puis reformule automatiquement les instructions de chaque champ en quelques minutes. Aucun fine-tuning de modèle séparé n'est nécessaire. L'impact est direct pour les équipes en charge de l'automatisation documentaire dans les entreprises. Traiter des documents provenant de centaines de fournisseurs différents posait un problème structurel : les libellés varient ("subtotal" vs "total"), les mises en page changent selon les périodes ou les partenaires, et la qualité des scans dégrade encore la reconnaissance. Ce cycle d'itération manuelle pouvait prendre plusieurs semaines par type de document. Avec cette optimisation automatisée, ce délai tombe à quelques minutes, ce qui réduit considérablement le coût de mise en production de pipelines de traitement intelligent de documents (IDP). Les organisations qui gèrent de grands volumes documentaires, assureurs, cabinets comptables, services achats, sont les premières bénéficiaires. Cette annonce s'inscrit dans la stratégie d'AWS visant à rendre l'automatisation documentaire accessible sans expertise en machine learning. Amazon Bedrock Data Automation, lancé pour unifier classification, extraction, normalisation et validation via une seule API, fait face à une concurrence croissante d'acteurs spécialisés comme Google Document AI ou Microsoft Azure Form Recognizer, ainsi que de solutions fondées sur des modèles de vision généralistes. En supprimant la nécessité de fine-tuner un modèle tout en automatisant le travail d'ingénierie des prompts, AWS réduit la barrière d'entrée pour les équipes métier. La prochaine étape logique serait d'étendre cette optimisation à des flux documentaires plus complexes impliquant plusieurs types de documents interconnectés, un enjeu central pour des secteurs comme la finance ou la santé.

UELes entreprises françaises et européennes gérant de grands volumes documentaires (assureurs, cabinets comptables, services achats) peuvent réduire leurs délais de mise en production de pipelines d'extraction documentaire de plusieurs semaines à quelques minutes, sans expertise en machine learning.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic