OutilsAWS ML Blog6sem· 2 min de lecture

Amazon Bedrock : mise en oeuvre des appels d'outils par programmation

Amazon Bedrock propose désormais une approche appelée "Programmatic Tool Calling" (PTC), qui change fondamentalement la manière dont les grands modèles de langage interagissent avec des outils externes. Dans le schéma traditionnel, chaque appel d'outil nécessite un aller-retour complet vers le modèle : celui-ci formule un appel, reçoit le résultat, raisonne, formule le suivant, et ainsi de suite. Avec le PTC, le modèle n'est sollicité qu'une seule fois pour générer un bloc de code Python qui orchestre l'ensemble des appels d'outils. Ce code s'exécute dans un environnement bac à sable isolé, peut enchaîner des appels en parallèle grâce à asyncio, filtrer et agréger les données, et ne renvoie au modèle que le résultat final traité. Amazon Bedrock offre trois chemins d'implémentation : un sandbox Docker auto-hébergé sur ECS pour un contrôle maximal, une solution gérée via Amazon Bedrock AgentCore Code Interpreter, et un proxy compatible avec le SDK Anthropic pour les équipes habituées à cette interface.

L'impact concret de cette approche est considérable en termes de latence, de coût et de précision. Prenons un exemple typique : "Quels membres de l'équipe ingénierie ont dépassé leur budget de déplacements au T3 ?" En mode traditionnel, le modèle effectuerait d'abord un appel pour obtenir la liste des 20 membres, puis 20 appels individuels pour récupérer leurs notes de frais, soit au moins 20 cycles d'inférence complets et plus de 2 000 lignes de données dans la fenêtre de contexte. Avec le PTC, un seul cycle d'inférence génère le code qui récupère tout en parallèle, filtre les dépenses de voyage approuvées, compare aux budgets individuels, et retourne uniquement la liste des personnes concernées. Les économies de tokens et de temps sont proportionnelles à la complexité du workflow.

Ce paradigme émerge dans un contexte où les agents IA sont de plus en plus utilisés pour des tâches analytiques complexes, et où les coûts d'inférence restent un frein réel au déploiement à grande échelle. Le PTC n'est pas une innovation propre à AWS : le pattern sous-jacent, générer du code exécutable plutôt que d'orchestrer des appels séquentiels, est indépendant du fournisseur et commence à se diffuser chez plusieurs acteurs. Anthropic l'intègre déjà dans son propre SDK. Les cas d'usage privilégiés incluent le traitement de grands volumes de données, les calculs numériques précis, l'orchestration de processus multi-étapes, et les scénarios où la confidentialité des données brutes impose de ne pas les faire transiter par le contexte du modèle. La prochaine étape probable est la standardisation de ce pattern dans les frameworks d'agents comme LangChain ou LlamaIndex.

Impact France/UE

Les développeurs européens utilisant Amazon Bedrock peuvent adopter cette approche pour réduire leurs coûts d'inférence et la latence de leurs agents IA analytiques.

Dans nos dossiers

AWS Anthropic Agents IA

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1AWS ML Blog

Amazon Bedrock AgentCore Observability : déboguer les agents en production

Amazon vient de détailler le fonctionnement d'AgentCore Observability, un outil intégré à sa plateforme Bedrock destiné à déboguer les agents d'intelligence artificielle en production. Contrairement aux applications traditionnelles qui génèrent des erreurs explicites, les agents IA échouent souvent en silence : ils peuvent retourner des réponses plausibles mais incorrectes, entrer dans des boucles de raisonnement infinies, ou sélectionner de mauvais outils sans déclencher la moindre alerte. AgentCore Observability répond à ce problème en exposant trois couches d'instrumentation : des métriques agrégées, des traces d'exécution pas à pas, et des journaux structurés. L'outil permet de suivre chaque étape de raisonnement de l'agent, d'inspecter les appels d'outils, et de localiser précisément où l'exécution dévie des attentes, même en l'absence d'erreur explicite. Le service s'appuie sur Amazon CloudWatch et nécessite l'activation de la fonctionnalité CloudWatch Transaction Search. L'enjeu est considérable pour les équipes qui déploient des agents en production : jusqu'ici, un monitoring classique pouvait afficher 100 % de succès d'exécution pendant que les utilisateurs recevaient de fausses informations. AWS identifie trois grandes familles de défaillances. Les problèmes de qualité regroupent les hallucinations, les erreurs factuelles, et les erreurs de raisonnement : un agent peut citer des politiques inexistantes ou répéter un calcul erroné. Dans les architectures multi-agents, ces erreurs se propagent en cascade lorsque la sortie d'un agent alimente l'entrée d'un autre. Les problèmes de fiabilité couvrent les échecs d'appels d'outils (erreurs 401, 403, 400), les pertes de contexte de session, et les workflows incomplets. Enfin, les problèmes d'efficacité affectent les coûts et les performances sans nécessairement compromettre l'exactitude : latence excessive, consommation de tokens gonflée par des réponses trop verbeuses ou des appels d'outils répétés faute de mise en cache. Ce lancement s'inscrit dans la course que mènent les grands fournisseurs cloud pour rendre les agents IA opérationnellement viables en entreprise. AWS, Microsoft Azure et Google Cloud investissent massivement dans des couches d'observabilité spécifiques aux LLMs, un segment qui n'existait pas il y a deux ans. La complexité croissante des architectures agentiques, où plusieurs modèles coopèrent et s'enchaînent, rend l'observabilité traditionnelle insuffisante. AgentCore Observability est présenté comme une première partie d'une série en deux volets : une seconde publication couvrira l'optimisation des performances et la gestion de la mémoire. La direction prise par AWS suggère que l'outillage autour des agents autonomes va devenir un différenciateur clé des plateformes cloud dans les prochains mois.

UELes entreprises européennes déployant des agents IA sur AWS Bedrock peuvent adopter immédiatement cet outil pour détecter les défaillances silencieuses en production, un manque opérationnel réel pour les équipes MLOps.

OutilsOutil

1 source

2AWS ML Blog

Amazon Bedrock AgentCore Evaluations : construire des agents IA fiables

Amazon a lancé AgentCore Evaluations, un service entièrement géré intégré à Amazon Bedrock, conçu pour mesurer la performance des agents d'IA tout au long de leur cycle de développement. Le problème que ce service cherche à résoudre est bien documenté dans l'industrie : un agent fonctionne parfaitement en démo, convainc les parties prenantes lors des tests, puis échoue en production face à de vrais utilisateurs. Les symptômes sont prévisibles — mauvais appels d'outils, réponses incohérentes, comportements imprévus — mais leur détection systématique exige une infrastructure que la plupart des équipes n'ont pas. AgentCore Evaluations propose un cycle continu : construction de cas de tests, exécution sur l'agent, notation automatisée, analyse des échecs et amélioration itérative. Chaque échec devient automatiquement un nouveau cas de test, ce qui permet de fermer progressivement l'écart entre le comportement attendu et le comportement réel. L'enjeu est structurel : les grands modèles de langage sont non-déterministes. Une même requête peut produire des sélections d'outils différentes, des raisonnements distincts et des réponses variées d'un run à l'autre. Un seul passage de test ne dit pas ce qui se passe habituellement — il dit seulement ce qui peut arriver. Pour obtenir une image fiable du comportement d'un agent, il faut répéter chaque scénario plusieurs fois et agréger les résultats. Sans cela, chaque modification de prompt devient un pari : les équipes ignorent si leurs changements améliorent ou dégradent les performances, et brûlent des crédits API sans visibilité réelle. AgentCore Evaluations adresse précisément cette incertitude en fournissant des métriques de qualité sur plusieurs dimensions — exactitude des sélections d'outils, validité des paramètres, précision des réponses finales — pour le développement comme pour la production. Ce lancement s'inscrit dans une tendance plus large : la maturité des agents d'IA dépasse désormais la phase d'expérimentation et entre dans celle de l'ingénierie de fiabilité. Construire l'infrastructure d'évaluation en interne — curation de datasets, hébergement de modèles de scoring, gestion des limites de débit, pipelines de transformation des traces, tableaux de bord — représente un coût fixe considérable que les équipes multiplient pour chaque agent déployé. Amazon positionne AgentCore Evaluations comme la réponse cloud à ce problème, en absorbant cette complexité dans un service managé. La concurrence est vive : des outils comme LangSmith, Braintrust ou PromptFoo couvrent des besoins similaires, mais l'intégration native dans l'écosystème Bedrock donne à AWS un avantage naturel pour les entreprises déjà engagées sur sa plateforme. La prochaine étape logique sera de voir si le service s'étend aux agents multi-modaux et aux architectures multi-agents, deux domaines où l'évaluation reste un problème ouvert.

UELes équipes européennes développant des agents IA sur Amazon Bedrock peuvent adopter ce service managé pour remplacer une infrastructure d'évaluation coûteuse à construire en interne.

OutilsOutil

1 source

3AWS ML Blog

Génération SQL à partir de texte : une approche économique avec Amazon Nova Micro et Bedrock

Amazon Web Services propose une nouvelle approche pour déployer des modèles de langage spécialisés dans la génération de requêtes SQL à partir du langage naturel, en combinant l'optimisation LoRA (Low-Rank Adaptation) avec l'inférence serverless d'Amazon Bedrock. Le modèle ciblé est Amazon Nova Micro, un modèle fondation léger disponible sur Bedrock. La solution a été testée sur un volume de 22 000 requêtes mensuelles pour un coût de seulement 0,80 dollar par mois, contre des dépenses bien supérieures avec une infrastructure hébergée en permanence. Deux chemins d'implémentation distincts sont proposés : l'un via la personnalisation gérée d'Amazon Bedrock, l'autre via des jobs d'entraînement Amazon SageMaker AI pour un contrôle plus fin des hyperparamètres. Les deux options convergent vers le même pipeline de déploiement sur Bedrock en inférence à la demande. Le jeu de données utilisé pour la démonstration est sql-create-context, une combinaison des datasets WikiSQL et Spider comprenant plus de 78 000 exemples de questions en langage naturel associées à des requêtes SQL de complexité variable. L'enjeu principal est économique : les modèles fine-tunés nécessitent traditionnellement une infrastructure dédiée tournant en continu, même en l'absence de trafic, ce qui génère des coûts fixes importants. Le modèle pay-per-token d'Amazon Bedrock élimine ce gaspillage en ne facturant que les tokens réellement traités. Pour les entreprises avec des dialectes SQL maison ou des schémas métier très spécifiques, cette combinaison rend accessible la personnalisation des LLMs sans engager de budget infrastructure significatif. Les équipes techniques gagnent également en simplicité opérationnelle : pas de gestion de serveurs, pas de scaling manuel, pas de surveillance d'infrastructure GPU. La génération SQL par IA est un cas d'usage critique en entreprise, car elle permet à des utilisateurs non-techniques d'interroger des bases de données en langage naturel. Les modèles généralistes gèrent bien le SQL standard, mais échouent sur les dialectes propriétaires ou les schémas complexes propres à chaque organisation. Le fine-tuning résout ce problème, mais introduisait jusqu'ici un compromis coûteux. AWS positionne ici Bedrock comme une infrastructure mutualisée capable d'héberger des adaptateurs LoRA à la demande, une approche qui pourrait devenir un standard pour les déploiements d'IA spécialisée à faible volume. La maturité croissante des outils de personnalisation cloud laisse entrevoir une généralisation de ce modèle économique à d'autres tâches NLP d'entreprise.

UELes entreprises européennes hébergées sur AWS peuvent adopter cette architecture serverless pour réduire leurs coûts de déploiement de modèles SQL spécialisés, Bedrock étant disponible dans les régions EU.

OutilsOutil

1 source

4AWS ML Blog

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA

AWS a déployé en interne un assistant conversationnel baptisé Field Advisor, construit sur Amazon Bedrock AgentCore, pour résoudre un problème concret apparu dans ses propres équipes commerciales mondiales : la prolifération d'agents IA spécialisés sans coordination centrale. L'organisation AWS Sales utilisait plus de 20 agents distincts couvrant la gestion CRM, la planification de réunions, les recommandations produits, les analyses clients et les vérifications de conformité. Les représentants commerciaux devaient eux-mêmes choisir quel agent invoquer selon la tâche, gérer les changements de contexte entre systèmes fragmentés et assembler manuellement les résultats, une charge cognitive qui réduisait d'autant le temps passé avec les clients. Field Advisor agit comme une couche d'orchestration centrale : les commerciaux posent leurs questions en langage naturel, et le système route automatiquement les requêtes vers l'agent ou l'outil approprié, maintient le contexte conversationnel entre les interactions et livre une réponse unifiée via une interface unique. L'impact est concret pour les équipes de vente : Field Advisor s'intègre directement dans les outils déjà utilisés au quotidien, systèmes CRM, Slack, applications internes, évitant toute rupture de flux de travail. Le système inclut des mécanismes de validation humaine pour les opérations sensibles : avant de modifier des données CRM, il présente les changements proposés et attend une approbation explicite, ce qui préserve la fiabilité des données et la responsabilité des commerciaux. La mémoire persistante, combinant historique de session à court terme et mémoire sémantique à long terme, permet aux représentants de reprendre une conversation là où elle s'était arrêtée sans avoir à répéter le contexte à chaque interaction. L'ensemble de ces fonctionnalités réduit la charge opérationnelle et libère du temps pour les échanges à valeur ajoutée avec les clients. Ce projet illustre un défi structurel qui émerge dans de nombreuses grandes entreprises à mesure que l'adoption des agents IA s'accélère : la multiplication d'agents spécialisés crée paradoxalement une nouvelle complexité si aucune orchestration ne les unifie. AWS a choisi Bedrock AgentCore précisément pour ses capacités natives à l'échelle enterprise, environnements d'exécution isolés pour les opérations multi-locataires sécurisées, passerelle unifiée pour les outils et agents répartis sur plusieurs comptes AWS, propagation d'identité cohérente via OAuth et observabilité intégrée sur les flux complexes. En s'appuyant sur une infrastructure clé en main plutôt que sur du développement sur mesure, l'équipe d'ingénierie a pu concentrer ses efforts sur la logique métier plutôt que sur les fondations techniques. Field Advisor représente ainsi autant un cas d'usage commercial qu'une démonstration de la viabilité d'AgentCore comme substrat pour des déploiements agentiques en production à grande échelle.

OutilsOutil

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic