Aller au contenu principal

Dossier AWS — page 6

559 articles · page 6 sur 12

Ce qu'on suit chez AWS côté IA : Bedrock et ses modèles, SageMaker, les puces Trainium et Inferentia, l'investissement dans Anthropic et l'offre cloud IA.

Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore
251AWS ML Blog OutilsOutil

Baz améliore la précision de la revue de code par agents IA grâce à Amazon Bedrock AgentCore

Baz, une startup spécialisée dans l'automatisation des revues de code, a développé un agent IA capable de vérifier non seulement la qualité technique du code, mais aussi sa conformité aux spécifications produit et aux maquettes de design. Baptisé Spec Review Agent, ce système repose sur Amazon Bedrock et Amazon Bedrock AgentCore, les services d'IA managés d'AWS. Concrètement, l'agent s'active automatiquement à l'ouverture d'une pull request GitHub, interroge simultanément Figma pour récupérer les spécifications visuelles et Jira pour les exigences fonctionnelles, puis décompose l'ensemble en critères vérifiables. Il spawne ensuite des sous-agents parallèles, un par exigence, qui analysent le code source et interagissent avec l'environnement de prévisualisation via l'outil AgentCore Browser Tool, capable d'inspecter le DOM, de simuler des interactions utilisateur et de comparer visuellement l'interface rendue avec les maquettes Figma. L'enjeu est considérable pour les équipes de développement modernes. Jusqu'ici, la vérification qu'une fonctionnalité correspondait réellement à ce que le product owner avait demandé ou que le designer avait conçu reposait entièrement sur des tests manuels effectués par des équipes QA. Ces vérifications prenaient des heures, introduisaient des incohérences d'une release à l'autre et s'appuyaient sur une connaissance interne non documentée et donc fragile. En automatisant cette couche de validation, Baz cherche à supprimer le délai systématique entre la livraison du code et la détection des écarts, réduisant ainsi les régressions et accélérant les cycles de mise en production. Pour les équipes engineering qui travaillent à haute vélocité, c'est potentiellement une transformation profonde du workflow de review, qui passe d'une vérification de syntaxe à une validation de comportement réel. Ce projet s'inscrit dans une tendance plus large d'industrialisation des agents IA dans le cycle de développement logiciel, après l'émergence des assistants de génération de code comme GitHub Copilot. Amazon Bedrock AgentCore, lancé récemment par AWS, propose des primitives spécifiquement conçues pour l'orchestration d'agents multi-étapes en production, incluant la navigation web autonome, la gestion de la mémoire et l'exécution de code dans des environnements isolés. Baz exploite ces capacités pour bâtir une infrastructure d'orchestration déployée sur Amazon EKS, avec un Application Load Balancer en entrée. La prochaine étape logique pour ce type de système sera d'étendre la couverture au-delà des critères d'acceptation Jira et des maquettes Figma, vers des dimensions comme la performance ou l'accessibilité, transformant progressivement la revue de code en audit produit complet piloté par l'IA.

1 source
Faciliter l'accès externe à Amazon SageMaker MLflow via un proxy REST API
252AWS ML Blog 

Faciliter l'accès externe à Amazon SageMaker MLflow via un proxy REST API

Amazon Web Services a publié un guide technique expliquant comment construire un service proxy Flask sécurisé pour accéder à Amazon SageMaker MLflow via HTTPS, sans recourir directement au SDK MLflow. Ce tutoriel s'adresse aux équipes de machine learning dont les entreprises imposent des politiques de sécurité strictes, des restrictions réseau, ou des contraintes liées aux systèmes hérités qui rendent l'utilisation directe du SDK impossible. L'architecture proposée s'articule autour de trois composants : un Application Load Balancer (ALB) d'AWS qui gère le routage du trafic entrant, un service proxy Python/Flask qui intercepte et transforme les requêtes HTTPS, et Amazon SageMaker MLflow lui-même, disponible en deux modes de déploiement distincts, soit un serveur de suivi géré (MLflow Tracking Server), soit une application serverless (MLflowApp). Le proxy prend en charge l'authentification AWS IAM, la pré-signature des URLs et la transformation des requêtes avant de les acheminer vers SageMaker. L'intérêt concret de cette solution réside dans sa capacité à réconcilier deux réalités souvent incompatibles dans les grandes organisations : les exigences de sécurité établies et l'adoption des services cloud natifs. De nombreuses entreprises en pleine transformation cloud se retrouvent bloquées face à une incompatibilité entre leurs workflows ML existants et les nouvelles infrastructures AWS, faute de pouvoir modifier leurs politiques réseau ou de sécurité. Ce proxy offre une réponse pragmatique : les systèmes métiers continuent d'envoyer des requêtes HTTPS standard, tandis que le proxy se charge de les signer avec les identifiants IAM avant de les relayer de manière sécurisée vers SageMaker MLflow. Le résultat est une intégration qui préserve la conformité sans imposer de refonte des outils existants. MLflow est devenu un standard de facto pour la gestion du cycle de vie des modèles de machine learning, permettant de tracer les expériences, versionner les modèles et piloter les déploiements. Amazon l'a intégré à SageMaker pour offrir une version managée aux équipes déjà sur son cloud, mais cette intégration supposait jusqu'ici l'utilisation du SDK Python, un prérequis bloquant dans de nombreux contextes d'entreprise. Ce guide illustre une tendance plus large dans l'ingénierie ML en entreprise : la nécessité de bâtir des couches d'adaptation pour connecter les outils modernes aux infrastructures existantes. En s'appuyant sur Flask, un framework Python minimaliste et largement maîtrisé, ainsi que sur les mécanismes d'authentification AWS standard, la solution proposée reste à faible complexité technique, réutilisable et évolutive, réduisant la friction lors des migrations cloud sans sacrifier la sécurité.

InfrastructureTuto
1 source
Amazon Bedrock AgentCore : créer des agents IA pour le support métier
253AWS ML Blog 

Amazon Bedrock AgentCore : créer des agents IA pour le support métier

Works Human Intelligence (WHI), éditeur japonais du système RH intégré "COMPANY" utilisé par de grandes entreprises et organismes publics nippons, a collaboré avec le AWS Generative AI Innovation Center (GenAIIC) pour développer deux agents d'IA reposant sur Amazon Bedrock AgentCore. Le premier, le Commuting Allowance Agent, automatise la validation des demandes d'indemnités de transport lors d'événements comme les déménagements d'employés. Le second, le Browser Operation Agent, accède au système "COMPANY" au nom des clients pour vérifier des contenus, effectuer des opérations et collecter des preuves. Le résultat le plus marquant de cette collaboration est une réduction des coûts allant jusqu'à 97 %, combinée à une amélioration mesurable de l'efficacité opérationnelle des équipes support. Pour les départements RH de grandes organisations, la gestion quotidienne d'un système comme "COMPANY" génère un volume considérable de tâches répétitives : changements organisationnels, révisions des politiques salariales, mises à jour d'informations employés. L'automatisation via des agents d'IA permet de décharger les équipes opérationnelles de ces traitements routiniers, libérant du temps pour des missions à plus forte valeur ajoutée. La réduction de 97 % des coûts illustre concrètement ce que peut apporter une architecture bien conçue : WHI auto-hébergeait auparavant Langfuse pour surveiller ses agents, ce qui entraînait des coûts d'exploitation récurrents. La migration vers AgentCore Observability a supprimé cette charge. Pour l'industrie RH, ce cas démontre qu'il est possible de déployer des agents multi-tenants fiables, avec authentification via Amazon Cognito et gestion des tenants par Amazon DynamoDB, sans infrastructure monolithique difficile à faire évoluer. WHI avait initialement lancé un proof of concept avec LangGraph, Amazon ECS et AWS Fargate, mais la mise en disponibilité générale d'Amazon Bedrock AgentCore en cours de projet a conduit l'équipe à repenser l'architecture. Plutôt que de maintenir un ECS task monolithique où tous les composants s'exécutaient en bloc, la nouvelle architecture décompose les sous-agents pour les faire tourner individuellement sur l'AgentCore Runtime, ce qui facilite leur évolution future indépendante. Slack a été intégré comme point d'entrée, avec une authentification déclenchée au moment de chaque appel. WHI envisage également de remplacer l'agent superviseur actuel par Strands Agents à terme. Ce projet illustre une tendance croissante : les éditeurs de logiciels métier cherchent à enrichir leurs solutions avec des couches d'IA agentique en s'appuyant sur des services cloud managés pour absorber la complexité opérationnelle, plutôt que de maintenir leur propre outillage d'orchestration.

OutilsOutil
1 source
Amazon Bedrock AgentCore au service des stratégies de vente par agents IA
254AWS ML Blog 

Amazon Bedrock AgentCore au service des stratégies de vente par agents IA

AWS a déployé en interne un assistant conversationnel baptisé Field Advisor, construit sur Amazon Bedrock AgentCore, pour résoudre un problème concret apparu dans ses propres équipes commerciales mondiales : la prolifération d'agents IA spécialisés sans coordination centrale. L'organisation AWS Sales utilisait plus de 20 agents distincts couvrant la gestion CRM, la planification de réunions, les recommandations produits, les analyses clients et les vérifications de conformité. Les représentants commerciaux devaient eux-mêmes choisir quel agent invoquer selon la tâche, gérer les changements de contexte entre systèmes fragmentés et assembler manuellement les résultats, une charge cognitive qui réduisait d'autant le temps passé avec les clients. Field Advisor agit comme une couche d'orchestration centrale : les commerciaux posent leurs questions en langage naturel, et le système route automatiquement les requêtes vers l'agent ou l'outil approprié, maintient le contexte conversationnel entre les interactions et livre une réponse unifiée via une interface unique. L'impact est concret pour les équipes de vente : Field Advisor s'intègre directement dans les outils déjà utilisés au quotidien, systèmes CRM, Slack, applications internes, évitant toute rupture de flux de travail. Le système inclut des mécanismes de validation humaine pour les opérations sensibles : avant de modifier des données CRM, il présente les changements proposés et attend une approbation explicite, ce qui préserve la fiabilité des données et la responsabilité des commerciaux. La mémoire persistante, combinant historique de session à court terme et mémoire sémantique à long terme, permet aux représentants de reprendre une conversation là où elle s'était arrêtée sans avoir à répéter le contexte à chaque interaction. L'ensemble de ces fonctionnalités réduit la charge opérationnelle et libère du temps pour les échanges à valeur ajoutée avec les clients. Ce projet illustre un défi structurel qui émerge dans de nombreuses grandes entreprises à mesure que l'adoption des agents IA s'accélère : la multiplication d'agents spécialisés crée paradoxalement une nouvelle complexité si aucune orchestration ne les unifie. AWS a choisi Bedrock AgentCore précisément pour ses capacités natives à l'échelle enterprise, environnements d'exécution isolés pour les opérations multi-locataires sécurisées, passerelle unifiée pour les outils et agents répartis sur plusieurs comptes AWS, propagation d'identité cohérente via OAuth et observabilité intégrée sur les flux complexes. En s'appuyant sur une infrastructure clé en main plutôt que sur du développement sur mesure, l'équipe d'ingénierie a pu concentrer ses efforts sur la logique métier plutôt que sur les fondations techniques. Field Advisor représente ainsi autant un cas d'usage commercial qu'une démonstration de la viabilité d'AgentCore comme substrat pour des déploiements agentiques en production à grande échelle.

OutilsOutil
1 source
Lauréats des Amazon Research Awards annoncés
255Amazon Science 

Lauréats des Amazon Research Awards annoncés

Amazon a annoncé les lauréats de son programme Amazon Research Awards (ARA) pour le cycle automne 2025, sélectionnant 68 chercheurs issus de 49 universités réparties dans 11 pays. Ces prix, qui consistent en financements non restreints et en crédits AWS, couvrent six domaines de recherche prioritaires : la sécurité de l'information par l'IA, l'IA agentique, le raisonnement automatisé, la cryptographie AWS, les technologies de cybersécurité et anti-abus, ainsi que la durabilité. Parmi les lauréats figurent des chercheurs de Virginia Tech, Texas A&M, Arizona State University, l'Université d'Édimbourg, la Carnegie Mellon University et l'USC, travaillant sur des sujets allant de la détection de menaces dans le cloud à la sécurisation des systèmes d'IA agentique. Les bénéficiaires accèdent à plus de 700 jeux de données publics d'Amazon et aux services AWS d'IA/ML via leurs crédits promotionnels, tout en bénéficiant d'un référent Amazon pour les conseiller. Ce programme illustre la montée en puissance des enjeux de sécurité liés à l'IA agentique, c'est-à-dire ces systèmes capables d'agir de façon autonome pour accomplir des tâches complexes. Comme le souligne Wei Ding, responsable de la science appliquée pour GuardDuty chez AWS, l'IA reconfigure la cybersécurité à une vitesse sans précédent, exigeant des garanties renforcées de robustesse et de fiabilité pour les agents autonomes. De leur côté, les recherches sur la lutte contre la fraude et les abus en ligne visent à augmenter les coûts opérationnels des acteurs malveillants, protégeant ainsi les consommateurs, les vendeurs et les plateformes de commerce en ligne à l'échelle de l'ensemble du Web. Lancé en 2020, l'ARA s'inscrit dans une stratégie plus large d'Amazon visant à tisser des liens étroits entre la recherche académique et les défis industriels réels. En favorisant la publication des résultats et la mise en open source des codes associés, Amazon cherche à produire des effets systémiques bien au-delà de ses propres infrastructures. L'engouement pour cet appel à projets, jugé exceptionnel en volume et en qualité selon les responsables du programme, témoigne d'une prise de conscience croissante dans la communauté scientifique face aux risques posés par l'IA agentique et les menaces cyber émergentes. Amazon continuera à lancer des appels à projets tout au long de l'année dans de nouveaux domaines, signalant que ces investissements en recherche fondamentale sont appelés à s'intensifier à mesure que l'IA s'intègre dans des systèmes critiques.

RechercheActu
1 source
Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore
256AWS ML Blog 

Créer des systèmes d'IA générative haute performance avec Strands Agents, NVIDIA NIM et Amazon Bedrock AgentCore

AWS a publié un guide technique détaillant comment construire des systèmes d'agents d'IA générative haute performance en combinant trois technologies complémentaires : Strands Agents, le framework multi-agents d'AWS ; NVIDIA NIM, une plateforme d'inférence accélérée par GPU disponible via build.nvidia.com ; et Amazon Bedrock AgentCore, l'environnement d'exécution managé d'Amazon. L'architecture proposée repose sur un système de trois agents spécialisés fonctionnant en parallèle : un agent d'analyse des personas qui évalue le contenu marketing selon différentes audiences et produit des scores de résonance, un agent de validation qui vérifie la conformité légale et de marque, et un agent agrégateur qui consolide les recommandations. Le tout s'articule autour d'un frontend React qui interroge les résultats de manière asynchrone au fur et à mesure que les agents rendent leurs verdicts. Cette combinaison répond à trois problèmes concrets qui freinent le passage des prototypes IA vers la production : la latence d'inférence sous forte charge, la perte de contexte entre les interactions dans les environnements sans état, et le manque de visibilité sur l'exécution des agents. NVIDIA NIM apporte l'accélération GPU via des technologies comme CUDA et TensorRT-LLM, en exposant des API compatibles OpenAI sans adaptation spécifique au modèle. Bedrock AgentCore prend en charge la persistance de la mémoire partagée entre agents, les mécanismes de checkpoint et de récupération sur erreur, ainsi que l'observabilité intégrée. Strands gère l'orchestration parallèle, le contrôle de flux et l'agrégation des résultats. L'ensemble se déploie sous forme de conteneur Docker dans AgentCore Runtime, éliminant la gestion d'infrastructure à mesure que la charge augmente. Le cas d'usage présenté, la revue automatisée de campagnes marketing, n'est qu'un point d'entrée : la même architecture s'applique aux assistants virtuels, aux pipelines RAG et à l'automatisation de processus de validation complexes. Ce guide s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour capter les workloads IA en production. AWS positionne Bedrock AgentCore comme la couche managée qui simplifie le déploiement d'agents à grande échelle, tandis que NVIDIA consolide sa présence dans la chaîne de valeur logicielle via NIM, bien au-delà de la simple vente de GPU. Strands Agents, framework open source lancé par AWS début 2025, cherche à s'imposer face à LangGraph ou AutoGen comme standard d'orchestration multi-agents. La multiplication de ces briques interopérables signale que les architectures agentiques entrent dans une phase d'industrialisation, où la fiabilité et l'observabilité comptent désormais autant que les capacités du modèle lui-même.

OutilsOutil
1 source
Construire une solution d'observabilité d'entreprise pour Amazon QuickSight
257AWS ML Blog 

Construire une solution d'observabilité d'entreprise pour Amazon QuickSight

Amazon Web Services propose une architecture de référence pour centraliser l'observabilité d'Amazon Q, sa plateforme d'IA générative d'entreprise. La solution, publiée par AWS, agrège les données opérationnelles issues de deux sources principales : les journaux CloudWatch Vended Logs, qui capturent les conversations, les retours utilisateurs, la consommation des agents et le stockage d'index, ainsi que les événements AWS CloudTrail, qui enregistrent toutes les actions effectuées par les utilisateurs et les services sur la plateforme. Ces données transitent via des filtres d'abonnement CloudWatch vers des flux Amazon Data Firehose, sont transformées par des fonctions AWS Lambda, puis stockées dans un data lake sécurisé sur Amazon S3. Le tout est chiffré au repos via une clé AWS KMS gérée par le client avec rotation automatique. Les équipes d'administration peuvent ensuite interroger ce lac de données avec Amazon Athena, visualiser les métriques dans un tableau de bord QuickSight, ou poser des questions en langage naturel à un agent conversationnel Amazon Q personnalisé. Le déploiement s'appuie sur AWS CDK et requiert Python 3.9 minimum, Node.js 20 et AWS CLI V2. Pour les organisations qui déploient Amazon Q à grande échelle, cette solution répond à un besoin concret : obtenir une vue unifiée de l'adoption, de la satisfaction des utilisateurs, des coûts et de la gouvernance depuis un seul tableau de bord. Sans cela, les données sont éparpillées entre plusieurs services AWS et deviennent rapidement inexploitables à l'échelle de centaines ou milliers d'utilisateurs. La protection des données sensibles est intégrée dès la collecte via des politiques de masquage dans CloudWatch, capables de détecter et anonymiser automatiquement des clés privées, informations financières, données personnelles ou de santé. AWS Lake Formation apporte en complément un contrôle fin des accès au niveau des tables et des colonnes. Amazon Q s'est imposé comme la réponse d'AWS au déploiement d'IA générative en entreprise, en intégrant dans un seul produit des espaces collaboratifs, des agents conversationnels, des flux automatisés, des outils de recherche et des capacités de business intelligence via QuickSight. Mais la croissance de ces déploiements a mis en évidence un angle mort : l'absence d'outil natif pour piloter l'usage à l'échelle. Cette architecture d'observabilité comble ce manque en s'appuyant entièrement sur des services AWS managés, sans infrastructure supplémentaire à maintenir. Elle s'inscrit dans une tendance plus large où les plateformes d'IA d'entreprise doivent désormais justifier leur ROI avec des métriques d'usage précises, répondre aux exigences d'audit réglementaire, et permettre aux directions métier de piloter les investissements IA en temps réel.

OutilsActu
1 source
Créer des agents d'automatisation de tableaux de bord propulsés par l'IA avec le NLP sur Amazon Bedrock AgentCore
258AWS ML Blog 

Créer des agents d'automatisation de tableaux de bord propulsés par l'IA avec le NLP sur Amazon Bedrock AgentCore

Amazon Web Services a dévoilé une solution d'automatisation de tableaux de bord basée sur l'intelligence artificielle, combinant trois de ses services : Amazon Bedrock AgentCore, le framework Strands Agents et Amazon QuickSight. L'architecture repose sur un système multi-agents composé de trois entités spécialisées : un agent de découverte (Find Dashboard Agent) chargé d'explorer les tableaux de bord et leurs métadonnées, un agent de modification (Modify Dashboard Agent) qui exécute les changements de configuration et crée de nouvelles versions, et un agent orchestrateur qui route les requêtes en langage naturel vers les agents appropriés. Concrètement, un analyste peut saisir une instruction comme "Ajoute le champ 'lastname' au tableau de bord testing" et le système interprète, valide et déploie la modification de façon autonome, tout en conservant une version originale pour permettre un retour arrière si nécessaire. L'enjeu est significatif pour les équipes métier : là où les processus traditionnels imposent plusieurs jours d'attente, soumission d'une demande à l'IT, interprétation des besoins, navigation dans la documentation d'API, déploiement, cette approche réduit le délai à quelques secondes. Le modèle de langage Amazon Nova assure la classification des requêtes entre interactions conversationnelles simples et opérations techniques réelles. Les modifications sont validées contre les colonnes disponibles dans les datasets avant exécution, ce qui maintient les contrôles de sécurité et génère des pistes d'audit. Pour les entreprises dont les décisions dépendent de données fraîches et de visualisations actualisées, supprimer ce goulot d'étranglement entre l'expression d'un besoin et sa concrétisation dans un dashboard représente un gain opérationnel direct. Cette solution s'inscrit dans la dynamique plus large d'AWS de rendre Amazon Bedrock AgentCore accessible comme plateforme d'hébergement d'agents en production, sans gestion d'infrastructure. La mémoire de session intégrée (AgentCore Memory) maintient le contexte des conversations, tandis que le module d'observabilité enregistre les décisions des agents et trace les appels API, deux composantes critiques pour déployer des agents autonomes dans des environnements d'entreprise régulés. Le framework Strands Agents, orienté code-first avec intégration native aux services AWS, positionne AWS face à des concurrents comme LangChain ou AutoGen sur le terrain des orchestrateurs d'agents. La prochaine étape logique pour ce type de système serait d'étendre la couverture au-delà de QuickSight vers d'autres services de données, voire de permettre aux agents de proposer eux-mêmes des modifications pertinentes en détectant des anomalies dans les métriques surveillées.

UELes équipes analytiques européennes utilisant des services de BI cloud pourraient réduire leurs délais de modification de tableaux de bord de plusieurs jours à quelques secondes, sans impact réglementaire direct sur la France ou l'UE.

OutilsOutil
1 source
Étendre la mémoire conversationnelle de Kiro CLI avec Amazon Bedrock AgentCore Memory
259AWS ML Blog 

Étendre la mémoire conversationnelle de Kiro CLI avec Amazon Bedrock AgentCore Memory

Amazon Web Services a présenté une solution pour doter Kiro CLI d'une mémoire conversationnelle persistante entre les sessions, en s'appuyant sur Amazon Bedrock AgentCore Memory. Kiro CLI est l'interface en ligne de commande qui permet aux développeurs d'interagir directement depuis leur terminal avec les agents IA de Kiro, l'IDE agentique d'AWS. Le problème résolu est concret : chaque nouvelle session repart de zéro, forçant le développeur à réexpliquer le contexte de son projet, ses préférences et ses conventions à chaque démarrage. La solution repose sur un serveur MCP (Model Context Protocol) personnalisé, open source et disponible sur GitHub, qui fait le pont entre Kiro CLI et le service managé Bedrock AgentCore Memory. Ce serveur expose trois catégories d'outils : des outils conversationnels pour stocker et retrouver l'historique par sujet ou période, des outils de supervision pour consulter les statistiques d'utilisation mémoire, et des outils d'administration pour supprimer des sessions ou des données ciblées. La récupération du contexte repose sur une stratégie à deux niveaux : une recherche sémantique via l'API retrievememoryrecords d'AgentCore Memory, avec repli automatique sur une correspondance directe dans les contenus bruts si le premier niveau n'a pas encore terminé son indexation. L'impact pour les équipes de développement travaillant sur des bases de code volumineuses est direct. Un développeur qui revient sur un projet après plusieurs jours n'a plus besoin de réexpliquer l'architecture, les contraintes métier ou ses préférences de style à l'agent IA : celui-ci retrouve automatiquement les sessions précédentes, identifiables par des formulations naturelles comme "hier soir" ou "la semaine dernière". Cette continuité de contexte réduit la friction cognitive et le temps perdu en répétition, deux freins majeurs à l'adoption productive des outils IA dans les workflows de développement au quotidien. Amazon Bedrock AgentCore Memory est un service entièrement managé lancé par AWS pour répondre à un besoin croissant dans l'écosystème des agents IA : la persistance de la mémoire à long terme. Jusqu'ici, les agents IA des IDEs et des outils de développement souffraient d'une amnésie structurelle entre les sessions, limitant leur utilité réelle sur des projets complexes et de longue durée. Le Model Context Protocol, standardisé par Anthropic, est devenu le mécanisme central d'extensibilité pour les agents IA, permettant à des services tiers d'exposer des capacités via une interface unifiée. AWS positionne ainsi AgentCore Memory comme une brique d'infrastructure réutilisable pour tout éditeur souhaitant ajouter de la mémoire à ses propres agents MCP-compatibles. La mise à disposition du code source en exemple sur GitHub signale une volonté d'adoption large, au-delà de Kiro, vers l'ensemble des clients AWS qui construisent des outils agentiques sur Bedrock.

OutilsOutil
1 source
Des évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore
260AWS ML Blog 

Des évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore

Amazon a lancé les évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore Evaluations, une fonctionnalité permettant aux équipes de développement d'intégrer des fonctions AWS Lambda comme moteur d'évaluation pour leurs agents IA. Contrairement aux juges LLM classiques, ces évaluateurs produisent des résultats déterministes : le même input donne toujours le même score. Ils peuvent être utilisés en mode on-demand, comme porte de validation dans les pipelines CI/CD, ou en mode online pour scorer du trafic de production en temps réel. L'annonce a été portée par une équipe pluridisciplinaire incluant Stephanie Yuan, Lefan Zhang, Ritvika Pillai, Vivek Singh et plusieurs ingénieurs et chefs de produit d'AWS. Pour les entreprises des secteurs financiers et spécialisés, cette capacité répond à des exigences concrètes que les LLM-as-a-Judge ne couvrent pas bien. Un agent de veille de marchés financiers doit citer des cours boursiers dans une fourchette de tolérance configurable, respecter un workflow d'identification du courtier avant d'accéder aux profils clients, retourner des sorties d'outils conformes à un schéma JSON strict, et ne jamais exposer d'informations personnelles identifiables. Un LLM est sujet à des erreurs arithmétiques, peut coûter cher à chaque appel, et ne convient pas à la vérification de règles objectives. Un évaluateur en code appelle directement le système de référence, calcule l'écart de tolérance, et signale chaque anomalie avec une précision que même un écart de 0,1 % peut déclencher, un seuil qui peut influencer une décision de trading. Le lancement s'inscrit dans un problème plus large que rencontre l'industrie : la transition des agents IA du prototype vers la production. Un agent fonctionnel en démo peut, en conditions réelles, produire des données mal formées suite à un bug de parsing ou une panne d'API tierce, divulguer des données confidentielles par inadvertance, ou ne pas respecter l'ordre des appels d'outils requis par une politique interne. Amazon propose désormais quatre dimensions d'évaluation adaptées au code : la validation de schéma des réponses d'outils, la précision numérique par rapport à une source de référence, la conformité au contrat de workflow, et la détection de PII ou de secrets via des services externes comme Amazon Comprehend. Ces évaluateurs peuvent être combinés avec les évaluateurs intégrés d'AgentCore et fonctionnent indépendamment du framework agent utilisé en production. L'enjeu est de donner aux équipes un filet de sécurité déterministe là où les capacités linguistiques des LLM atteignent leurs limites.

OutilsOutil
1 source
Automatiser la génération de schémas pour le traitement intelligent de documents
261AWS ML Blog 

Automatiser la génération de schémas pour le traitement intelligent de documents

Amazon Web Services vient d'enrichir son IDP Accelerator, solution open-source et serverless dédiée au traitement automatisé de documents, d'une nouvelle fonctionnalité baptisée "multi-document discovery". Jusqu'ici, exploiter le traitement intelligent de documents (IDP) exigeait de constituer manuellement un schéma de configuration pour chaque type de document à analyser : définir les classes, identifier des exemples représentatifs, spécifier les champs à extraire. Une contrainte rédhibitoire dès lors qu'une organisation se retrouve avec des milliers de documents non étiquetés et aucune visibilité sur les catégories qui les composent. La nouvelle fonctionnalité répond directement à ce problème : elle analyse une collection de documents inconnus, les regroupe automatiquement par type, puis génère les schémas de configuration prêts à l'emploi. Le pipeline repose sur AWS Step Functions pour l'orchestration, AWS Lambda pour le calcul serverless, Amazon S3 pour le stockage, et les modèles disponibles via Amazon Bedrock pour la génération des schémas, dont le modèle d'embeddings Cohere Embed v4 utilisé par défaut. L'intérêt opérationnel est considérable pour les équipes qui traitent des volumes documentaires hétérogènes. Là où le module Discovery existant nécessitait de connaître ses classes de documents à l'avance et de fournir un exemple par classe, la nouvelle approche supprime ce prérequis. Le système génère d'abord un embedding visuel pour chaque document, en se basant sur la première page uniquement pour les documents multi-pages, puis utilise le score de silhouette pour déterminer automatiquement le nombre de clusters pertinents. Un agent construit avec Strands Agents et un LLM Bedrock analyse ensuite chaque cluster pour identifier le type de document et produire un schéma. Une étape de "réflexion" finale compare l'ensemble des schémas générés pour détecter les chevauchements et incohérences avant validation humaine. Cette approche réduit drastiquement le travail préparatoire qui, à grande échelle, pouvait représenter des semaines de labelling manuel. Le choix des embeddings visuels plutôt que textuels, via OCR, est une décision technique délibérée : la mise en page, le formatage et la structure visuelle d'un document permettent de distinguer des types documentaires même lorsque leur contenu textuel se ressemble. Ce positionnement s'inscrit dans la stratégie plus large d'AWS de faire de Bedrock un socle central pour les workflows d'IA en entreprise, en y adossant des briques comme Strands Agents pour la partie agentique. La solution reste open-source, disponible sur GitHub, ce qui permet aux équipes de l'adapter à leurs propres collections. L'enjeu sous-jacent est de rendre accessibles les initiatives IDP à des organisations qui ne disposent pas des ressources pour classifier manuellement leur patrimoine documentaire avant même de commencer à en extraire de la valeur.

OutilsOutil
1 source
JBS Dev : données imparfaites et le dernier kilomètre de l'IA, de la performance des modèles à la viabilité des coûts
262AI News 

JBS Dev : données imparfaites et le dernier kilomètre de l'IA, de la performance des modèles à la viabilité des coûts

Joe Rose, président de JBS Dev, un fournisseur de technologies stratégiques, remet en question l'un des mythes les plus répandus autour de l'IA générative : celui selon lequel les données doivent être parfaites avant de lancer tout projet d'IA. Lors de sa participation à l'AI & Big Data Expo, Rose a détaillé comment les outils actuels permettent de travailler efficacement avec des données imparfaites, en donnant l'exemple concret d'un client dans le secteur médical. L'objectif était de migrer vers un nouveau système de réconciliation de facturation, avec des dossiers hétérogènes : certains en PDF, d'autres sous forme d'images scannées, des noms de médecins mal placés dans les champs patients, des procédures mal catégorisées. L'IA générative a permis d'extraire les données exploitables via OCR et extraction de texte, puis des approches plus agentiques ont pris le relais, comme la comparaison automatique entre un dossier patient et un contrat d'assurance pour vérifier que la facturation était correcte. Le niveau d'automatisation est ainsi passé de 20 % à 40 %, puis 60 %, puis 80 %, avec un humain dans la boucle pour traiter les cas limites. Ce changement de paradigme a des implications concrètes pour les entreprises qui hésitent à se lancer dans des projets d'IA par peur d'un patrimoine data insuffisant. Rose souligne que les conseils des éditeurs et consultants, qui recommandent des lacs de données massifs et des programmes de transformation pluriannuels, servent avant tout leurs propres intérêts commerciaux. En pratique, un LLM est capable de comprendre une instruction à moitié rédigée, ce qui rend ces systèmes étonnamment robustes face à la qualité variable des données. La vraie rupture culturelle est ailleurs : les équipes IT doivent abandonner le réflexe "on construit, ça tourne, on oublie", car les systèmes agentiques nécessitent une supervision continue et une montée en automatisation progressive. Les prochains enjeux du secteur ne seront pas dans la course aux capacités des modèles, estime Rose, mais dans leur soutenabilité économique et leur portabilité. La question centrale devient : comment faire tourner ces modèles sur un laptop ou un smartphone plutôt que dans des data centers que l'on construit à un rythme difficilement tenable ? Rose va plus loin avec une prise de position tranchée : les entreprises devraient arrêter d'acheter des solutions SaaS pour des cas d'usage IA qu'elles peuvent implémenter elles-mêmes. Les outils cloud des trois grands fournisseurs (AWS, Azure, Google Cloud) suffisent pour démarrer des workloads agentiques dès demain, sans nouvelles licences ni formations spécifiques. Une position qui tranche avec les discours dominants de l'écosystème, et qui reflète une maturité croissante du marché face aux promesses de l'IA d'entreprise.

OutilsOpinion
1 source
Miro utilise Amazon Bedrock pour améliorer le routage des bugs logiciels et réduire le délai de résolution de plusieurs jours à quelques heures
263AWS ML Blog 

Miro utilise Amazon Bedrock pour améliorer le routage des bugs logiciels et réduire le délai de résolution de plusieurs jours à quelques heures

Miro, la plateforme de collaboration visuelle utilisée par plus de 95 millions d'utilisateurs dans le monde, a développé un système d'intelligence artificielle baptisé BugManager pour automatiser le tri et l'affectation des rapports de bugs à ses équipes d'ingénierie. Avant cette solution, une part significative des bugs manquait les délais internes de résolution, principalement à cause d'erreurs d'affectation et de multiples réassignations entre équipes. L'entreprise estimait ces dysfonctionnements à 42 années cumulées de productivité perdue chaque année. BugManager a été développé en partenariat avec l'équipe AWS Prototyping and Cloud Engineering (PACE) et s'appuie sur Amazon Bedrock, Amazon Nova Pro et Claude Sonnet 4 d'Anthropic. Le résultat est saisissant : six fois moins de réassignations entre équipes, et un temps de résolution réduit de plusieurs jours à quelques heures. L'impact est d'abord opérationnel : les développeurs passent moins de temps à gérer des tickets mal orientés et peuvent se concentrer sur la résolution réelle des problèmes. Pour une organisation comptant près de 100 équipes, chacune responsable d'une portion spécifique du produit, un mauvais routage engendre des investigations redondantes, de la frustration, et des retards visibles pour les utilisateurs finaux. En passant d'une logique de classification traditionnelle à une approche basée sur la génération augmentée par récupération (RAG), Miro s'affranchit également de la nécessité de réentraîner ses modèles à chaque réorganisation interne, ce qui représente un gain stratégique considérable dans un environnement où les équipes fusionnent, se créent ou évoluent régulièrement. Les approches précédentes de Miro reposaient sur des modèles fine-tunés comme BERT ou GPT, qui se dégradaient rapidement dès que la structure organisationnelle changeait, faute de données d'entraînement suffisantes pour les nouvelles configurations. BugManager adopte une architecture radicalement différente : lorsqu'un bug est soumis, le système commence par analyser les éléments non textuels (captures d'écran, enregistrements vidéo) via les capacités multimodales d'Amazon Nova Pro, puis enrichit le rapport via des bases de connaissances contenant des tickets Jira déjà résolus, des pull requests GitHub, de la documentation Confluence et des fichiers README. Claude Sonnet 4, via Amazon Bedrock, synthétise ensuite ces informations pour affecter le bug à l'équipe la plus pertinente, sans nécessiter aucun réentraînement. Cette approche "zero-training" représente une tendance de fond dans l'industrie : déléguer la classification complexe à des grands modèles de langage enrichis de contexte métier, plutôt que de maintenir des pipelines d'entraînement coûteux et fragiles.

UELe modèle architectural RAG sans réentraînement décrit constitue une référence concrète applicable par les équipes d'ingénierie françaises et européennes cherchant à automatiser leur gestion de tickets sans pipeline ML coûteux.

OutilsOutil
1 source
Amazon Quick : accélérer le chemin des données d'entreprise vers les décisions assistées par IA
264AWS ML Blog 

Amazon Quick : accélérer le chemin des données d'entreprise vers les décisions assistées par IA

Amazon vient d'annoncer cinq nouvelles fonctionnalités pour Amazon Quick, sa plateforme d'analyse de données propulsée par l'IA, pensées pour les grandes entreprises qui gèrent des dizaines de millions de lignes de données réparties sur de multiples domaines métier. La fonctionnalité phare, Dataset Q&A, permet à n'importe quel utilisateur de poser une question en langage naturel directement sur ses datasets et d'obtenir une réponse en quelques secondes, sans passer par un analyste ni attendre la création d'un tableau de bord sur mesure. Le système génère automatiquement du SQL, l'exécute sur l'intégralité des données sans échantillonnage, et renvoie un résultat chiffré accompagné d'une explication complète de la logique utilisée : requête SQL générée, filtres appliqués, hypothèses formulées, et résumé en langage courant pour les non-techniciens. Le programme AWS Technical Field Communities a déjà mis cette approche en pratique : la précision des requêtes a progressé de plus de 48 %, et le temps de résolution est passé de 90 minutes à moins de 5 minutes pour une communauté de plus de 15 000 membres. Ce que change Amazon Quick, c'est l'élimination du goulet d'étranglement humain qui ralentit habituellement la prise de décision en entreprise. Lorsqu'un dirigeant veut savoir comment évolue le taux de désabonnement d'un produit, la réponse nécessite aujourd'hui soit un tableau de bord préexistant, soit une requête manuelle par un analyste, soit l'attente d'un ticket résolu en heures, voire en jours. En rendant l'accès aux données aussi direct que poser une question, Amazon Quick réduit ce délai à quelques secondes tout en préservant la gouvernance : les politiques de sécurité au niveau des lignes et des colonnes déjà configurées s'appliquent automatiquement aux requêtes générées par l'IA, sans configuration supplémentaire. L'utilisateur ne voit que ce qu'il est autorisé à voir, peu importe la formulation de sa question. Amazon Quick s'inscrit dans une tendance de fond qui voit les grands fournisseurs cloud chercher à démocratiser l'accès aux données d'entreprise via des interfaces conversationnelles. Face à des concurrents comme Microsoft Fabric avec Copilot ou Google Looker Studio, Amazon mise sur la fiabilité et l'auditabilité des réponses, deux points critiques pour les grandes organisations soumises à des exigences réglementaires strictes. Le défi technique central n'est pas la génération de SQL, mais la résolution des ambiguïtés sémantiques : quand un utilisateur parle de "croissance", entend-il des transactions, des clients, du revenu ou des unités vendues ? La fonctionnalité d'enrichissement sémantique permet aux équipes data de codifier les définitions métier directement dans les métadonnées des datasets, afin que l'IA réponde selon le vocabulaire réel de l'organisation plutôt qu'une interprétation approximative des noms de colonnes.

OutilsOutil
1 source
Halliburton améliore la création de workflows sismiques avec Amazon Bedrock et l'IA générative
265AWS ML Blog 

Halliburton améliore la création de workflows sismiques avec Amazon Bedrock et l'IA générative

Halliburton, l'un des plus grands groupes de services pétroliers au monde, a développé en partenariat avec l'AWS Generative AI Innovation Center un assistant intelligent intégré à son logiciel Seismic Engine, une application cloud dédiée au traitement des données sismiques. Concrètement, la configuration d'un workflow de traitement nécessitait jusqu'ici la sélection et le paramétrage manuel d'environ 100 outils spécialisés, un processus long et exigeant une expertise pointue. Désormais, les géoscientifiques et data scientists peuvent décrire leurs besoins en langage naturel, et le système génère automatiquement les workflows exécutables correspondants. La solution repose sur Amazon Bedrock, Amazon Bedrock Knowledge Bases, le modèle Amazon Nova et Amazon DynamoDB. Techniquement, une application FastAPI déployée sur AWS App Runner reçoit les requêtes utilisateurs via une interface en streaming ; un routeur d'intention alimenté par Amazon Nova Lite détermine si la demande concerne la génération d'un workflow ou une question documentaire, puis redirige vers l'agent approprié. Pour la création de workflows, le modèle Claude d'Anthropic, accessible via Amazon Bedrock, sélectionne parmi 82 outils disponibles et produit des fichiers YAML directement exploitables. Les résultats du proof-of-concept font état d'une accélération allant jusqu'à 95 % du temps de création des workflows. Cet outil change fondamentalement le rapport des ingénieurs à un logiciel jusqu'ici réservé aux experts maîtrisant des dizaines de paramètres techniques. En rendant Seismic Engine accessible via une conversation, Halliburton élargit le cercle des utilisateurs capables de configurer des traitements sismiques complexes sans formation approfondie sur chaque outil. Pour l'industrie pétrolière et gazière, où l'interprétation des données de subsurface conditionne directement les décisions d'exploration et les investissements en milliards de dollars, réduire d'un ordre de grandeur le temps consacré à ces tâches représente un gain opérationnel considérable. La gestion du contexte conversationnel via DynamoDB permet en outre des échanges multi-tours, rendant possible l'ajustement itératif des workflows sans repartir de zéro à chaque interaction. Cette initiative s'inscrit dans un mouvement plus large d'adoption de l'IA générative dans les industries à forte intensité de données techniques, où les workflows complexes freinent depuis longtemps la productivité. Halliburton, qui opère dans plus de 70 pays, dispose d'une base d'utilisateurs pour laquelle chaque gain de temps sur l'analyse sismique se traduit directement en avantage concurrentiel. Le choix d'AWS comme partenaire reflète la domination du cloud américain dans les déploiements d'IA en entreprise, Amazon Bedrock servant de couche d'abstraction pour accéder à plusieurs modèles fondateurs, dont ceux d'Anthropic. La prochaine étape probable est le passage de ce proof-of-concept à une intégration production dans la suite Landmark DS365, potentiellement étendue à d'autres modules d'analyse de subsurface.

OutilsOutil
1 source
Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI
266AWS ML Blog 

Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI

Amazon Web Services publie une approche technique pour améliorer l'entraînement des grands modèles de langage via le renforcement à récompenses vérifiables, connue sous l'acronyme RLVR (Reinforcement Learning with Verifiable Rewards), déployée sur sa plateforme SageMaker AI. La méthode combine RLVR avec un algorithme d'optimisation appelé GRPO (Group Relative Policy Optimization) et des exemples dits "few-shot" pour affiner la précision des modèles sur des tâches où la réponse correcte est objectivement mesurable. Pour illustrer l'approche, AWS s'appuie sur le jeu de données GSM8K (Grade School Math 8K), une collection de problèmes mathématiques de niveau primaire, qui sert de terrain d'entraînement et d'évaluation. L'ensemble du pipeline est implémenté et documenté pour fonctionner directement sur SageMaker AI, l'infrastructure cloud d'entraînement de modèles d'Amazon. L'enjeu central est celui du "reward hacking", un phénomène bien connu dans l'entraînement par renforcement traditionnel : les modèles apprennent à maximiser leur score sans réellement accomplir la tâche souhaitée, en exploitant des failles dans la définition de la récompense. RLVR contourne ce problème en remplaçant les évaluations humaines, coûteuses et subjectives, par des fonctions de récompense programmatiques et reproductibles, le modèle est noté automatiquement selon des règles précises, sans ambiguïté. GRPO complète ce dispositif en organisant les données d'entraînement en groupes et en optimisant les performances de chaque groupe indépendamment, ce qui réduit la variance d'entraînement, accélère la convergence et produit des modèles plus homogènes sur des catégories variées. Ajoutés à cela, les exemples few-shot servent de modèles de référence qui réduisent l'espace de recherche pendant l'exploration du modèle, lui montrant concrètement à quoi ressemble une bonne réponse. L'approche s'inscrit dans une tendance de fond qui voit l'industrie chercher à réduire la dépendance au feedback humain dans l'entraînement des LLM, un processus long, coûteux et difficile à scaler. Des travaux récents comme DeepSeek-R1 ou les modèles de raisonnement d'OpenAI ont popularisé l'idée que des récompenses vérifiables permettent d'atteindre des niveaux de performance élevés sur des tâches structurées, notamment en mathématiques et en génération de code. AWS positionne SageMaker AI comme une plateforme clé pour que les équipes d'ingénierie puissent reproduire et adapter ces techniques sans repartir de zéro. L'approche est présentée comme généraliste : si le cas d'usage retenu est le calcul mathématique, la combinaison RLVR-GRPO peut s'appliquer à toute tâche disposant de critères de succès objectifs et mesurables, ouvrant la voie à des applications en vérification de code, en manipulation symbolique ou dans tout domaine où la vérité terrain est déterministe.

LLMsTuto
1 source
MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative
267AWS ML Blog 

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative

Amazon Web Services a annoncé le support de MLflow version 3.10 sur Amazon SageMaker AI MLflow Apps, son service géré de suivi d'expériences machine learning. Cette mise à jour apporte des améliorations ciblées autour de l'observabilité, de l'évaluation et du développement d'applications d'IA générative. Parmi les nouveautés phares figure une API dédiée à l'évaluation, mlflow.genai.evaluation(), qui mesure automatiquement la qualité des modèles selon des critères de pertinence, de fidélité, d'exactitude et de sécurité. MLflow 3.10 introduit également un traçage amélioré pour les workflows multi-tours complexes, une intégration plus étroite avec les principaux frameworks LLM, ainsi que des tableaux de bord de performance préconfigurés affichant la distribution des latences, le nombre de requêtes, les scores de qualité et la consommation de tokens. Ces améliorations ont un impact direct pour les équipes de data scientists et d'ingénieurs ML qui développent des applications d'IA générative en production. L'API d'évaluation permet de mesurer et maintenir la qualité des modèles de manière systématique tout au long du cycle de développement, depuis l'expérimentation jusqu'au déploiement. Les tableaux de bord intégrés éliminent le besoin de configuration manuelle des graphiques, offrant une visibilité immédiate sur les coûts opérationnels et les performances des charges de travail. La notion de "workspaces" MLflow, introduite dans cette version, permet aux équipes d'organiser leurs artefacts et expériences de façon structurée à l'échelle de projets et de départements entiers, ce qui répond à un besoin croissant de gouvernance dans les organisations qui industrialisent leurs déploiements de modèles. MLflow est un framework open source lancé par Databricks en 2018, devenu une référence pour le suivi d'expériences et la gestion du cycle de vie des modèles ML. La version 3.0, publiée précédemment, avait posé les bases du traçage et de l'observabilité pour l'IA générative ; la 3.10 consolide et étend ces fondations en réponse à la montée en puissance des architectures agentiques et des workflows LLM complexes. AWS positionne SageMaker AI comme une infrastructure de niveau entreprise pour l'IA générative, en intégrant MLflow directement dans SageMaker Studio, accessible via la console AWS, l'AWS CLI ou son API. La configuration par défaut provisionne automatiquement MLflow 3.10 avec un rôle IAM et un bucket S3 préconfigurés, abaissant significativement le seuil d'adoption pour les équipes qui souhaitent passer de l'expérimentation à la production sans infrastructure supplémentaire à gérer.

OutilsOutil
1 source
Amazon QuickSight va plus loin que la BI classique avec sa fonction Questions-Réponses sur les données
268AWS ML Blog 

Amazon QuickSight va plus loin que la BI classique avec sa fonction Questions-Réponses sur les données

Amazon a dévoilé une fonctionnalité appelée Dataset Q&A, intégrée à son outil de business intelligence Amazon QuickSight, qui permet aux équipes d'interroger leurs données en langage naturel sans avoir à construire de nouveaux tableaux de bord. Concrètement, un responsable peut poser une question complexe directement dans une interface de chat et obtenir une réponse précise en quelques secondes, en s'appuyant sur les jeux de données existants. Pour illustrer le potentiel de cette technologie, AWS a développé en interne un agent analytique baptisé TARA (Technical Analysis Research Agent), conçu par l'équipe Specialist Data Lens. TARA connecte plusieurs ensembles de données intégrés, des API système en temps réel et des agents de recherche spécialisés via le protocole MCP, le tout au travers d'une interface conversationnelle unifiée. Le programme AWS Technical Field Communities, qui gère des centaines de milliers d'engagements clients par an dans des dizaines de domaines technologiques, utilise déjà TARA pour piloter ses opérations au quotidien. L'enjeu est considérable pour toute organisation qui dépend de la donnée pour prendre des décisions rapides. Avant l'arrivée de ce type d'outil, une question d'un dirigeant se transformait en interruption pour un ingénieur BI : ce dernier suspendait ses travaux planifiés, construisait l'agrégation demandée, renvoyait une réponse qui générait inévitablement de nouvelles questions. Le vrai coût n'était pas dans l'exécution de la requête, mais dans le délai de transmission entre celui qui pose la question et celui qui dispose des outils pour y répondre. Avec Dataset Q&A, ce goulot d'étranglement disparaît : les équipes explorent librement des dimensions multiples sans file d'attente, sans perturber les tableaux de bord opérationnels dont dépendent leurs collègues. Par ailleurs, TARA gère la protection des données personnelles (PII) de manière native, permettant de faire remonter du contexte qualitatif sensible de façon sécurisée, ce qui était jusqu'ici un obstacle majeur à l'analyse conversationnelle en entreprise. Cette évolution s'inscrit dans une tendance de fond : les outils de BI traditionnels, pensés pour répondre à des questions connues à l'avance, montrent leurs limites face à la complexité croissante des opérations à grande échelle. AWS n'est pas seul sur ce terrain. Microsoft, Google et des acteurs spécialisés comme ThoughtSpot ou Databricks investissent massivement dans des interfaces en langage naturel pour démocratiser l'accès à la donnée. Ce qui distingue l'approche d'Amazon est l'intégration native dans QuickSight, déjà largement déployé chez les entreprises clientes du cloud AWS, et la possibilité de connecter des sources hétérogènes via MCP. TARA reste pour l'instant un outil interne à AWS, mais les capacités Dataset Q&A sur lesquelles il repose sont disponibles pour tous les clients QuickSight, ouvrant la voie à des déploiements similaires dans d'autres secteurs.

UELes entreprises européennes clientes d'Amazon QuickSight peuvent adopter dès maintenant cette fonctionnalité d'interrogation en langage naturel, réduisant leur dépendance aux équipes BI pour l'analyse ad hoc.

OutilsOutil
1 source
AgentCore : optimisation de la qualité des agents, désormais en préversion
269AWS ML Blog 

AgentCore : optimisation de la qualité des agents, désormais en préversion

Amazon a annoncé ce 5 mai 2026 l'intégration de nouvelles capacités d'optimisation automatique dans AgentCore, sa plateforme de déploiement d'agents IA, désormais disponibles en préversion. Ces fonctionnalités couvrent trois mécanismes complémentaires : les Recommandations, l'évaluation par lots (batch evaluation) et les tests A/B. Le moteur de recommandations analyse les traces de production et les résultats d'évaluation pour proposer des améliorations concrètes des prompts système ou des descriptions d'outils, en ciblant un critère de performance défini par le développeur. L'évaluation par lots permet ensuite de valider ces suggestions sur un jeu de données de test prédéfini, en mesurant des scores agrégés pour détecter d'éventuelles régressions. Enfin, les tests A/B comparent deux versions d'un agent en production via AgentCore Gateway, en répartissant le trafic réel selon un pourcentage configurable et en restituant les résultats avec intervalles de confiance et significativité statistique. L'ensemble s'appuie sur un système de traçabilité OpenTelemetry géré par AgentCore Observability, qui capture chaque appel au modèle, chaque invocation d'outil et chaque étape de raisonnement. Ces nouvelles capacités répondent à un problème structurel bien connu des équipes IA en production : la dégradation silencieuse des agents au fil du temps. Lorsque les modèles évoluent, les comportements utilisateurs changent, ou les prompts sont réutilisés dans des contextes imprévus, la qualité baisse sans signal d'alerte clair. Jusqu'ici, le cycle de correction restait entièrement manuel : un utilisateur se plaint, un développeur lit des traces, formule une hypothèse, réécrit le prompt, teste quelques cas et pousse un correctif qui peut en créer un autre. AgentCore ferme cette boucle en remplaçant l'intuition du développeur par des données systématiques, avec un signal de récompense configurable : taux de succès des objectifs, précision de sélection des outils, pertinence, sécurité. Yoshiharu Okuda, directeur de la stratégie IA générative chez NTT DATA, a confirmé que des processus qui nécessitaient auparavant plusieurs semaines de réglage manuel se transforment désormais en cycles rapides et reproductibles. AgentCore est la plateforme d'Amazon Web Services pour construire, connecter et optimiser des agents IA à grande échelle, avec des milliers de développeurs déjà actifs. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud pour proposer des outils d'opérationnalisation des agents, au-delà de la simple inférence. Google Vertex AI, Microsoft Azure AI et AWS se disputent les équipes qui passent de la phase expérimentale à la production à grande échelle, là où la maintenance de la qualité devient un défi d'ingénierie à part entière. En automatisant la boucle observer-évaluer-améliorer, AWS positionne AgentCore comme une infrastructure de fond pour les organisations qui ne peuvent pas se permettre des équipes dédiées à l'optimisation manuelle de prompts sur des cycles hebdomadaires, alors que leurs agents dérivent chaque jour en production.

OutilsActu
1 source
Du data lake à l'analyse compatible IA : nouvelle source de données avec S3 Tables dans Amazon QuickSight
270AWS ML Blog 

Du data lake à l'analyse compatible IA : nouvelle source de données avec S3 Tables dans Amazon QuickSight

Amazon a annoncé l'intégration des S3 Tables au format Apache Iceberg comme nouvelle source de données dans Amazon QuickSight, son service d'analyse et de business intelligence piloté par l'IA. Cette mise à jour permet aux entreprises de requêter directement des tables Iceberg stockées dans un S3 table bucket, sans passer par des couches intermédiaires comme un entrepôt de données ou un système OLAP. QuickSight supporte désormais deux modes d'interrogation pour ces tables : Direct Query, qui offre un accès en quasi-temps réel aux données, et SPICE (Super-fast, Parallel, In-memory Calculation Engine), son moteur de calcul en mémoire haute performance. Pour illustrer le cas d'usage, Amazon cite l'exemple d'AnyCompany Corp., une institution financière mondiale qui ingère des transactions en temps réel via Amazon Kinesis Data Streams et Amazon Data Firehose vers un S3 table bucket, permettant une détection de fraude et un suivi des taux d'approbation quasi instantanés depuis des sources hétérogènes : terminaux de paiement, applications mobiles, objets connectés et passerelles en ligne. Cet ajout représente une avancée concrète pour les équipes data et analytique des grandes entreprises. Jusqu'ici, analyser des données à grande échelle stockées dans un data lake nécessitait généralement de les déplacer vers un entrepôt de données ou un système OLAP, ce qui introduisait de la latence, des coûts supplémentaires et une complexité opérationnelle importante. En permettant de requêter directement le data lake depuis QuickSight, Amazon élimine ces pipelines de transformation coûteux. Les utilisateurs métiers peuvent ainsi explorer des jeux de données massifs, interagir en langage naturel et obtenir des visualisations à jour sans dépendre de processus batch ni nécessiter d'expertise en machine learning. La scalabilité constitue un autre avantage clé : les requêtes portent sur des volumes importants stockés dans S3 sans contrainte de taille ni besoin de réplication préalable. Cette annonce s'inscrit dans la montée en puissance des architectures de données modernes autour des formats de table ouverts comme Apache Iceberg, conçus pour offrir de meilleures performances, une gouvernance simplifiée et des coûts réduits par rapport aux entrepôts traditionnels. Amazon, Microsoft et Google se livrent une concurrence intense sur le segment de l'analytique cloud, chacun cherchant à rendre ses services d'analyse plus accessibles et plus proches des données sources. En intégrant les S3 Tables à QuickSight, AWS renforce son positionnement autour du concept de "source unique de vérité" dans le data lake, tout en réduisant la dépendance aux solutions tierces comme Snowflake ou Databricks. La prochaine étape logique pourrait être une intégration plus poussée des capacités d'IA générative de QuickSight avec ces nouvelles sources, afin d'automatiser davantage la détection d'anomalies et la génération d'insights à la volée.

InfrastructureActu
1 source
Inférence adaptée à la capacité : basculement automatique entre instances pour les endpoints SageMaker AI
271AWS ML Blog 

Inférence adaptée à la capacité : basculement automatique entre instances pour les endpoints SageMaker AI

Amazon SageMaker AI vient d'introduire une fonctionnalité baptisée "capacity-aware instance pool" pour ses endpoints d'inférence, disponible immédiatement pour les nouveaux déploiements comme pour les endpoints existants. Concrètement, les équipes peuvent désormais définir une liste ordonnée de types d'instances GPU plutôt qu'un type unique, et SageMaker parcourt automatiquement cette liste dès qu'une contrainte de capacité se présente, que ce soit à la création de l'endpoint, lors d'un scale-out ou d'un scale-in. Cette mécanique de bascule automatique fonctionne pour les Single Model Endpoints, les endpoints basés sur des Inference Components, et les Asynchronous Inference endpoints. Les métriques Amazon CloudWatch bénéficient également d'une nouvelle dimension InstanceType, permettant de suivre latence, débit, utilisation GPU et nombre d'instances par type de matériel au sein d'un même endpoint. Jusqu'ici, le déploiement d'un modèle sur SageMaker imposait de choisir un seul type d'instance au moment de la création. Si ce type manquait de capacité, l'endpoint échouait avec une erreur "Insufficient Capacity", forçant les équipes à itérer manuellement sur des alternatives, chaque tentative prenant plusieurs minutes avant de connaître son issue. Le problème se répétait à chaque phase du cycle de vie : lors des montées en charge automatiques, l'autoscaler relançait indéfiniment des requêtes sur le même type d'instance indisponible pendant que le trafic continuait d'augmenter, et lors des descentes, toutes les instances étaient candidates à la suppression sans distinction de priorité. Avec les instance pools, SageMaker essaie le type préféré en premier, bascule immédiatement sur le suivant si nécessaire, et retire en priorité les instances de fallback lors des scale-in, laissant la flotte revenir naturellement vers le matériel privilégié quand il redevient disponible. Cette annonce s'inscrit dans un contexte où l'accès aux GPU reste l'un des goulots d'étranglement les plus critiques pour les organisations qui industrialisent des charges IA en production. Les grands modèles de langage et les architectures multimodales exigent des types d'instances spécifiques, souvent soumis à une forte tension sur les capacités cloud. AWS rejoint ainsi une tendance plus large dans laquelle les fournisseurs cloud intègrent nativement des mécanismes de résilience face aux pénuries de compute, réduisant la charge opérationnelle sur les équipes MLOps. La possibilité de migrer des endpoints existants sans reconstruction complète est un signal fort : AWS cible autant les workloads de production déjà déployés que les nouveaux projets. Les suites logiques seraient une extension à d'autres services d'inférence managés et une intégration plus fine avec les stratégies de spot instances pour optimiser les coûts tout en maintenant la disponibilité.

InfrastructureActu
1 source
RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs
272VentureBeat AI 

RunPod Flash : un outil Python open source pour accélérer le développement IA sans conteneurs

RunPod, la plateforme cloud spécialisée dans les GPU haute performance pour le développement IA, a lancé ce jeudi un nouvel outil open source baptisé RunPod Flash. Distribué sous licence MIT, cet outil Python vise à supprimer une contrainte jusqu'ici incontournable dans le développement serverless sur GPU : la conteneurisation Docker. Dans le cycle de développement traditionnel, un développeur devait écrire un Dockerfile, construire une image, la pousser vers un registre, puis attendre que l'environnement se déploie avant qu'une seule ligne de code puisse s'exécuter sur un GPU distant. Flash remplace ce processus par un moteur de build multiplateforme qui génère automatiquement un artefact Linux x86_64 depuis un Mac M-series, détecte la version Python locale, force les wheels binaires, et monte les dépendances directement à l'exécution sur la flotte serverless de RunPod. Le nouveau décorateur @Endpoint, pièce centrale de cette version GA, centralise la configuration de ce pipeline en un seul appel de fonction. L'impact concret est double. Pour les équipes de recherche, la suppression de ce que RunPod appelle la "taxe de packaging" réduit drastiquement les cycles d'itération : plus besoin de rebuilder et repousser une image à chaque modification de code. Pour les applications en production, Flash embarque des fonctionnalités de niveau entreprise, API HTTP avec load balancing basse latence, traitement par lots en file d'attente, stockage persistant multi-datacenter. L'outil permet également de construire des pipelines dits "polyglots" : un endpoint CPU bon marché peut prendre en charge le prétraitement des données avant de router automatiquement vers un GPU NVIDIA H100 ou B200 pour l'inférence. Cette architecture réduit aussi les "cold starts", ces délais à froid qui pénalisent les environnements serverless, en évitant d'initialiser de lourdes images conteneurisées à chaque requête. Derrière Flash se trouve une infrastructure réseau propriétaire SDN/CDN que RunPod a construite pour résoudre ce que son CTO Brennen Smith décrit comme le vrai problème du GPU cloud : non pas les processeurs eux-mêmes, mais le réseau et le stockage qui les relient. L'outil est explicitement conçu pour servir de substrat aux agents IA et assistants de code, Claude Code, Cursor, Cline sont cités nommément, leur permettant d'orchestrer et déployer du matériel distant de façon autonome. "Tout le monde parle d'IA agentique, mais il faut une colle solide pour que ces agents puissent réellement fonctionner", a déclaré Smith à VentureBeat. RunPod entre ainsi en compétition directe avec AWS Lambda et Modal sur le segment du serverless GPU, en pariant que la suppression de la friction de déploiement sera le facteur décisif pour les labs et équipes produit qui multiplient les expérimentations IA.

OutilsActu
1 source
Le pari risqué de Larry
273The Verge AI 

Le pari risqué de Larry

Oracle se positionne aujourd'hui comme l'un des baromètres les plus fiables pour mesurer l'état réel du marché de l'intelligence artificielle. La société fondée par Larry Ellison, bien connue pour ses bases de données et ses logiciels d'entreprise, a opéré un virage stratégique radical vers l'IA, d'une nature singulière dans le paysage technologique actuel. Contrairement à OpenAI ou Anthropic, Oracle ne construit pas de modèles fondamentaux. Elle n'est pas non plus un pure player de l'infrastructure cloud nouvelle génération comme CoreWeave, même si elle s'est lancée sur le marché du bare-metal. Oracle reste avant tout une entreprise de logiciels en mode SaaS, qui a misé massivement sur une vision très précise de ce que sera l'IA demain. Ce pari est d'autant plus audacieux que le coeur historique d'Oracle, ses licences logicielles traditionnelles, connaît un déclin progressif. L'entreprise, l'une des plus anciennes du secteur tech avec Microsoft pour seul concurrent comparable en âge, a donc choisi de réinventer son modèle plutôt que de gérer une descente contrôlée. Pour les investisseurs et les analystes, Oracle devient ainsi un indicateur de choix : si son pari IA tient, c'est que la demande enterprise pour l'IA est profonde et durable ; si les résultats déçoivent, le signal sera difficile à ignorer pour l'ensemble du secteur. L'enjeu dépasse Oracle elle-même. Les grandes entreprises traditionnelles du logiciel cherchent toutes à se repositionner face aux nouveaux entrants de l'IA, et Oracle représente le cas le plus tranché de cette transition forcée. Sa capacité à convertir sa base clients historique en revenus IA, tout en concurrençant AWS, Azure et Google Cloud sur l'infrastructure, définira si les acteurs legacy peuvent survivre dans l'écosystème IA ou s'ils seront progressivement marginalisés.

UELes entreprises européennes clientes d'Oracle pourraient être indirectement affectées par ce pivot stratégique, mais l'article ne traite pas d'un impact spécifique sur le marché français ou européen.

BusinessOpinion
1 source
Vanguard construit une infrastructure de données pour son analyste virtuel IA
274AWS ML Blog 

Vanguard construit une infrastructure de données pour son analyste virtuel IA

Vanguard, l'une des plus grandes sociétés de gestion d'actifs au monde avec plus de 8 000 milliards de dollars sous gestion, a développé un outil interne baptisé « Virtual Analyst » pour permettre à ses analystes financiers d'interroger des données complexes en langage naturel. Avant ce projet, obtenir une réponse à une question pourtant simple nécessitait de rédiger des requêtes SQL sophistiquées et de solliciter les équipes data, un processus qui pouvait s'étaler sur plusieurs jours. Désormais, les analystes et parties prenantes métier accèdent directement aux données en quelques secondes, sans expertise technique préalable. L'infrastructure repose sur plusieurs services AWS : Amazon Bedrock pour les modèles de langage assurant la compréhension du langage naturel, Amazon Redshift pour l'analytique avancée, et AWS Glue pour le catalogage automatisé des données. Vanguard a formulé huit principes directeurs pour construire ce qu'ils nomment une infrastructure de données « AI-ready ». La principale leçon du projet dépasse le simple cas d'usage : déployer de l'IA conversationnelle dans une entreprise n'est pas d'abord un défi de machine learning, mais un défi d'architecture de données. Les modèles de fondation les plus puissants ne peuvent pas compenser une infrastructure sémantique défaillante. Vanguard a donc restructuré la façon dont ses équipes définissent, possèdent et maintiennent les données, en établissant des standards de qualité, des définitions sémantiques claires pour chaque métrique financière, et des modèles de gouvernance partagés. Pour les utilisateurs finaux, le gain est immédiat : l'accès à l'information pour la prise de décision n'est plus conditionné par la disponibilité d'une équipe technique. Pour l'industrie financière, c'est une démonstration concrète qu'une infrastructure réglementée et sensible peut être rendue compatible avec l'IA générative, à condition d'y consacrer le travail fondamental en amont. Le projet a nécessité de briser des silos organisationnels profondément ancrés. Vanguard a réuni des ingénieurs data, des analystes métier, des équipes de conformité réglementaire, de sécurité et des utilisateurs finaux dans un modèle opérationnel transversal inédit pour la firme. La conformité et la sécurité, souvent perçues comme des freins à l'innovation dans les services financiers, ont été intégrées dès la conception plutôt qu'ajoutées après coup, ce qui a permis de respecter les exigences strictes du secteur. Ce projet s'inscrit dans une tendance plus large : les grandes institutions financières, Vanguard, JPMorgan, BlackRock, investissent massivement dans des couches de données sémantiques pour rendre leurs systèmes historiques compatibles avec l'IA. Le Virtual Analyst de Vanguard est présenté comme un modèle illustratif plutôt que prescriptif, mais il offre un cadre concret à toute organisation confrontée au même problème : comment transformer des décennies de données métier en une ressource exploitable par l'IA sans sacrifier la fiabilité ni la conformité.

UECe cas d'usage illustre une tendance applicable aux institutions financières européennes souhaitant rendre compatibles leurs systèmes legacy avec l'IA générative, sans impact direct sur la réglementation ou les acteurs français.

OutilsOpinion
1 source
Les dernières avancées en IA physique au Robotics Summit
275Robotics Business Review 

Les dernières avancées en IA physique au Robotics Summit

Le Robotics Summit & Expo 2026 se tiendra les 27 et 28 mai à Boston, et la conférence consacre pour la première fois une piste thématique entière à l'intelligence artificielle physique, soit l'intégration de l'IA dans des machines capables d'agir de manière autonome dans le monde réel. Parmi les intervenants confirmés figurent des dirigeants de Brain Corp, Agtonomy, Semaphor Surgical, Roboto AI, RealSense, AWS, MathWorks, NXP Semiconductors, Intrinsic, Universal Robots, PickNik Robotics et Path Robotics. Russ Tedrake, chercheur de référence en robotique, donnera une keynote sur sa vision des "Large Behavior Models", l'équivalent robotique des grands modèles de langage, appliqués à des robots industriels plus adaptatifs. Une démonstration en direct d'un robot IA incarné sera réalisée sur scène par Chris Matthieu de RealSense, tandis que MassRobotics présentera les lauréats de son Physical AI Fellowship et annoncera le gagnant de son troisième Form and Function Challenge. Ce programme illustre une transformation profonde de l'industrie robotique : l'IA ne sert plus seulement à optimiser des tâches répétitives, elle permet désormais aux machines de percevoir leur environnement, d'interpréter des instructions en langage naturel et d'adapter leur comportement en continu. Rachita Chandra d'AWS montrera comment des commandes formulées en langage courant sont converties en séquences d'actions concrètes pour des robots, une avancée qui rapproche la robotique du grand public et des entreprises sans compétences techniques spécialisées. Pour les industriels, les enjeux sont considérables : la logistique, la chirurgie, l'agriculture et la fabrication sont toutes concernées par des systèmes capables d'apprendre sur le terrain plutôt que d'être reprogrammés à chaque nouveau contexte. Cette édition du Robotics Summit s'inscrit dans une accélération mondiale des investissements en IA physique, portée notamment par les progrès des modèles vision-langage-action (VLA) et du reinforcement learning appliqué à la robotique. Des acteurs comme Universal Robots, leader mondial du robot collaboratif, et des startups comme Roboto AI ou Path Robotics cherchent à industrialiser ces approches encore largement expérimentales. La question des données reste centrale : Roch Nakajima de Noitom Robotics plaidera pour que les entreprises commencent à constituer leurs corpus de données dès maintenant, avant même de déployer des robots, en traitant ces données comme un actif stratégique. L'open source est également au coeur des débats, avec Brian Gerkey d'Intrinsic qui dressera un état des lieux des écosystèmes ouverts en IA et robotique, dans un secteur où la standardisation des outils de développement devient un enjeu de compétitivité autant que de collaboration.

UEUniversal Robots (danois) et NXP Semiconductors (néerlandais), acteurs européens majeurs présents au sommet, sont directement impliqués dans l'industrialisation de l'IA physique, un domaine où la compétitivité européenne se joue dès maintenant.

RobotiqueActu
1 source
Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative
276AWS ML Blog 

Amazon SageMaker AI propose désormais des recommandations optimisées pour l'inférence d'IA générative

Amazon a annoncé que SageMaker AI prend désormais en charge les recommandations optimisées pour le déploiement de modèles d'IA générative en production. Cette nouvelle fonctionnalité s'appuie sur NVIDIA AIPerf, un composant modulaire du framework open source NVIDIA Dynamo, pour fournir automatiquement des configurations de déploiement validées accompagnées de métriques de performance précises. Concrètement, SageMaker AI évalue les combinaisons d'instances GPU, de conteneurs de service, de stratégies de parallélisme et de techniques d'optimisation, puis restitue aux équipes les configurations les plus adaptées à leurs exigences de latence, de débit ou de coût. Eliuth Triana, Developer Relations Manager chez NVIDIA, a salué l'intégration, soulignant qu'elle permet aux entreprises de déployer des modèles d'IA générative avec confiance, en remplaçant des semaines de tests manuels par des configurations prêtes à l'emploi. L'enjeu est considérable pour les équipes d'ingénierie. Aujourd'hui, passer d'un modèle entraîné à un endpoint de production opérationnel prend entre deux et trois semaines par modèle, une durée imposée par la nécessité de tester manuellement des dizaines de configurations possibles : plus d'une douzaine de types d'instances GPU, plusieurs conteneurs de service, différents degrés de parallélisme, et des techniques comme le décodage spéculatif. Sans guidance validée, les équipes provisionnent des instances, déploient le modèle, exécutent des tests de charge, analysent les résultats, puis recommencent. Ce cycle mobilise une expertise en infrastructure GPU et en frameworks de service que la plupart des équipes ne possèdent pas en interne, conduisant systématiquement à du sur-provisionnement coûteux. AWS élimine ce goulot d'étranglement en automatisant l'ensemble du processus d'exploration et de validation des configurations. Cette évolution s'inscrit dans une course à la mise en production de l'IA générative que se livrent les entreprises pour alimenter leurs assistants intelligents, outils de génération de code et moteurs de contenu. Le coût du sur-provisionnement GPU, qui s'accumule à chaque modèle déployé et à chaque mois d'exploitation, représente un problème structurel pour l'industrie. AWS s'appuie sur sa collaboration technique approfondie avec NVIDIA, formalisée ici par l'intégration directe des composants de Dynamo dans SageMaker, pour s'imposer comme la plateforme cloud de référence pour les déploiements d'IA en production. En standardisant le benchmarking via AIPerf, dont les contrôles de concurrence et les options de jeux de données permettent d'itérer rapidement sur des scénarios variés, Amazon réduit la barrière technique pour les organisations qui cherchent à industrialiser leurs modèles sans constituer une équipe d'experts en infrastructure dédiée.

UELes entreprises européennes utilisant AWS SageMaker peuvent réduire leurs délais de mise en production de modèles IA de plusieurs semaines, sans impact réglementaire ou institutionnel direct sur la France ou l'UE.

InfrastructureActu
1 source
Amazon Bedrock intègre la mémoire d'entreprise avec Amazon Neptune et Mem0
277AWS ML Blog 

Amazon Bedrock intègre la mémoire d'entreprise avec Amazon Neptune et Mem0

TrendMicro, l'un des plus grands éditeurs mondiaux de logiciels antivirus, a déployé une architecture de mémoire persistante pour son chatbot d'entreprise Trend's Companion, en collaboration avec les équipes AWS et son Generative AI Innovation Center. Le système repose sur trois piliers technologiques : Amazon Bedrock pour l'orchestration des agents IA, Amazon Neptune pour stocker un graphe de connaissances propre à chaque entreprise cliente, et Mem0 pour gérer à la fois la mémoire conversationnelle à court terme et la mémoire persistante à long terme. Concrètement, lorsqu'un utilisateur envoie un message, le modèle Claude sur Amazon Bedrock extrait automatiquement les entités, relations et éléments mémorisables, qui sont ensuite vectorisés via Amazon Bedrock Titan Text Embed et indexés dans Amazon OpenSearch Service et Neptune. Un mécanisme de réordonnancement via Amazon Bedrock Rerank ou Cohere Rerank garantit que les informations les plus pertinentes remontent en priorité lors de chaque requête. L'enjeu est de taille pour les chatbots d'entreprise : jusqu'ici, ces systèmes perdaient le fil dès qu'une conversation se terminait, obligeant les utilisateurs à se répéter et rendant impossible toute capitalisation sur les échanges passés. Avec cette architecture, le chatbot peut désormais référencer l'historique des interactions, retrouver des connaissances organisationnelles structurées et adapter ses réponses au contexte spécifique d'une entreprise cliente, sans que l'utilisateur ait besoin de tout réexpliquer. Un mécanisme de validation humaine renforce encore la fiabilité du système : après chaque réponse, l'IA associe ses affirmations aux souvenirs précis sur lesquels elle s'est appuyée, et l'utilisateur peut approuver ou rejeter ces associations. Les mémoires validées restent dans la base de connaissances ; les autres sont supprimées d'OpenSearch et de Neptune. Ce "human-in-the-loop" donne aux entreprises un contrôle direct sur la qualité et la fiabilité du savoir accumulé par leur chatbot. Cette initiative s'inscrit dans une tendance de fond qui voit les grands éditeurs tech chercher à transformer leurs assistants IA de simples répondeurs en véritables agents dotés de mémoire organisationnelle. TrendMicro fait face à une clientèle d'entreprises qui attendent des outils capables de comprendre leur environnement propre, leurs processus internes et leur historique de support, sans compromettre la sécurité des données. Le choix d'Amazon Neptune comme socle du graphe de connaissances est particulièrement significatif : contrairement à une base vectorielle classique, un graphe permet de modéliser des relations complexes entre entités, offrant une précision structurée que la recherche sémantique seule ne peut pas atteindre. A mesure que les agents IA autonomes se généralisent dans les entreprises, ce type d'architecture hybride, combinant graphe de connaissances, mémoire vectorielle et validation humaine, pourrait s'imposer comme un standard pour tout déploiement IA à l'échelle organisationnelle.

OutilsOutil
1 source
278AI News 

Snowflake élargit ses plateformes IA techniques et grand public

Snowflake a annoncé une expansion significative de ses deux plateformes d'intelligence artificielle, Snowflake Intelligence et Cortex Code, lors d'une mise à jour publiée cette semaine. Snowflake Intelligence cible les employés non techniques qui souhaitent automatiser des tâches métier en langage naturel : préparer des présentations, lancer des analyses multi-étapes ou envoyer des messages de suivi. Cortex Code, lui, s'adresse aux équipes de développement logiciel en entreprise. Parmi les nouveautés : des intégrations élargies avec Google Workspace, Jira, Salesforce et Slack via le protocole MCP (Model Context Protocol), de nouvelles connexions à des sources de données externes comme AWS Glue, Databricks et PostgreSQL, ainsi qu'un support du protocole ACP (Agent Communication Protocol). Une extension VS Code pour Cortex Code est en préversion privée, et un plugin Snowflake pour Claude Code est en cours de développement. Une application iOS pour Snowflake Intelligence doit entrer en préversion publique prochainement. La plateforme revendique plus de 9 100 clients utilisant ses produits IA chaque semaine, et plus de la moitié de sa base cliente utilise désormais l'une ou l'autre des deux plateformes depuis leur lancement il y a six mois. Ces annonces illustrent la montée en puissance des plateformes dites "agentiques" dans l'entreprise, capables d'exécuter des séquences de tâches de manière autonome à partir d'une simple instruction en langage naturel. Pour les grandes organisations, l'enjeu est de permettre à des collaborateurs sans compétences techniques de piloter des flux de travail complexes, tout en maintenant un contrôle strict sur les droits d'accès et la conformité aux politiques internes. La possibilité de sauvegarder et partager des workflows, combinée à des fenêtres de contexte étendues qui mémorisent les préférences utilisateur, réduit la friction dans l'adoption quotidienne. Le mode "Plan Mode", qui permet de prévisualiser et valider un flux avant son exécution, répond directement aux craintes des entreprises face aux agents IA autonomes. Ces développements s'inscrivent dans une course intense entre fournisseurs de données cloud pour devenir la couche d'orchestration IA de référence en entreprise. Snowflake, historiquement positionné sur le stockage et l'analyse de données, cherche à élargir son emprise vers l'exécution d'actions concrètes, un territoire que se disputent aussi Microsoft, Salesforce et Google. Les nouvelles fonctionnalités découlent en partie du projet SnowWork, une initiative de recherche lancée le mois dernier pour tester la plateforme et collecter les retours utilisateurs. L'ouverture via MCP et ACP signale une stratégie d'interopérabilité délibérée : plutôt que de construire un écosystème fermé, Snowflake mise sur la connectivité avec les outils déjà en place dans les organisations, pariant que la valeur viendra de l'orchestration plutôt que du remplacement.

OutilsOutil
1 source
279AWS ML Blog 

Simulateur d'outils : tests à grande échelle pour agents IA

Amazon Web Services a lancé ToolSimulator, un framework de simulation d'outils propulsé par des LLM, intégré au SDK Strands Evals. Disponible dès maintenant, cet outil permet aux développeurs de tester en profondeur les agents IA qui dépendent d'API externes, de bases de données ou de services MCP, sans jamais déclencher d'appels réels. Concrètement, un développeur qui teste un agent de réservation de vols peut simuler des recherches, des confirmations et des annulations avec des données réalistes et cohérentes, sans envoyer de vraie requête à une compagnie aérienne. L'installation se résume à une commande pip install strands-evals, et aucun compte AWS n'est requis pour exécuter les simulations localement. L'enjeu est considérable pour les équipes qui industrialisent des agents IA. Tester contre des API en production expose des données personnelles, risque de déclencher des actions irréversibles comme l'envoi d'e-mails ou la modification de bases de données, et se heurte aux limites de débit qui rendent impraticable le passage à l'échelle sur des centaines de scénarios de test. Les mocks statiques, l'alternative habituelle, s'avèrent insuffisants dès qu'un agent enchaîne plusieurs appels dont le deuxième dépend de l'état laissé par le premier. ToolSimulator résout ce problème en maintenant un état partagé cohérent entre les appels successifs : une écriture affecte les lectures suivantes, exactement comme dans un système réel. Les schémas de réponse peuvent être imposés via des modèles Pydantic, ce qui garantit la validité structurelle des sorties simulées et permet de détecter les bugs d'intégration tôt dans le cycle de développement. Ce lancement s'inscrit dans la montée en maturité de l'outillage autour des agents IA autonomes, un segment en pleine explosion depuis l'essor des modèles capables d'utiliser des outils externes. AWS positionne Strands Evals comme une réponse aux besoins des équipes qui passent du prototype à la production : l'absence de cadre de test robuste est aujourd'hui l'un des principaux freins à ce passage. ToolSimulator rejoint un écosystème d'évaluation d'agents qui comprend déjà des solutions comme LangSmith d'Anthropic ou les environnements de sandbox d'OpenAI, mais mise sur l'intégration native avec le SDK Strands et la génération adaptative de réponses par LLM plutôt que sur des templates figés. La prochaine étape naturelle sera d'étendre ces capacités aux workflows MCP complexes et aux agents multi-modaux, à mesure que les cas d'usage en production se diversifient.

OutilsOutil
1 source
280Le Big Data 

AIDA : l’IA de Starburst pour une entreprise réellement data-driven

Starburst a annoncé le lancement d'AIDA (AI Data Assistant), un assistant analytique conçu pour permettre aux entreprises d'interroger leurs données distribuées sans migration préalable ni compromis sur la sécurité. Développé par la société fondée par Justin Borgman, cet outil s'adresse aux organisations qui peinent à exploiter leur patrimoine informationnel fragmenté entre clouds multiples et serveurs locaux. Contrairement aux interfaces classiques qui se contentent de convertir une question en requête SQL, AIDA repose sur le cadre "ReAct" : l'assistant décompose chaque demande métier, analyse les métadonnées disponibles et valide ses propres étapes de raisonnement avant de formuler une réponse. Résultat : des analyses ancrées dans les données réelles plutôt que des approximations générées par des modèles de langage mal contextualisés. La solution s'adapte également au profil de l'interlocuteur, offrant une profondeur technique aux analystes et des indicateurs directement actionnables aux dirigeants. L'impact concret se mesure d'abord dans la performance opérationnelle et financière des entreprises. En connectant AIDA à des outils comme Slack ou Jira via le protocole ouvert MCP, les organisations automatisent des flux de travail critiques jusqu'ici trop rigides. Les premiers cas d'usage documentés portent sur la rétention client, grâce à une détection plus fine des signaux faibles d'insatisfaction, et sur la correction d'erreurs de facturation rendues visibles en croisant contrats et consommation réelle. Pour les directions techniques, la compatibilité avec les principaux moteurs d'IA du marché, OpenAI, Anthropic et AWS Bedrock, élimine le risque d'enfermement propriétaire et permet une maîtrise des coûts adaptée à chaque secteur. Des garde-fous configurables filtrent par ailleurs les sujets sensibles et protègent les données personnelles, levant ainsi les blocages de conformité qui freinent habituellement les projets d'innovation interne. Ce lancement s'inscrit dans une tendance de fond : les entreprises disposent de volumes de données considérables mais restent incapables d'en extraire de la valeur à cause de l'éclatement des infrastructures. Starburst, spécialisé dans les moteurs de requêtes distribuées basés sur Trino, élargit ici son positionnement vers la couche conversationnelle, un terrain de plus en plus disputé entre acteurs du data warehouse, éditeurs de business intelligence et grandes plateformes cloud. En affirmant, par la voix de Borgman, que "la valeur réside dans la donnée elle-même plutôt que dans le modèle", Starburst tente de se différencier des solutions d'IA générative généralistes en misant sur la fiabilité analytique. La prochaine étape sera de démontrer, à grande échelle et dans des environnements de production exigeants, que ce raisonnement augmenté tient ses promesses face aux géants déjà positionnés sur ce créneau.

OutilsOutil
1 source
281AWS ML Blog 

Des heures aux minutes : comment les agents IA ont redonné du temps aux marketeurs pour l'essentiel

L'équipe Technology, AI, and Analytics (TAA) d'AWS Marketing a développé, en partenariat avec la startup Gradial, une solution d'IA agentique capable de réduire le temps de publication d'une page web de quatre heures à environ dix minutes, soit une diminution de plus de 95 %. Déployée sur Amazon Bedrock, cette solution s'appuie sur les modèles Anthropic Claude et Amazon Nova pour orchestrer l'ensemble du workflow de création de contenu : interprétation des briefs en langage naturel, assemblage des composants de page, validation des standards d'accessibilité et de conformité, jusqu'au lancement effectif sur les canaux digitaux. Le système intègre un serveur Model Context Protocol (MCP) pour la validation en temps réel et se connecte directement aux systèmes de gestion de contenu (CMS) d'entreprise. Cette accélération libère les équipes marketing, Digital Marketing Managers et Product Marketing Managers chez AWS, des tâches de coordination et d'assemblage répétitives qui monopolisaient leur temps. Auparavant, la publication d'une seule page nécessitait un appel de lancement, une file d'attente de priorisation, plusieurs allers-retours entre équipes, puis des cycles de révision successifs pour valider les textes, les visuels, les liens et la conformité technique. Un seul problème d'accessibilité sur une image suffisait à relancer un nouveau cycle complet. En automatisant cette orchestration, les équipes peuvent désormais se concentrer sur les tâches à plus forte valeur ajoutée : identifier les problèmes clients, affiner les messages et concevoir des campagnes plus efficaces. Ce projet s'inscrit dans une tendance de fond où les grandes entreprises tech cherchent à industrialiser leurs workflows marketing grâce à l'IA agentique. AWS, qui opère l'une des infrastructures digitales les plus complexes au monde, fait face à des exigences particulièrement élevées en matière de cohérence de marque, d'accessibilité et de conformité réglementaire à grande échelle. Le recours à Gradial, une startup spécialisée dans la modernisation des organisations marketing, illustre la montée en puissance des solutions verticales construites sur des plateformes d'IA fondationnelles comme Bedrock. L'enjeu dépasse AWS : toute organisation publiant du contenu web en volume est confrontée aux mêmes goulots d'étranglement. La généralisation de ce type d'agent autonome capable de piloter des CMS d'entreprise pourrait profondément transformer les métiers du marketing digital, en faisant de la coordination humaine l'exception plutôt que la règle.

OutilsOutil
1 source
282AWS ML Blog 

Rede Mater Dei de Saúde surveille ses agents IA dans le circuit de facturation avec Amazon Bedrock AgentCore

Le réseau hospitalier brésilien Rede Mater Dei de Saúde déploie actuellement une suite de douze agents d'intelligence artificielle pour automatiser l'ensemble de son cycle de facturation médicale, en s'appuyant sur Amazon Bedrock AgentCore, le service d'infrastructure d'agents d'AWS. Cette initiative, développée en partenariat avec le cabinet de données A3Data et le AWS Generative AI Innovation Center, vise à réduire drastiquement le taux de refus de remboursement des assureurs, qui a bondi en 2024 de 11,89 % à 15,89 % dans le secteur hospitalier privé brésilien, selon l'association nationale Anahp, représentant jusqu'à 10 milliards de reais de revenus non perçus pour le secteur. Parmi les premiers agents déployés figurent un agent Contrats, qui centralise les règles contractuelles dispersées dans des documents hétérogènes, un agent Paramétrage, qui traduit automatiquement ces règles dans le système ERP de l'hôpital, et un agent Autorisation, qui automatise les échanges avec les compagnies d'assurance santé. L'enjeu est directement financier et opérationnel. Rede Mater Dei, qui gère des établissements à Belo Horizonte, Salvador, Goiânia, Uberlândia et plusieurs autres villes brésiliennes, faisait face à des centaines d'employés affectés à des tâches manuelles répétitives, à des données fragmentées et à un fort turnover sur ces postes. Chaque erreur dans le cycle de facturation, de l'accréditation des prestataires jusqu'à la facturation finale, se traduisait par des refus de remboursement coûteux et des corrections chronophages. Les agents IA fonctionnent désormais de manière orchestrée et continue, structurés en trois couches : une couche de données (DEL), une couche d'exécution des agents (AEL) et une couche de gouvernance et conformité (TCL), garantissant traçabilité et auditabilité de chaque décision automatisée. Ce projet s'inscrit dans un contexte de pression croissante sur la rentabilité des hôpitaux privés en Amérique latine, où les processus administratifs restent largement manuels et les systèmes d'information souvent morcelés. Rede Mater Dei, fort de 45 ans d'histoire, fait figure de pionnier continental en testant AgentCore Evaluation dans un environnement de production réel à haute criticité. Amazon Bedrock AgentCore, lancé comme service d'exécution serverless pour agents IA, offre nativement la gestion de la mémoire, l'intégration d'outils et l'observabilité en production, des capacités indispensables lorsque des agents autonomes prennent des décisions impactant directement les flux de trésorerie d'un réseau hospitalier. La suite complète de douze agents, une fois déployée intégralement, ambitionne de constituer une véritable "force de travail numérique" capable de percevoir, décider et agir sans intervention humaine sur l'ensemble du cycle de revenus.

OutilsActu
1 source
283AWS ML Blog 

Bonnes pratiques pour l'inférence sur Amazon SageMaker HyperPod

Amazon a enrichi sa plateforme SageMaker HyperPod d'un ensemble de fonctionnalités dédiées à l'inférence de modèles d'IA générative, avec pour promesse affichée une réduction du coût total de possession allant jusqu'à 40%. La solution s'appuie sur Amazon Elastic Kubernetes Service (EKS) comme orchestrateur et permet de créer un cluster en quelques clics depuis la console SageMaker AI. Deux modes de configuration sont proposés : une installation rapide avec des ressources par défaut, et une installation personnalisée permettant d'intégrer des infrastructures existantes. Une fois le cluster actif, l'opérateur d'inférence intégré permet de déployer des modèles directement depuis des buckets S3, des systèmes de fichiers FSx for Lustre, ou depuis le catalogue SageMaker JumpStart, sans écrire une seule ligne de code. Des notebooks d'exemple couvrent les cas d'usage courants : modèles préconstruits, modèles fine-tunés, configurations personnalisées. L'enjeu central de cette mise à jour est la gestion dynamique des ressources GPU, historiquement coûteuse et complexe à piloter. HyperPod introduit une architecture de scalabilité à deux niveaux : KEDA (Kubernetes Event-Driven Autoscaling), un projet open source de la Cloud Native Computing Foundation, gère l'autoscaling des pods en fonction de métriques temps réel comme la longueur de la file de requêtes, la latence, ou des métriques CloudWatch et Prometheus personnalisées. KEDA peut réduire le nombre de pods à zéro en l'absence de trafic, supprimant ainsi les coûts à l'arrêt. En parallèle, Karpenter opère au niveau des nœuds de calcul : il provisionne ou retire des instances selon les besoins des pods en attente, et tourne dans le plan de contrôle EKS, ce qui évite tout surcoût lié à l'autoscaler lui-même. Cette combinaison permet de passer de zéro à une charge de production en réponse à la demande réelle. Ce lancement intervient dans un contexte où le déploiement de modèles de fondation à grande échelle est devenu un point de friction majeur pour les équipes IA en entreprise : infrastructure difficile à calibrer, pics de trafic imprévisibles, surinvestissement GPU, et délais de mise en production allongés. AWS positionne HyperPod comme une réponse complète à ce trilemme coût-performance-simplicité, en absorbant la complexité opérationnelle dans une couche managée. La plateforme concurrence directement les offres de Google (Vertex AI) et Microsoft Azure (ML endpoints managés), qui proposent des approches similaires. Les suites probables incluent une intégration plus poussée avec les outils d'observabilité AWS et une extension du support à d'autres architectures de modèles, alors que la course aux infrastructures d'inférence efficaces s'intensifie dans tout le secteur cloud.

InfrastructureActu
1 source
284AWS ML Blog 

Le Spring AI SDK pour Amazon Bedrock AgentCore est désormais en disponibilité générale

Amazon a rendu disponible en accès général le Spring AI SDK pour Amazon Bedrock AgentCore, une bibliothèque open source qui permet aux développeurs Java de construire et déployer des agents IA autonomes en production sur l'infrastructure d'AWS. Ce SDK s'intègre nativement dans l'écosystème Spring Boot 3.5 et Java 17 minimum, en exploitant les patterns familiers du framework : annotations, auto-configuration et advisors composables. Concrètement, un développeur ajoute une dépendance au projet, annote une méthode, et le SDK prend en charge tout le reste, de la gestion des endpoints jusqu'au streaming des réponses en temps réel. Jusqu'à présent, intégrer Amazon Bedrock AgentCore dans une application Spring représentait plusieurs semaines de travail d'infrastructure avant même d'écrire la moindre logique métier : il fallait implémenter manuellement les endpoints /invocations et /ping, gérer le streaming Server-Sent Events avec son protocole précis, configurer les health checks, le rate limiting, et connecter les advisors et les outils. Le SDK automatise entièrement ce contrat technique imposé par l'AgentCore Runtime. En particulier, il détecte automatiquement les tâches asynchrones longues et signale un statut "HealthyBusy" au runtime pour éviter qu'il ne retire des ressources pendant un traitement actif, un détail critique dans un modèle de facturation à l'usage où les temps d'inactivité ne sont pas facturés. Les équipes peuvent ainsi se concentrer sur la logique des agents plutôt que sur la plomberie infrastructure, et déployer des fonctionnalités comme la mémoire conversationnelle, l'automatisation de navigateur et l'exécution de code en sandbox. L'émergence de ce SDK s'inscrit dans une tendance de fond : les entreprises cherchent à passer des preuves de concept en IA générative à des systèmes agentiques véritablement opérationnels à grande échelle, capables de planifier et d'exécuter des tâches complexes en plusieurs étapes de manière autonome. AWS positionne Bedrock AgentCore comme une plateforme universelle, compatible avec n'importe quel framework et n'importe quel modèle. En ciblant spécifiquement la communauté Java et Spring, l'une des plus larges dans l'entreprise, Amazon ouvre un couloir direct vers la production pour des millions de développeurs backend qui auraient autrement dû franchir une barrière technique considérable. La concurrence dans ce segment est vive : Microsoft avec Azure AI, Google avec Vertex AI et des acteurs comme LangChain ou CrewAI proposent leurs propres abstractions pour les agents IA. La disponibilité générale du Spring AI AgentCore SDK marque une étape dans la maturité de l'outillage autour des agents IA en entreprise, où la gouvernance, la sécurité et la scalabilité deviennent des critères aussi importants que les capacités du modèle lui-même.

UELes développeurs Java et Spring Boot en Europe peuvent intégrer directement Amazon Bedrock AgentCore dans leurs projets sans semaines de travail d'infrastructure, accélérant la mise en production d'agents IA sur AWS.

OutilsOutil
1 source
285AWS ML Blog 

Amazon Bedrock AgentCore Runtime introduit des capacités MCP client avec état

Amazon a introduit des capacités client MCP (Model Context Protocol) avec état dans son service AgentCore Runtime sur Amazon Bedrock, marquant une évolution majeure pour les développeurs d'agents IA. Jusqu'à présent, les serveurs MCP hébergés sur cette plateforme fonctionnaient en mode sans état : chaque requête HTTP était traitée de façon indépendante, sans mémoire entre les appels. Le nouveau mode avec état, activé via un simple paramètre stateless_http=False, provision une microVM dédiée par session utilisateur, persistant jusqu'à 8 heures ou 15 minutes d'inactivité. Cette architecture permet désormais trois capacités clés du protocole MCP : l'élicitation (demander une saisie utilisateur en cours d'exécution), le sampling (solliciter du contenu généré par un LLM côté client), et les notifications de progression (streamer des mises à jour en temps réel). La continuité de session est assurée via un en-tête Mcp-Session-Id, échangé lors de l'initialisation et inclus dans toutes les requêtes suivantes. Ces nouvelles capacités transforment fondamentalement la nature des workflows agents. Là où les implémentations sans état forçaient les agents à s'exécuter de bout en bout sans interruption, les agents peuvent désormais mener de véritables conversations bidirectionnelles avec leurs clients : s'arrêter pour demander une clarification à l'utilisateur au milieu d'un appel d'outil, déléguer dynamiquement la génération de contenu au LLM présent côté client, ou signaler l'avancement d'opérations longues en temps réel. Pour les équipes qui construisent des assistants IA complexes, des pipelines de traitement de documents ou des agents d'automatisation nécessitant validation humaine intermédiaire, c'est un changement de paradigme concret qui élimine des contournements architecturaux souvent coûteux à maintenir. Le Model Context Protocol, standard ouvert définissant comment les applications LLM se connectent à des outils et sources de données externes, gagne rapidement en adoption depuis son lancement par Anthropic fin 2024. Amazon avait déjà intégré l'hébergement de serveurs MCP sans état dans AgentCore Runtime dans une version précédente ; cette mise à jour complète l'implémentation bidirectionnelle du protocole. L'isolation entre sessions via des microVMs dédiées garantit la sécurité et l'indépendance des contextes, chaque session bénéficiant de CPU, mémoire et système de fichiers séparés. Si une session expire ou que le serveur redémarre, les clients reçoivent une erreur 404 et doivent réinitialiser la connexion. Cette approche positionne AWS comme un acteur central dans l'infrastructure d'agents IA d'entreprise, en rivalité directe avec les offres similaires de Microsoft Azure et Google Cloud dans la course à standardiser les architectures agentiques.

UELes équipes européennes développant des agents IA sur des plateformes cloud peuvent désormais implémenter des workflows agentiques bidirectionnels natifs sans contournements architecturaux coûteux.

OutilsActu
1 source
Comment Uber optimise ses millions de trajets et son IA avec Amazon
286Le Big Data 

Comment Uber optimise ses millions de trajets et son IA avec Amazon

Uber a annoncé un renforcement significatif de son partenariat avec Amazon Web Services pour optimiser en temps réel la gestion de ses millions de trajets quotidiens à l'échelle mondiale. Au cœur de cette collaboration, deux puces développées par AWS jouent des rôles complémentaires : Graviton4, conçue pour les calculs cloud intensifs, et Trainium3, spécialisée dans l'entraînement de modèles d'intelligence artificielle à partir de volumes massifs de données. Concrètement, Uber migre une part croissante de ses opérations critiques vers ces architectures matérielles, notamment ses Trip Serving Zones, des serveurs chargés de traiter en continu la localisation des chauffeurs, leur disponibilité et le calcul des itinéraires. Rich Geraffo, vice-président d'AWS, a qualifié Uber de l'une des applications en temps réel les plus exigeantes au monde, soulignant l'ampleur du défi technique que représente cette infrastructure. L'enjeu est considérable : à chaque ouverture de l'application, le système dispose de moins d'une seconde pour attribuer un chauffeur, définir un itinéraire et estimer le délai d'arrivée, et ce pour des millions d'utilisateurs simultanément, sans marge d'erreur même lors des pics de demande. Le passage à Graviton4 permet à Uber d'améliorer sa réactivité, de réduire sa consommation énergétique et de mieux absorber les surcharges de trafic qui peuvent atteindre 2 à 25 fois le niveau normal selon AWS. En parallèle, Trainium3 permet d'affiner les algorithmes d'IA qui analysent des millions de trajets et de livraisons pour améliorer la sélection des chauffeurs, la précision des temps d'arrivée et l'optimisation des options de livraison. Cette montée en puissance technologique vise à maintenir la qualité de service à mesure que les volumes de données traitées augmentent. Ce partenariat s'inscrit dans une tendance lourde du secteur : les grandes plateformes de mobilité à la demande investissent massivement dans des infrastructures cloud sur mesure pour rester compétitives. Uber, qui opère dans des dizaines de pays et traite des milliards de points de données quotidiens, ne peut plus se contenter d'architectures génériques. Toutefois, plusieurs défis subsistent. La migration vers ces nouvelles puces implique d'adapter des algorithmes complexes, de tester chaque scénario de calcul et d'assurer la compatibilité avec les systèmes existants, ce qui représente un investissement en temps, en expertise et en budget considérable. Par ailleurs, même les architectures les plus robustes peuvent être prises de court par des événements imprévisibles, qu'il s'agisse de pics explosifs lors du Black Friday ou d'incidents de circulation en temps réel. L'IA reste tributaire de la qualité et de la fraîcheur des données disponibles, ce qui constitue une limite structurelle que la puissance matérielle seule ne peut pas résoudre.

InfrastructureActu
1 source
Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock
287AWS ML Blog 

Personnalisez les modèles Amazon Nova avec l'affinage Amazon Bedrock

Amazon a annoncé que ses modèles Nova sont désormais personnalisables via Amazon Bedrock grâce à trois techniques de fine-tuning : le supervised fine-tuning (SFT), qui entraîne le modèle sur des exemples étiquetés entrée-sortie ; le reinforcement fine-tuning (RFT), qui oriente l'apprentissage à l'aide d'une fonction de récompense ; et la distillation de modèle, qui transfère les connaissances d'un grand modèle vers un modèle plus petit et plus rapide. Contrairement au prompt engineering ou au RAG, ces techniques intègrent les nouvelles connaissances directement dans les poids du modèle, plutôt que de les fournir à chaque requête via le contexte. Le processus est entièrement géré par AWS : il suffit de déposer ses données sur Amazon S3 et de lancer le job depuis la console, le CLI ou l'API, sans expertise en machine learning requise. Les modèles personnalisés fonctionnent en invocation à la demande, ce qui signifie que l'on paie uniquement à l'appel, au tarif standard, sans avoir à réserver de capacité dédiée (Provisioned Throughput). L'enjeu est significatif pour les entreprises qui déploient l'IA à grande échelle. Le fine-tuning permet d'atteindre une précision supérieure sur des tâches spécifiques, avec une inférence plus rapide et un coût en tokens réduit. Là où le RAG ou le prompt engineering forcent le modèle à relire des instructions à chaque appel, un modèle fine-tuné a internalisé ces connaissances : il gère mieux les formulations inédites, les cas limites, et les raisonnements complexes. Cas d'usage concrets : maintenir un ton de marque cohérent dans les communications clients, gérer des workflows métier spécifiques à un secteur, ou classifier les intentions dans un système de réservation aérienne à fort volume. Des modèles plus petits et moins coûteux peuvent ainsi atteindre les performances de modèles bien plus grands, mais uniquement dans leur domaine d'entraînement. Amazon Bedrock s'inscrit dans une compétition intense entre les grands fournisseurs cloud pour offrir des outils de personnalisation des LLMs sans friction technique. Google Vertex AI et Azure AI Studio proposent des capacités similaires, mais AWS mise sur l'intégration native avec son écosystème S3/IAM et sur la simplicité du déclenchement via API. Le fine-tuning reste pertinent dans un scénario précis : tâche bien définie, volume élevé, exemples étiquetés disponibles ou fonction de récompense constructible. Pour des besoins plus dynamiques ou évolutifs, le RAG conserve ses avantages. La prochaine étape probable pour Bedrock sera l'extension de ces capacités à d'autres modèles tiers disponibles sur la plateforme, au-delà des modèles propriétaires Nova.

UELes entreprises européennes utilisant AWS peuvent désormais affiner les modèles Nova directement via Bedrock sans expertise ML, réduisant la barrière technique à la personnalisation de LLMs en production.

LLMsOutil
1 source
Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride
288AWS ML Blog 

Amazon Bedrock et Amazon OpenSearch : créer un moteur de recherche intelligent pour le RAG hybride

Amazon a présenté une approche technique détaillée pour construire des assistants d'IA générative de nouvelle génération, combinant Amazon Bedrock, Amazon Bedrock AgentCore, le framework Strands Agents et Amazon OpenSearch dans une architecture dite "RAG hybride" (Retrieval-Augmented Generation). Ces systèmes, plus sophistiqués que de simples chatbots, sont capables de mener des conversations en plusieurs étapes, d'adapter leurs réponses aux besoins spécifiques de chaque utilisateur, et d'exécuter des tâches en arrière-plan telles que des appels d'API ou des requêtes en base de données en temps réel. L'exemple concret illustré dans l'article est celui d'un assistant de réservation hôtelière : l'agent interroge d'abord une base de données pour identifier les établissements correspondant aux critères du client, puis effectue des appels API pour récupérer disponibilités et tarifs actuels, avant de synthétiser ces informations dans une réponse cohérente. Le coeur de l'innovation réside dans la combinaison de deux approches de recherche d'information : la recherche textuelle classique par mots-clés et la recherche sémantique vectorielle. Cette dernière repose sur des embeddings vectoriels précalculés, stockés dans des bases de données vectorielles comme OpenSearch, qui permettent de trouver des résultats pertinents même lorsque les termes exacts ne correspondent pas. Le système convertit la requête de l'utilisateur en vecteur numérique et identifie les contenus les plus proches dans un espace à haute dimension, en utilisant des métriques de distance comme la similarité cosinus. Un exemple frappant illustre la puissance de cette approche : pour la requête "2x4 lumber board", le système sémantique identifie "building materials" comme résultat pertinent, là où une recherche lexicale aurait échoué. Cette capacité d'alignement sémantique est particulièrement précieuse pour les entreprises dont les bases de connaissances métier utilisent une terminologie différente de celle employée par leurs clients. Cette publication s'inscrit dans la stratégie d'Amazon Web Services de positionner Bedrock comme la plateforme centrale pour le déploiement d'agents d'IA en entreprise. Le RAG hybride répond à un défi bien documenté des LLMs : leur incapacité à accéder nativement à des données récentes ou propriétaires. En greffant une couche de récupération dynamique sur des modèles comme ceux disponibles via Bedrock, AWS propose une alternative aux solutions de fine-tuning, plus coûteuses et moins flexibles. La concurrence dans ce segment est intense, avec des offres similaires chez Microsoft Azure (Azure AI Search) et Google Cloud (Vertex AI Search). L'intégration native d'OpenSearch dans cet écosystème renforce l'attrait pour les entreprises déjà clientes AWS, tandis que l'introduction de Bedrock AgentCore signale une montée en gamme vers des architectures multi-agents plus complexes, capables d'orchestrer plusieurs outils et sources de données simultanément.

OutilsOutil
1 source
Des alertes isolées à l'intelligence contextuelle : analyse d'anomalies maritimes par agents autonomes et IA générative
289AWS ML Blog 

Des alertes isolées à l'intelligence contextuelle : analyse d'anomalies maritimes par agents autonomes et IA générative

Windward, spécialiste de l'intelligence maritime par IA, a développé en partenariat avec l'AWS Generative AI Innovation Center un système baptisé MAI Expert, présenté comme le premier agent IA génératif dédié à l'analyse maritime. Ce système automatise l'investigation des anomalies de comportement de navires en croisant des données AIS (Automatic Identification System), des signaux de télédétection, des flux d'actualités en temps réel et des modèles propriétaires. Concrètement, dès qu'une anomalie est détectée par le module Windward Early Detection -- pic d'activité inhabituel, mouvement inattendu, déviation de route -- le pipeline IA extrait les métadonnées de l'événement (horodatage, coordonnées, type d'anomalie, classe du navire) puis interroge automatiquement des sources externes diversifiées pour produire une évaluation de risque textuelle et contextualisée. L'architecture repose sur Amazon Bedrock pour les modèles de langage et AWS Step Functions pour l'orchestration des étapes d'analyse. Avant ce système, les analystes maritimes passaient des heures à collecter et corréler manuellement des données complexes pour comprendre chaque anomalie -- un travail qui exigeait une expertise pointue et ralentissait considérablement la prise de décision. MAI Expert réduit ce délai en automatisant la collecte de contexte: météo, actualités, alertes croisées, données propriétaires. Les agences de défense, services de renseignement, forces de l'ordre et acteurs commerciaux qui utilisent la plateforme Windward peuvent ainsi concentrer leur énergie sur l'interprétation stratégique plutôt que sur la recherche d'information. L'enjeu est direct: dans le domaine maritime, une réponse rapide à une menace peut conditionner la protection d'infrastructures critiques ou l'interception d'activités illicites. Windward s'inscrit dans une tendance de fond qui voit l'IA générative dépasser le simple rôle de résumé pour devenir un véritable agent d'investigation autonome. La coopération avec AWS illustre comment les acteurs spécialisés dans des domaines à forte contrainte opérationnelle -- sécurité maritime, défense, logistique -- cherchent à intégrer les grands modèles de langage dans des workflows métier complexes, sans sacrifier la précision ni la traçabilité des sources. La suite logique de ce développement sera d'élargir le nombre de sources interrogées, d'améliorer la fiabilité des évaluations de risque en contexte ambigu, et potentiellement d'étendre le modèle à d'autres domaines où la surveillance multi-sources est critique, comme la gestion des frontières ou la surveillance environnementale.

UELes agences européennes de surveillance maritime, gardes-côtes et services de renseignement pourraient s'appuyer sur ce type de système pour renforcer la surveillance des frontières maritimes de l'UE et la lutte contre les trafics illicites en mer.

OutilsOutil
1 source
Amazon Bedrock AgentCore Gateway permet désormais de connecter des serveurs MCP via le flux Authorization Code
290AWS ML Blog 

Amazon Bedrock AgentCore Gateway permet désormais de connecter des serveurs MCP via le flux Authorization Code

Amazon a enrichi son service Bedrock AgentCore Gateway d'une nouvelle capacité majeure : la prise en charge du flux OAuth 2.0 Authorization Code, permettant aux agents d'IA de se connecter de manière sécurisée à des serveurs MCP protégés par authentification déléguée. Cette fonctionnalité, disponible via Amazon Bedrock AgentCore Identity, s'adresse aux organisations qui déploient des agents à grande échelle et qui doivent gérer des dizaines de connexions vers des serveurs tiers, dont ceux d'AWS, GitHub, Salesforce et Databricks. Concrètement, AgentCore Gateway joue le rôle de point d'entrée unique : les équipes configurent une seule URL Gateway au lieu de paramétrer chaque serveur MCP individuellement dans chaque IDE ou environnement de développement. L'authentification, l'observabilité et l'application des politiques de sécurité sont désormais centralisées en un seul plan de contrôle. Pour les organisations qui adoptent des agents d'IA en production, cette évolution résout un problème concret de gouvernance : jusqu'ici, chaque connexion à un serveur MCP devait être configurée et sécurisée séparément, ce qui devenait ingérable à mesure que le nombre de serveurs augmentait. Avec le flux Authorization Code, un agent peut agir au nom d'un utilisateur réel, obtenir un jeton d'accès via une authentification humaine, sans que les développeurs aient besoin d'embarquer des identifiants en dur dans le code applicatif ni de gérer manuellement le cycle de vie des tokens. Deux méthodes de création de cibles sont proposées : une synchronisation implicite où l'administrateur complète le flux d'autorisation lors de la création de la cible, et une méthode où le schéma d'outils est fourni directement à l'avance, recommandée quand une intervention humaine n'est pas possible en phase de déploiement. L'émergence du protocole MCP (Model Context Protocol) comme standard de connexion entre agents et outils externes a multiplié le nombre de serveurs que les équipes doivent orchestrer. Les grandes entreprises se retrouvent désormais à gérer des accès vers des systèmes hétérogènes, certains protégés par des fournisseurs d'identité fédérés, d'autres par leurs propres serveurs d'autorisation. AWS positionne AgentCore Gateway comme la réponse d'infrastructure à cette fragmentation, en apportant une couche de centralisation comparable à ce qu'une API Gateway classique fait pour les services REST. La prise en charge de l'Authorization Code flow, distincte des méthodes machine-à-machine comme Client Credentials, signale que Bedrock vise désormais des scénarios où des utilisateurs humains délèguent explicitement leurs droits à des agents, un cas d'usage clé pour les assistants d'entreprise qui accèdent à des outils SaaS au nom de leurs utilisateurs.

UELes entreprises européennes déployant des agents IA sur Amazon Bedrock peuvent centraliser la gestion des authentifications MCP, facilitant la conformité avec les exigences de sécurité du RGPD.

OutilsActu
1 source
Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours
291AWS ML Blog 

Strands Evals : simuler des utilisateurs réalistes pour évaluer les agents IA multi-tours

Amazon a publié dans son SDK Strands Evaluations une fonctionnalité appelée ActorSimulator, destinée à automatiser l'évaluation des agents IA dans des conversations multi-tours. Contrairement aux tests à tour unique — où l'on fournit une entrée, on collecte une sortie et on juge le résultat — les interactions réelles s'étendent sur plusieurs échanges : l'utilisateur pose des questions de suivi, change de direction ou exprime sa frustration face à des réponses incomplètes. Un assistant de voyage qui gère correctement "Réserve-moi un vol pour Paris" peut échouer lorsque le même utilisateur enchaîne avec "En fait, peut-on regarder les trains ?" ou "Qu'en est-il des hôtels près de la tour Eiffel ?". L'ActorSimulator permet de générer des utilisateurs simulés avec des personas structurés et des objectifs définis, puis de les laisser converser naturellement avec un agent sur plusieurs tours, à grande échelle. L'enjeu est considérable pour les équipes qui développent des agents conversationnels en production. Conduire manuellement des centaines de conversations multi-tours à chaque modification d'un agent est insoutenable, et les jeux de données statiques d'entrées/sorties ne capturent pas la dynamique réelle : la "bonne" prochaine question de l'utilisateur dépend entièrement de ce que l'agent vient de répondre. Les approches artisanales consistant à demander à un LLM de "jouer l'utilisateur" sans définition structurée du persona produisent des résultats incohérents d'une exécution à l'autre, rendant impossible la détection fiable de régressions. L'ActorSimulator répond à ce problème en combinant le réalisme d'une conversation humaine avec la reproductibilité et l'échelle des tests automatisés. Ce développement s'inscrit dans une tendance plus large de l'industrie à professionnaliser l'évaluation des agents IA, à mesure que ceux-ci quittent les démos pour entrer dans des usages critiques. AWS positionne Strands Evaluations comme une infrastructure d'évaluation systématique, comparable aux simulateurs de vol ou aux moteurs de jeu qui testent des millions de comportements avant déploiement. La difficulté fondamentale réside dans la croissance combinatoire des chemins de conversation : plus les capacités d'un agent s'étoffent, plus le nombre de scénarios possibles explose au-delà de ce que des équipes humaines peuvent explorer. En permettant la simulation structurée de personas avec des objectifs explicites et un suivi de progression, Strands Evals vise à offrir aux équipes d'évaluation un outil comparable à ce que les testeurs de logiciels ont dans d'autres disciplines d'ingénierie, avec des résultats comparables dans le temps.

OutilsOutil
1 source
Rocket Close révolutionne le traitement des documents hypothécaires avec Amazon Bedrock et Amazon Textract
292AWS ML Blog 

Rocket Close révolutionne le traitement des documents hypothécaires avec Amazon Bedrock et Amazon Textract

Rocket Close, filiale de gestion de titres et d'évaluations immobilières au sein du groupe Rocket Companies basée à Detroit, a automatisé le traitement de ses dossiers hypothécaires grâce à une solution développée en partenariat avec le AWS Generative AI Innovation Center (GenAIIC). L'entreprise traitait jusqu'à 2 000 dossiers par jour, chacun comptant en moyenne 75 pages, pour un total potentiel de plus de 500 000 documents par an. Le processus manuel exigeait jusqu'à 10 heures par dossier lors des pics de volume, soit environ 1 000 heures de travail humain quotidien, pour un coût annuel se chiffrant en millions de dollars. La nouvelle solution repose sur Amazon Textract pour la reconnaissance optique de caractères et Amazon Bedrock pour accéder à des modèles de fondation via une API unifiée. Elle atteint une précision globale de 90 % sur la segmentation, la classification et l'extraction de données, et rend le traitement 15 fois plus rapide qu'auparavant. L'impact opérationnel est considérable. En remplaçant un processus manuel chronophage par un pipeline automatisé, Rocket Close libère des ressources humaines pour des tâches à plus haute valeur ajoutée, réduit drastiquement ses coûts par dossier et élimine les goulots d'étranglement qui freinaient sa croissance. Pour les clients finaux, cela se traduit par des délais de traitement bien plus courts lors de l'achat ou du refinancement d'un bien immobilier. La solution est conçue pour absorber des volumes croissants sans dégradation de qualité, ce qui change fondamentalement les possibilités de mise à l'échelle dans un secteur où la vitesse d'instruction des prêts est un avantage concurrentiel direct. Le défi technique était loin d'être trivial : les dossiers hypothécaires sont des assemblages hétérogènes de plus de 60 types de documents différents, mêlant textes dactylographiés, notes manuscrites, tableaux, formulaires, tampons et signatures, avec une mise en forme et un ordre variables d'un dossier à l'autre. C'est précisément cette complexité structurelle qui avait jusqu'ici rendu l'automatisation difficile. L'essor des modèles de fondation multimodaux accessibles via des services managés comme Amazon Bedrock a changé la donne, en permettant une classification contextuelle robuste là où les approches règle-par-règle échouaient. Rocket Close s'inscrit ainsi dans une vague plus large de transformation documentaire dans les secteurs financiers et immobiliers, où les grands groupes cherchent à industrialiser des processus restés manuels faute d'outils suffisamment fiables. La prochaine étape pour l'entreprise sera probablement d'étendre ces capacités à d'autres types de documents tout au long de la chaîne de traitement des prêts.

OutilsOutil
1 source
Créer un agent FinOps avec Amazon Bedrock AgentCore
293AWS ML Blog 

Créer un agent FinOps avec Amazon Bedrock AgentCore

Amazon a dévoilé une solution clé en main pour construire un agent FinOps basé sur Amazon Bedrock AgentCore, permettant aux équipes financières de gérer les coûts AWS à travers plusieurs comptes via une interface conversationnelle unique. L'architecture repose sur Claude Sonnet 4.5 d'Anthropic, le Strands Agent SDK et le protocole MCP (Model Context Protocol), déployée via AWS CDK. L'agent consolide les données de trois services AWS — Cost Explorer, Budgets et Compute Optimizer — et propose plus de 20 outils spécialisés couvrant l'intégralité du spectre de la gestion des coûts cloud. La mémoire conversationnelle conserve jusqu'à 30 jours de contexte, permettant des questions de suivi sans répéter les informations préalables. Concrètement, cette solution élimine la nécessité pour les équipes finance et DevOps de naviguer manuellement entre plusieurs consoles AWS pour obtenir une vue consolidée des dépenses. Un responsable peut simplement demander "Quels sont mes principaux postes de dépenses ce mois-ci ?" et obtenir une réponse immédiate, sans requêtes SQL ni exports manuels. L'authentification repose sur Amazon Cognito (gestion des utilisateurs et flux OAuth 2.0 machine-à-machine), tandis qu'AWS Amplify héberge l'interface web. L'accès en langage naturel démocratise la visibilité sur les coûts cloud à l'ensemble de l'organisation, y compris aux profils non techniques — un enjeu majeur dans les entreprises où la facture AWS est souvent opaque pour les décideurs métier. Le FinOps — la pratique de gouvernance financière du cloud — est devenu un domaine à part entière alors que les dépenses cloud des entreprises ont explosé ces cinq dernières années, rendant le suivi des coûts multi-comptes complexe et chronophage. Amazon Bedrock AgentCore, lancé récemment par AWS, est la réponse d'Amazon à la vague d'agents IA d'entreprise : une plateforme d'exécution managée pour déployer des agents LLM avec mémoire, outils et identité gérés nativement. Cette solution illustre parfaitement la stratégie d'AWS de transformer ses propres services (Cost Explorer, Compute Optimizer) en sources de données accessibles via des agents IA, réduisant la friction d'adoption. La concurrence s'intensifie sur ce segment : Microsoft Copilot pour Azure Cost Management et Google Cloud Carbon Footprint poursuivent des ambitions similaires. La prochaine étape logique sera l'automatisation des recommandations d'optimisation, passant d'un agent qui répond à des questions à un agent qui agit directement sur l'infrastructure pour réduire les coûts.

UELes entreprises françaises et européennes utilisant AWS peuvent simplifier leur gestion de coûts cloud multi-comptes via cet agent, sans impact réglementaire ou institutionnel spécifique.

OutilsOutil
1 source
Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)
294AWS ML Blog 

Amazon Bedrock lance l'inférence d'IA générative en Asie-Pacifique (Nouvelle-Zélande)

Amazon Web Services vient d'ouvrir l'accès à Amazon Bedrock depuis la région Asie-Pacifique (Nouvelle-Zélande), identifiée sous le code ap-southeast-6 et basée à Auckland. Les clients néo-zélandais peuvent désormais appeler directement les modèles d'Anthropic — Claude Opus 4.5 et 4.6, Sonnet 4.5 et 4.6, et Haiku 4.5 — ainsi que les modèles Amazon Nova 2 Lite, sans passer par une région étrangère. Le mécanisme repose sur l'inférence cross-région : lorsqu'une requête est émise depuis Auckland, Amazon Bedrock la distribue dynamiquement vers une ou plusieurs régions de destination — Auckland elle-même, Sydney (ap-southeast-2) ou Melbourne (ap-southeast-4) — en fonction de la charge et de la disponibilité. Toutes les données transitent exclusivement sur le réseau privé AWS, chiffrées en transit, sans jamais passer par l'internet public. Les appels sont enregistrés dans AWS CloudTrail depuis la région source, et les logs d'invocation peuvent être dirigés vers CloudWatch ou S3 dans la même région. Cette disponibilité régionale répond à une demande concrète des entreprises néo-zélandaises soumises à des exigences de résidence des données. Le profil géographique « AU » permet désormais de garantir que les traitements d'inférence restent dans le périmètre Australie–Nouvelle-Zélande, ce qui est décisif pour des secteurs comme la santé, la finance ou les services publics, où la localisation des données est une contrainte légale ou réglementaire. En parallèle, les organisations sans contrainte de résidence peuvent opter pour le profil global, qui route vers n'importe quelle région commerciale AWS dans le monde pour maximiser le débit disponible. Ce double choix de routage offre une flexibilité opérationnelle rare sur le marché du cloud. Amazon Bedrock s'étend ainsi progressivement dans la zone Pacifique, une région stratégique pour AWS face à la concurrence de Google Cloud et Microsoft Azure, qui ont également multiplié leurs ouvertures de datacenters locaux ces dernières années. La Nouvelle-Zélande, bien que marché de taille modeste, représente un point d'ancrage important pour les entreprises multinationales opérant dans la région ANZ. L'intégration d'Auckland dans le profil cross-région AU — sans modifier les comportements existants de Sydney et Melbourne — illustre une approche incrémentale conçue pour ne pas perturber les architectures déjà en production. La prochaine étape probable sera l'élargissement du catalogue de modèles accessibles depuis cette nouvelle région source, au fur et à mesure que les capacités d'inférence locales monteront en charge.

InfrastructureActu
1 source
Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux
295AWS ML Blog 

Amazon Bedrock : exploiter les données vidéo à grande échelle grâce aux modèles multimodaux

Amazon Bedrock, la plateforme d'intelligence artificielle d'AWS, propose désormais une solution open source permettant d'analyser des vidéos à grande échelle grâce à des modèles multimodaux capables de traiter simultanément images et texte. Cette solution, disponible sur GitHub, s'articule autour de trois architectures distinctes, chacune adaptée à des cas d'usage et des compromis coût/performance différents. Elle répond à un besoin croissant des entreprises dans des secteurs aussi variés que la surveillance, la production médiatique, les réseaux sociaux ou les communications d'entreprise. Là où les approches traditionnelles de vision par ordinateur se limitaient à détecter des patterns prédéfinis — lentes, rigides et incapables de saisir le contexte sémantique — les nouveaux modèles fondationnels d'Amazon Bedrock changent la donne. La première approche, dite "frame-based", extrait des images à intervalles réguliers, élimine les doublons visuels grâce à des algorithmes de similarité (dont les embeddings multimodaux Nova d'Amazon en 256 dimensions, ou la détection de features OpenCV ORB), puis soumet ces frames à un modèle de compréhension d'image pendant que la piste audio est transcrite séparément via Amazon Transcribe. Ce workflow convient particulièrement à la surveillance de sécurité, au contrôle qualité industriel ou à la conformité réglementaire. Deux autres architectures complètent l'offre, chacune optimisée pour des scénarios différents comme l'analyse de scènes médiatiques, la détection de coupures publicitaires ou la modération de contenu sur les réseaux sociaux. L'ensemble du pipeline est orchestré par AWS Step Functions, garantissant une scalabilité et une fiabilité industrielle. L'analyse vidéo automatisée à grande échelle est devenue un enjeu stratégique majeur pour les organisations qui génèrent ou reçoivent des volumes massifs de contenus visuels. Jusqu'ici, ce travail reposait largement sur la révision manuelle ou des systèmes à règles figées, coûteux et peu adaptables. L'intégration de modèles multimodaux capables de comprendre le sens d'une scène, de répondre à des questions sur le contenu ou de détecter des événements nuancés représente un saut qualitatif important pour l'automatisation de workflows métier complexes.

OutilsOutil
1 source
Accélérer la reconnaissance d'entités personnalisées avec les outils Claude dans Amazon Bedrock
296AWS ML Blog 

Accélérer la reconnaissance d'entités personnalisées avec les outils Claude dans Amazon Bedrock

Amazon Bedrock propose désormais la fonctionnalité Claude Tool Use (function calling), qui permet d'extraire automatiquement des entités personnalisées depuis des documents non structurés sans entraînement de modèle traditionnel. La solution repose sur une architecture serverless combinant Amazon S3, AWS Lambda et Amazon Bedrock avec le modèle Claude d'Anthropic : un dépôt de document déclenche une extraction en temps réel des champs souhaités (noms, dates, adresses). Cette approche flexible et scalable élimine le besoin d'infrastructure complexe tout en s'adaptant dynamiquement à différents types de documents via des prompts en langage naturel.

OutilsOutil
1 source
Vaincre les hallucinations des LLM dans les secteurs réglementés : les modèles déterministes d'Artificial Genius sur Amazon Nova
297AWS ML Blog 

Vaincre les hallucinations des LLM dans les secteurs réglementés : les modèles déterministes d'Artificial Genius sur Amazon Nova

La startup Artificial Genius, en partenariat avec AWS, propose une architecture de "troisième génération" de modèles de langage qui combine la puissance générative d'Amazon Nova avec une couche déterministe brevetée, éliminant les hallucinations. Contrairement aux LLMs classiques qui génèrent des réponses de manière probabiliste, leur approche utilise le modèle de façon non-générative : le modèle comprend le contexte via interpolation, mais ne génère pas la réponse par prédiction de tokens. Cette solution, entraînée via Amazon SageMaker AI, vise spécifiquement les secteurs réglementés (finance, santé) où la reproductibilité et l'auditabilité des sorties sont des exigences non négociables.

LLMsOutil
1 source
IA agentique en entreprise – Partie 2 : Conseils par persona
298AWS ML Blog 

IA agentique en entreprise – Partie 2 : Conseils par persona

Dans la deuxième partie de cette série de l'AWS Generative AI Innovation Center, les auteurs s'adressent directement aux dirigeants d'entreprise pour leur expliquer comment déployer concrètement des agents IA selon leur rôle. Pour les responsables métier (P&L owners), la recommandation clé est de rédiger une "fiche de poste" pour l'agent — avec des objectifs précis liés aux KPIs existants (délais, coûts, taux d'erreurs) — avant de penser à la technologie. L'entrée en matière idéale est un agent qui consolide les handoffs entre équipes et pré-instruit les dossiers, générant des économies rapides qui permettent d'obtenir le soutien du CFO pour des projets plus ambitieux.

OutilsTuto
1 source
Fonds souverain britannique pour l'IA consolide sa structure cybernétique
299AI News 

Fonds souverain britannique pour l'IA consolide sa structure cybernétique

Le Royaume-Uni lance officiellement le 16 avril son fonds souverain pour l'IA, doté de 500 millions de livres sterling, avec pour objectif de développer une infrastructure informatique nationale indépendante des hyperscalers étrangers (AWS, Google Cloud, Azure). Piloté par James Wise de Balderton Capital, le fonds s'appuie sur des supercalculateurs domestiques comme Isambard-AI à Bristol et Dawn à Cambridge, et a déjà investi 8 millions de livres dans le consortium OpenBind, qui cartographie les interactions moléculaires à une échelle 20 fois supérieure aux bases de données existantes. L'initiative vise à protéger la propriété intellectuelle locale et à réduire les coûts de R&D — jusqu'à 40 % dans le secteur pharmaceutique — tout en capitalisant sur un marché tech national estimé à 1 000 milliards de livres et plus de 5 800 entreprises d'IA.

RégulationActu
1 source
OpenAI et Amazon annoncent un partenariat stratégique
300OpenAI Blog 

OpenAI et Amazon annoncent un partenariat stratégique

OpenAI et Amazon ont annoncé un partenariat stratégique pour déployer la plateforme Frontier d'OpenAI sur AWS, afin de développer l'infrastructure d'IA, les modèles personnalisés et les agents d'IA d'entreprise. Ce partenariat vise à renforcer les capacités technologiques et les solutions d'IA pour les entreprises.

BusinessActu
1 source