Aller au contenu principal

Dossier AWS — page 3

559 articles · page 3 sur 12

Ce qu'on suit chez AWS côté IA : Bedrock et ses modèles, SageMaker, les puces Trainium et Inferentia, l'investissement dans Anthropic et l'offre cloud IA.

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart
101AWS ML Blog LLMsOpinion

NVIDIA Nemotron 3 Ultra est désormais disponible sur Amazon SageMaker JumpStart

NVIDIA a annoncé la disponibilité immédiate de son modèle Nemotron 3 Ultra sur Amazon SageMaker JumpStart, permettant un déploiement en un clic sans gestion d'infrastructure. Le modèle repose sur une architecture hybride Transformer-Mamba de type Mixture-of-Experts (MoE), avec 550 milliards de paramètres au total dont seulement 55 milliards actifs par passe de calcul. Optimisé pour le format de précision NVFP4, il affiche une vitesse d'inférence cinq fois supérieure aux modèles équivalents et réduit les coûts jusqu'à 30 % pour les charges de travail agentiques. Il supporte des contextes allant jusqu'à un million de tokens, ce qui en fait l'un des modèles open source les plus ambitieux disponibles à ce jour sur une plateforme cloud grand public. Ce lancement cible directement les systèmes d'IA agentiques, une catégorie en pleine expansion où un modèle ne répond pas à une simple question mais planifie, appelle des outils, délègue des tâches à des sous-agents et itère sur des centaines de tours de dialogue. C'est précisément là que les modèles classiques montrent leurs limites : chaque étape supplémentaire alourdit le coût en tokens et en calcul. L'architecture MoE de Nemotron 3 Ultra contourne ce problème en n'activant qu'une fraction des paramètres à chaque passage, maintenant un débit élevé même sur des contextes très longs. Pour les entreprises qui automatisent des workflows complexes, orchestration d'agents, génération et débogage de code sur de vastes dépôts, recherche documentaire approfondie, cela se traduit concrètement par des tâches menées à terme avec une cohérence préservée et une facture cloud maîtrisée. NVIDIA positionne Nemotron 3 Ultra dans une stratégie plus large visant à s'imposer comme fournisseur de référence pour l'IA agentique d'entreprise, un segment où la concurrence s'intensifie entre OpenAI, Anthropic, Google et des acteurs open source comme Meta avec Llama. Le partenariat avec AWS et l'intégration native dans SageMaker JumpStart abaissent significativement la barrière à l'entrée pour les équipes techniques qui souhaitent tester ou déployer le modèle sans configurer de stack d'inférence from scratch. Les instances GPU requises, notamment les ml.p5en.48xlarge, restent coûteuses à l'heure, ce qui signifie que l'usage restera concentré sur des cas professionnels à forte valeur ajoutée. La disponibilité dès le jour zéro sur JumpStart suggère également un accord commercial étroit entre NVIDIA et Amazon, deux acteurs dont l'alliance dans le domaine de l'infrastructure IA se renforce à mesure que la course aux agents autonomes s'accélère.

UELes équipes R&D et développeurs européens accèdent désormais à l'un des plus grands modèles open source du marché via une plateforme cloud grand public, sans configuration d'infrastructure spécifique.

1 source
Détection d'objets avec Amazon Nova 2 Lite
102AWS ML Blog 

Détection d'objets avec Amazon Nova 2 Lite

Amazon a intégré à son service Bedrock un nouveau modèle multimodal, Nova 2 Lite, capable de détecter des objets dans des images via de simples instructions en langage naturel. Concrètement, il suffit de spécifier les éléments à repérer, une "voiture", une "personne", un "défaut", et le modèle retourne les coordonnées précises de chaque objet sous forme de JSON structuré, avec des boîtes englobantes normalisées sur une échelle de 0 à 1 000. Le déploiement repose sur trois services AWS : Bedrock pour l'inférence, Lambda pour l'exécution serverless, et API Gateway pour exposer l'endpoint. Le coût est particulièrement bas : 0,0003 dollar pour mille tokens en entrée et 0,0025 dollar pour mille tokens en sortie, ce qui revient à environ 5,69 dollars pour 10 000 images. Une intégration complète prend entre 30 et 45 minutes, sans aucun entraînement de modèle nécessaire. L'intérêt principal est d'éliminer la barrière d'entrée de la vision par ordinateur traditionnelle. Jusqu'ici, mettre en place un système de détection d'objets exigeait des pipelines de données, une infrastructure d'entraînement, des ressources de calcul significatives et souvent une équipe dédiée de data scientists, un investissement prohibitif pour les petites structures. Nova 2 Lite rend cette capacité accessible à n'importe quel développeur Python maîtrisant boto3, sans expertise en machine learning. Les cas d'usage couverts sont concrets : contrôle qualité en fabrication pour repérer des défauts sur une chaîne de production, comptage de cultures en agriculture, suivi de colis en logistique. La précision repose sur le prompt engineering, la façon dont on formule la demande au modèle conditionne directement la qualité des détections. Cette annonce s'inscrit dans une tendance de fond : les grands modèles de fondation multimodaux absorbent progressivement des tâches qui relevaient auparavant de pipelines spécialisés entraînés sur mesure. Amazon positionne Nova 2 Lite comme une alternative crédible aux solutions de computer vision classiques comme AWS Rekognition ou des bibliothèques comme YOLO, en misant sur la flexibilité du langage naturel plutôt que sur des catégories prédéfinies. Le fait que les coordonnées soient retournées dans un format standardisé et que l'architecture soit entièrement serverless facilite l'intégration dans des workflows existants. La prochaine étape logique pour les équipes adoptant cette approche sera d'évaluer les limites de précision face à des cas complexes, occlusions, objets de petite taille, scènes encombrées, là où les modèles spécialisés conservent encore un avantage.

OutilsOutil
1 source
Pourquoi les institutions financières se tournent vers les modèles de base transactionnels pour développer leur IA
103NVIDIA AI Blog 

Pourquoi les institutions financières se tournent vers les modèles de base transactionnels pour développer leur IA

Revolut et Mastercard font partie des premières institutions financières à adopter une nouvelle catégorie d'intelligence artificielle appelée « transaction foundation models », des systèmes entraînés sur des milliards d'événements financiers plutôt que sur des tâches isolées. Revolut a développé PRAGMA, une famille de modèles basés sur des transformers, en collaboration avec NVIDIA : entraîné sur 24 milliards d'événements issus de 26 millions de comptes dans plus de 100 pays, ce modèle unique surpasse des modèles spécialisés dans des domaines distincts comme le scoring de crédit, la détection de fraude et les recommandations produits. Mastercard travaille de son côté à un grand modèle tabulaire propriétaire, conçu pour évoluer jusqu'à des centaines de milliards de transactions en intégrant des données de fraude, d'autorisation, de remboursement, de localisation de marchands et de fidélité, avec l'appui de NVIDIA, AWS et Databricks. NVIDIA a également publié un exemple de développement open source permettant à n'importe quelle institution de commencer à construire ce type d'architecture sur ses propres données transactionnelles. L'enjeu concret est considérable. Là où un modèle de fraude classique évalue des signaux isolés, un modèle fondationnel interprète le comportement dans son contexte : un paiement à minuit, sur un appareil inconnu, depuis une ville jamais visitée, effectué en quatrième position en dix minutes, prend une signification radicalement différente. Cette profondeur contextuelle améliore les performances sur l'ensemble des tâches, pas seulement sur celle pour laquelle le modèle a été conçu. Pour les équipes data, le bénéfice opérationnel est immédiat : Tadas Kriščiūnas, responsable des données crédit chez Revolut, indique que le travail de feature engineering, qui prenait des semaines voire des mois, est désormais réduit à zéro. Selon le rapport 2026 de NVIDIA sur l'IA dans les services financiers, 65 % des institutions utilisent déjà l'IA et près de 90 % la déploient ou l'évaluent activement. Le secteur financier a passé des années à empiler des modèles spécialisés, un pour la fraude, un pour le crédit, un pour les recommandations, créant des architectures fragmentées incapables de partager leur compréhension du client. Chaque nouveau marché exigeait un réentraînement, chaque nouvel usage un nouveau modèle. L'émergence des transformers appliqués aux données tabulaires change la donne structurellement : une représentation unifiée du comportement financier, entraînée sur des données propriétaires massives, devient un actif stratégique différenciant. Les institutions qui consolident leur intelligence sur ce type de socle réduisent leur dette technique tout en gagnant en capacité d'adaptation, à l'heure où la concurrence entre banques traditionnelles, fintechs et géants technologiques s'intensifie sur le terrain de la personnalisation et de la sécurité.

UERevolut, néobanque européenne active dans plus de 100 pays, a développé PRAGMA avec NVIDIA pour améliorer détection de fraude et scoring crédit sur ses 26 millions de comptes, renforçant la compétitivité des fintechs européennes face aux banques traditionnelles.

OutilsOutil
1 source
Configurer un flux de code d'autorisation sécurisé avec AgentCore Gateway et des clients MCP
104AWS ML Blog 

Configurer un flux de code d'autorisation sécurisé avec AgentCore Gateway et des clients MCP

Amazon vient de détailler comment sécuriser les échanges entre les assistants de développement basés sur l'IA et les serveurs d'outils d'entreprise, à travers une configuration OAuth reposant sur son service Amazon Bedrock AgentCore. Le composant central de cette architecture est l'AgentCore Gateway, un point d'entrée géré qui centralise le routage et la sécurisation des communications entre agents IA et serveurs MCP (Model Context Protocol). La démonstration s'appuie sur Kiro, l'environnement de développement intégré d'Amazon orienté IA, qui joue le rôle de client OAuth. Côté fournisseur d'identité, l'exemple utilise Amazon Cognito, mais le schéma s'applique à tout IdP compatible, Okta, Microsoft Entra ID, ou tout autre système émettant des jetons de sécurité standards. Le flux fonctionne en plusieurs étapes : Kiro tente de se connecter au point d'accès MCP de la Gateway, reçoit un challenge HTTP 401 accompagné d'un en-tête pointant vers les métadonnées OAuth de la ressource protégée, puis récupère auprès de l'IdP un jeton d'identité valide avant que la requête ne soit enfin autorisée et transmise au serveur MCP sous-jacent. L'enjeu est concret : dans les environnements professionnels, les équipes cherchent à exposer des outils internes (bases de données, API métier, services cloud) à leurs assistants IA, sans sacrifier le contrôle d'accès. Sans mécanisme d'authentification robuste, n'importe quel agent pourrait interroger ces serveurs MCP sans vérification d'identité. Avec ce schéma, chaque requête émise par un assistant IA est associée à l'identité réelle de l'utilisateur qui a lancé la session, ce qui permet d'appliquer des politiques d'accès fines et d'auditer précisément qui a accédé à quoi. Pour les équipes de sécurité, c'est un changement de paradigme : l'IA cesse d'être un trou dans le périmètre de sécurité et devient un canal traçable comme n'importe quel autre. Ce tutoriel s'inscrit dans un mouvement plus large autour du protocole MCP, standardisé par Anthropic fin 2024 et rapidement adopté par l'ensemble de l'industrie comme lingua franca entre les agents IA et leurs outils. Amazon Bedrock AgentCore, lancé récemment, positionne AWS comme infrastructure d'hébergement de référence pour les agents en production, en ajoutant gestion du cycle de vie, monitoring et sécurité d'entreprise par-dessus les serveurs MCP. L'introduction d'un proxy OAuth optionnel dans l'architecture illustre la fragmentation encore existante entre les clients IA, les IdPs et les serveurs MCP : les standards évoluent vite, mais les implémentations concrètes nécessitent encore des couches d'adaptation. La prochaine étape probable est une intégration native de ces flux d'authentification directement dans les spécifications MCP, réduisant le besoin de proxies intermédiaires.

OutilsTuto
1 source
Amazon Quick au service de la recherche sur les cancers rares : intégration de bases de données biomédicales
105AWS ML Blog 

Amazon Quick au service de la recherche sur les cancers rares : intégration de bases de données biomédicales

Amazon a lancé Amazon Quick Research, un environnement de recherche unifié intégré à sa plateforme Amazon Quick, conçu pour accélérer l'analyse de données biomédicales fragmentées dans des domaines comme la cancérologie rare. L'outil combine des bases de données publiques, PubMed, ClinicalTrials.gov, des revues en accès libre, avec des fichiers internes (PDF, Word, Excel, CSV, JSON et une dizaine d'autres formats) au sein d'espaces de travail appelés Spaces, capables d'indexer jusqu'à 10 000 fichiers. Un agent orchestre la récupération multi-sources, décompose automatiquement une question de recherche en sous-thèmes, génère un plan d'investigation révisable avant exécution, puis produit un rapport structuré avec citations traçables jusqu'à la source. Les rapports sont exportables en PDF ou en Word, et un système de versioning permet d'annoter des passages spécifiques (jusqu'à 400 caractères par commentaire) pour déclencher des révisions ciblées qui incrémentent le numéro de version tout en conservant les versions antérieures. La démonstration publiée par AWS s'appuie sur le sarcome pédiatrique comme domaine d'application. L'enjeu principal est celui du temps perdu avant même que l'analyse commence. En cancérologie rare, les données sont aujourd'hui dispersées entre des pipelines de séquençage génomique, des registres d'essais cliniques, des référentiels de biomarqueurs et la littérature scientifique, des systèmes cloisonnés qui nécessitent habituellement des semaines de travail pour construire les pipelines ETL, réconcilier les schémas et interroger chaque source manuellement. Amazon Quick Research court-circuite cette étape en ingérant et indexant ces sources dès la création du projet, puis en synthétisant les résultats via un grand modèle de langage qui génère des conclusions avec leurs chaînes de preuve exposées via la fonctionnalité "Understand the statement". Pour les chercheurs, le gain est surtout sur la phase de revue de littérature et d'intégration de données, au bénéfice du temps consacré à l'analyse elle-même. Cette annonce s'inscrit dans la tendance plus large des agents IA appliqués à la recherche scientifique, où les grandes plateformes cloud cherchent à se positionner sur le marché des outils d'accélération biomédicale. AWS rejoint ainsi des acteurs comme Elsevier, Semantic Scholar ou plusieurs startups spécialisées qui proposent des outils comparables de synthèse de littérature. Amazon Quick Research reste un service payant avec facturation à l'usage, ce qui limite son accessibilité aux équipes académiques aux budgets serrés. Les développements probables incluent l'intégration de sources propriétaires, de bases cliniques sécurisées conformes au HIPAA, et potentiellement des connecteurs vers des entrepôts de données génomiques comme TCGA ou GEO, des ajouts qui étendraient considérablement la portée de l'outil dans un contexte où l'IA appliquée à l'oncologie de précision connaît une expansion rapide.

UELes chercheurs en oncologie rare en France et en Europe pourraient réduire le temps consacré à l'intégration de données biomédicales fragmentées, bien que la tarification à l'usage constitue un obstacle pour les équipes académiques aux budgets contraints.

OutilsOutil
1 source
Les modèles OpenAI et Codex sont désormais disponibles sur Amazon Bedrock
106AWS ML Blog 

Les modèles OpenAI et Codex sont désormais disponibles sur Amazon Bedrock

OpenAI et Amazon Web Services ont rendu officiellement disponibles, début juin 2026, GPT-5.5, GPT-5.4 et l'agent de code Codex sur Amazon Bedrock, un mois après l'annonce de leur partenariat élargi. Les trois modèles sont désormais accessibles en production via le catalogue Bedrock, avec une tarification identique à celle pratiquée directement par OpenAI, sans frais supplémentaires. GPT-5.5, le modèle le plus avancé de la gamme, excelle dans les tâches agentiques complexes : rédaction et débogage de code sur de grandes bases, analyse de données, génération de documents, et exécution autonome de séquences multi-étapes. Codex, l'agent de développement logiciel d'OpenAI, comptabilise plus de 5 millions d'utilisateurs hebdomadaires et est désormais accessible via l'application Codex, le CLI, ainsi que les intégrations IDE pour Visual Studio Code, JetBrains et Xcode, avec toute l'inférence routée par Bedrock. Pour les entreprises, cette disponibilité générale représente un changement opérationnel concret : les appels aux modèles OpenAI s'intègrent désormais dans les engagements AWS existants, comptent dans les crédits contractuels, et bénéficient des mécanismes de gouvernance déjà en place, notamment les permissions IAM, l'isolation réseau via VPC et PrivateLink, le chiffrement KMS et les journaux d'audit CloudTrail. Bedrock garantit par ailleurs une file d'attente isolée par client avec gestion automatique de la capacité, ce qui assure une performance prévisible même sous forte charge. Fait notable pour les secteurs réglementés : les prompts et réponses ne sont pas utilisés pour entraîner les modèles, et ne sont pas partagés avec OpenAI. Amgen, le géant pharmaceutique, a déjà exprimé son intérêt, son directeur technique Sean Bruich soulignant la qualité et la consistance de GPT-5.5 pour des contextes où la précision scientifique est critique. Ce déploiement s'inscrit dans une dynamique de consolidation entre les grands fournisseurs de cloud et les développeurs de modèles frontière. OpenAI cherche à multiplier les canaux de distribution pour ses modèles, en s'appuyant sur les infrastructures cloud existantes pour atteindre des clients enterprise déjà engagés avec AWS, plutôt que de les forcer à migrer vers une API directe. Pour Amazon, intégrer GPT-5.5 aux côtés de ses propres modèles Titan et des offres Anthropic et Mistral déjà disponibles sur Bedrock renforce le positionnement de la plateforme comme guichet unique du marché des modèles. L'enjeu sous-jacent est la rétention des dépenses cloud enterprise : en faisant compter l'usage d'OpenAI dans les engagements AWS, les deux sociétés créent une friction supplémentaire contre la migration vers Azure ou Google Cloud, où GPT-5.5 est également accessible.

UELes entreprises européennes sous contrat AWS peuvent désormais accéder aux modèles GPT-5.5 et Codex via Bedrock avec des garanties de conformité adaptées au RGPD (données non utilisées pour l'entraînement, isolation réseau VPC, chiffrement KMS), facilitant l'adoption dans les secteurs réglementés.

Amazon Bedrock AgentCore : paiements par agents autonomes avec garde-fous intégrés
107AWS ML Blog 

Amazon Bedrock AgentCore : paiements par agents autonomes avec garde-fous intégrés

Amazon a annoncé en avant-première AgentCore Payments, une nouvelle fonctionnalité d'Amazon Bedrock développée en partenariat avec Coinbase Developer Platform et Stripe (via Privy), qui permet aux agents d'intelligence artificielle d'effectuer des transactions financières au nom de leurs utilisateurs. Disponible en préversion dans quatre régions, Virginie du Nord, Oregon, Francfort et Sydney, la solution repose sur un système de portefeuilles embarqués auto-custodiaux hébergés chez ces partenaires. Concrètement, chaque session de paiement est isolée, assortie d'un budget configurable et d'une durée de vie limitée (TTL), empêchant tout agent de dépenser librement au-delà du périmètre défini. Les informations sensibles, numéros de carte, codes CVV, clés d'API développeur, ne transitent jamais dans le contexte de l'agent, ce qui réduit considérablement la surface d'exposition en cas de compromission. Cette capacité répond à un verrou majeur dans le déploiement des agents autonomes : jusqu'ici, dès qu'une ressource web, un outil ou un endpoint MCP nécessitait un paiement, l'agent se retrouvait bloqué, incapable de finaliser la tâche sans intervention humaine. En intégrant la transaction directement dans l'infrastructure AWS, Amazon permet aux développeurs de construire des agents capables de mener à bien des missions complexes sans interruption. Les garde-fous sont conçus pour répondre aux trois risques principaux identifiés : les dépenses incontrôlées liées au comportement non-déterministe des grands modèles de langage, l'absence de délégation explicite de la part de l'utilisateur final, et la compromission des credentials développeur ou des tokens de portefeuille. Les limites de dépense sont appliquées au niveau de l'infrastructure, en dehors du modèle, ce qui les rend incontournables même si l'agent est manipulé ou mal configuré. Cette annonce s'inscrit dans une tendance de fond : les grandes plateformes cloud cherchent à industrialiser l'infrastructure nécessaire aux agents autonomes, au-delà des simples appels d'API. AWS positionne Bedrock AgentCore comme une couche de confiance entre les agents et les systèmes financiers réels, à un moment où la course à l'agentivité s'intensifie entre Amazon, Google et Microsoft. Le choix de Coinbase et Stripe comme partenaires n'est pas anodin : il permet de couvrir à la fois les paiements en crypto-monnaie et les paiements en monnaie fiduciaire, deux rails complémentaires selon les cas d'usage. La fonctionnalité reste en préversion, avec des API susceptibles d'évoluer avant la disponibilité générale, mais elle marque une étape concrète vers des agents capables d'agir pleinement en mandataires économiques de leurs utilisateurs, avec un cadre de responsabilité clairement défini.

UELa région Frankfurt est incluse dans les quatre régions de préversion, ouvrant l'accès aux développeurs européens, mais sans cadre réglementaire spécifique à l'UE mentionné pour encadrer les paiements délégués à des agents IA.

OutilsOutil
1 source
Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant
108AWS ML Blog 

Chargement des LLM accéléré et fenêtres de contexte élargies avec GPUDirect, Amazon FSx for Lustre et TurboQuant

Amazon Web Services vient d'annoncer une combinaison technique qui pourrait transformer le déploiement de grands modèles de langage en production : l'utilisation conjointe d'Amazon FSx for Lustre, de NVIDIA GPUDirect Storage (GDS) et d'une nouvelle technique de quantification appelée TurboQuant. Concrètement, charger un modèle comme Llama 3.1 405B, soit environ 800 gigaoctets de poids en BF16, prend aujourd'hui entre 10 et 20 minutes avec une infrastructure classique. Avec GDS sur les nouvelles instances P6 et P6e d'AWS, propulsées par l'architecture NVIDIA Blackwell, ce délai tombe à quelques secondes. Le flagship P6e UltraServer concentre 72 GPU Blackwell dans un seul domaine NVLink, avec 13,4 téraoctets de mémoire HBM3e et 360 pétaflops de calcul en FP8. Le problème que résout cette approche est fondamental pour l'industrie de l'inférence à grande échelle. Dans le pipeline traditionnel, les poids du modèle transitent séquentiellement depuis le stockage vers la RAM CPU, sont désérialisés, éventuellement quantifiés, puis copiés un par un vers chaque GPU via le bus PCIe. Pendant tout ce temps, parfois vingt minutes, les GPU les plus chers de l'infrastructure restent inactifs. GPUDirect Storage court-circuite entièrement ce chemin : les checkpoints du modèle sont pré-découpés en fragments sur FSx for Lustre, et les huit GPU d'une instance lisent leurs fragments en parallèle directement dans leur mémoire HBM, sans jamais passer par le CPU ni le PCIe. L'impact est immédiat sur trois métriques critiques : la latence au premier token lors d'un démarrage à froid, la réactivité de l'autoscaling lors des pics de charge, et le coût d'infrastructure lié aux GPU qui attendent. Cette annonce s'inscrit dans une course à l'optimisation de l'inférence LLM qui s'est intensifiée depuis l'émergence de modèles à plusieurs centaines de milliards de paramètres. Des frameworks comme vLLM ont certes amélioré le chargement parallèle des poids depuis la version 0.19 et son moteur V1, mais les données continuent d'emprunter le CPU et le bus PCIe, une limitation structurelle que GDS supprime à la racine. AWS introduit simultanément TurboQuant, une technique de mise en cache KV qui permet d'augmenter significativement la taille des fenêtres de contexte disponibles sur ces instances. Ces deux avancées combinées positionnent AWS comme un acteur offensif sur le marché de l'infrastructure d'inférence, face à des concurrents comme Google Cloud et Azure qui développent leurs propres accélérateurs et solutions de stockage haute performance pour répondre aux mêmes contraintes.

UELes entreprises européennes déployant des LLMs à grande échelle sur AWS pourront réduire significativement leurs coûts d'infrastructure liés aux GPU inactifs au démarrage, avec un impact direct sur la compétitivité des services d'inférence en Europe.

InfrastructureOpinion
1 source
Amazon intègre les bases de données de séries temporelles pour l'analyse de marché via MCP
109AWS ML Blog 

Amazon intègre les bases de données de séries temporelles pour l'analyse de marché via MCP

Amazon vient de dévoiler une intégration du protocole MCP (Model Context Protocol) dans son service de business intelligence Amazon Q (Quick), permettant aux analystes financiers d'interroger des bases de données temporelles en langage naturel. L'exemple phare de cette architecture associe Amazon Q au serveur MCP de KDB-X, construit sur kdb+, un moteur d'analyse haute performance fonctionnant avec le langage vectoriel q, réputé dans le secteur financier pour traiter des millions de transactions boursières par seconde. Concrètement, un analyste peut désormais poser une question comme "quelle a été la volatilité du marché hier entre 10h et 12h ?" et obtenir une réponse sans écrire une seule ligne de code SQL. Le serveur MCP est déployé sur une instance Amazon EC2, tandis qu'Amazon Bedrock AgentCore Gateway assure la couche d'authentification et de routage, avec Amazon Cognito configuré comme fournisseur d'identité. Cette intégration transforme concrètement le quotidien des équipes qui dépendent de données temporelles denses : traders, ingénieurs DevOps, équipes IoT. Jusqu'ici, extraire des insights depuis kdb+ nécessitait des compétences en q ou SQL spécialisé, ce qui créait un goulot d'étranglement entre les analystes métier et la donnée brute. Avec cette architecture, Amazon Q traduit automatiquement les requêtes en langage naturel en instructions SQL, les envoie au serveur KDB-X via le gateway, et restitue les résultats directement dans l'interface de chat. Les outils exposés par le serveur MCP, hybridsearch, runsqlquery, similaritysearch, permettent également des cas d'usage avancés comme la recherche sémantique dans des dépôts réglementaires (fichiers SEC) ou le calcul de métriques de volatilité, sans que l'utilisateur ait besoin de connaître la structure sous-jacente des tables. Le protocole MCP, standardisé pour connecter des systèmes d'IA à des sources de données et outils externes, s'impose progressivement comme le trait d'union entre les LLM et les infrastructures d'entreprise. Amazon Q n'est pas le premier à l'adopter, Anthropic en est l'initiateur, et les principaux éditeurs l'ont rapidement intégré, mais l'associer à kdb+, standard de facto des salles de marché, envoie un signal clair vers les institutions financières. AWS positionne ici AgentCore Gateway comme une brique d'orchestration centrale, capable de gérer l'authentification et l'accès à plusieurs serveurs MCP simultanément. Le pattern architectural décrit dans cette publication est présenté comme réplicable à d'autres secteurs, ce qui laisse entrevoir une extension rapide vers les dashboards industriels, la surveillance d'infrastructure réseau, ou encore la santé connectée.

UELes institutions financières européennes utilisant kdb+ pourraient simplifier l'accès aux données de marché en langage naturel, mais aucune réglementation ou entreprise européenne n'est directement impliquée.

OutilsOutil
1 source
Anthropic lance Claude Opus 4.8 : workflows dynamiques, mode rapide moins cher et limite de 1 000 sous-agents
110MarkTechPost 

Anthropic lance Claude Opus 4.8 : workflows dynamiques, mode rapide moins cher et limite de 1 000 sous-agents

Anthropic a lancé Claude Opus 4.8 accompagné de deux nouvelles fonctionnalités pour Claude Code : les workflows dynamiques et une mise à jour du mode rapide. Les workflows dynamiques permettent d'orchestrer des centaines de sous-agents en parallèle via un script JavaScript que Claude génère automatiquement à partir d'une description de tâche. Un runtime exécute ce script en arrière-plan, libérant la fenêtre de contexte de Claude des résultats intermédiaires, qui restent stockés dans des variables du script. Chaque exécution est plafonnée à 16 agents simultanés et 1 000 agents au total. La fonctionnalité est disponible sur les plans Max, Team et Enterprise (désactivée par défaut sur Enterprise), ainsi que via l'API Claude, Amazon Bedrock, Vertex AI et Microsoft Foundry, à partir de la version 2.1.154 de Claude Code. En parallèle, le mode rapide pour Opus 4.8 est annoncé trois fois moins cher que pour Opus 4.7 (facturé 30/150 dollars par million de tokens en entrée/sortie), tout en offrant des vitesses de génération 2,5 fois supérieures. Les deux fonctionnalités sont disponibles en aperçu de recherche. Pour les développeurs confrontés à des migrations ou des audits de grande envergure, les workflows dynamiques élargissent considérablement ce qu'un agent peut accomplir en une seule session. Anthropic illustre le potentiel avec l'exemple de Jarred Sumner, qui a porté le runtime Bun du langage Zig vers Rust en 11 jours : environ 750 000 lignes de Rust générées, 99,8 % du test suite existant passé, avec des centaines d'agents travaillant en parallèle et deux réviseurs par fichier. La logique adversariale intégrée, où certains agents produisent des résultats et d'autres les réfutent jusqu'à convergence, vise une qualité inaccessible en un seul passage. Un job interrompu reprend là où il s'était arrêté dans la même session, les agents terminés retournant leurs résultats en cache. Le mode rapide répond à un besoin distinct : conserver la qualité Opus pour le débogage interactif et l'itération rapide, sans subir les délais habituels des grands modèles. Ces annonces s'inscrivent dans la course à l'agent autonome que se livrent Anthropic, OpenAI et Google depuis début 2025. Après avoir repositionné Claude Code comme plateforme de développement, Anthropic fait de l'orchestration multi-agents une fonctionnalité centrale de son offre. Le plafond de 1 000 agents par exécution et le statut d'aperçu de recherche des deux fonctionnalités témoignent d'une prudence réelle face à l'inflation des coûts en tokens, puisqu'une seule exécution peut générer des milliers d'appels. Le mode rapide, financé par des crédits d'utilisation séparés du forfait inclus, envoie un signal commercial clair : Anthropic cherche à monétiser la vitesse comme axe différenciant, là où ses concurrents misent davantage sur le prix. Les prochaines étapes probables incluent une stabilisation tarifaire et une extension des workflows vers des interfaces no-code, à mesure qu'Anthropic affine les garde-fous nécessaires à une adoption plus large.

UELa réduction de prix du mode rapide (3 fois moins cher que pour Opus 4.7) bénéficie directement aux développeurs européens utilisant Claude Code via l'API ou les plateformes cloud.

LLMsOpinion
1 source
Faciliter l'accès externe à Amazon SageMaker MLflow via un proxy REST API
111AWS ML Blog 

Faciliter l'accès externe à Amazon SageMaker MLflow via un proxy REST API

Amazon Web Services a publié un guide technique expliquant comment construire un service proxy Flask sécurisé pour accéder à Amazon SageMaker MLflow via HTTPS, sans recourir directement au SDK MLflow. Ce tutoriel s'adresse aux équipes de machine learning dont les entreprises imposent des politiques de sécurité strictes, des restrictions réseau, ou des contraintes liées aux systèmes hérités qui rendent l'utilisation directe du SDK impossible. L'architecture proposée s'articule autour de trois composants : un Application Load Balancer (ALB) d'AWS qui gère le routage du trafic entrant, un service proxy Python/Flask qui intercepte et transforme les requêtes HTTPS, et Amazon SageMaker MLflow lui-même, disponible en deux modes de déploiement distincts, soit un serveur de suivi géré (MLflow Tracking Server), soit une application serverless (MLflowApp). Le proxy prend en charge l'authentification AWS IAM, la pré-signature des URLs et la transformation des requêtes avant de les acheminer vers SageMaker. L'intérêt concret de cette solution réside dans sa capacité à réconcilier deux réalités souvent incompatibles dans les grandes organisations : les exigences de sécurité établies et l'adoption des services cloud natifs. De nombreuses entreprises en pleine transformation cloud se retrouvent bloquées face à une incompatibilité entre leurs workflows ML existants et les nouvelles infrastructures AWS, faute de pouvoir modifier leurs politiques réseau ou de sécurité. Ce proxy offre une réponse pragmatique : les systèmes métiers continuent d'envoyer des requêtes HTTPS standard, tandis que le proxy se charge de les signer avec les identifiants IAM avant de les relayer de manière sécurisée vers SageMaker MLflow. Le résultat est une intégration qui préserve la conformité sans imposer de refonte des outils existants. MLflow est devenu un standard de facto pour la gestion du cycle de vie des modèles de machine learning, permettant de tracer les expériences, versionner les modèles et piloter les déploiements. Amazon l'a intégré à SageMaker pour offrir une version managée aux équipes déjà sur son cloud, mais cette intégration supposait jusqu'ici l'utilisation du SDK Python, un prérequis bloquant dans de nombreux contextes d'entreprise. Ce guide illustre une tendance plus large dans l'ingénierie ML en entreprise : la nécessité de bâtir des couches d'adaptation pour connecter les outils modernes aux infrastructures existantes. En s'appuyant sur Flask, un framework Python minimaliste et largement maîtrisé, ainsi que sur les mécanismes d'authentification AWS standard, la solution proposée reste à faible complexité technique, réutilisable et évolutive, réduisant la friction lors des migrations cloud sans sacrifier la sécurité.

InfrastructureTuto
1 source
LangSmith sur AWS pour évaluer les agents LLM avancés
112AWS ML Blog 

LangSmith sur AWS pour évaluer les agents LLM avancés

AWS et LangChain ont publié conjointement un guide pratique sur l'évaluation des agents IA complexes en production, en s'appuyant sur l'outil LangSmith déployé sur l'infrastructure AWS. Co-rédigé par Karan Singh, directeur des partenariats chez LangChain, ce guide combine les travaux de LangChain et le guide publié par Anthropic sur la démystification des évaluations d'agents. Il présente cinq patterns d'évaluation, une méthode pour construire des tests hors ligne via pytest et LangSmith, ainsi qu'une configuration de monitoring en production. Le cas d'usage central est un agent "texte vers SQL" fonctionnant sur Amazon Bedrock, utilisant le modèle Amazon Nova 2 Lite, un modèle de raisonnement rapide et économique avec une fenêtre de contexte d'un million de tokens, capable de traiter texte, images, vidéos et documents, et bien adapté aux charges de travail agentiques. Le défi posé par l'évaluation des agents IA est fondamentalement différent de celui des LLMs classiques, pour trois raisons majeures : la non-déterminisme (le même agent peut réussir 90 % du temps et échouer dans 10 % des cas), la propagation d'erreurs (une faute à l'étape 3 peut fausser toutes les étapes suivantes, un agent SQL qui identifie mal le schéma construira un JOIN incorrect et produira une réponse erronée), et la créativité des solutions (les modèles frontières trouvent parfois des chemins valides non anticipés par les concepteurs de tests). Pour mesurer la fiabilité réelle, le guide introduit deux métriques clés : pass@k, qui mesure la probabilité d'au moins un succès en k tentatives, et pass^k, qui mesure la probabilité que toutes les k tentatives aboutissent, permettant ainsi de distinguer les agents capables d'improviser de ceux qui produisent des résultats cohérents et reproductibles. Ce guide s'inscrit dans une tendance de fond : à mesure que les agents IA passent des démonstrations aux déploiements réels, l'absence d'outils d'évaluation rigoureuse est devenue l'un des principaux freins à leur adoption industrielle. LangChain, qui développe l'un des frameworks d'orchestration les plus utilisés, et AWS, qui héberge une part croissante des charges de travail IA via Bedrock, se positionnent ensemble sur ce segment critique. LangSmith est disponible sur AWS Marketplace, ce qui simplifie son intégration dans les environnements cloud existants. Cette collaboration reflète une maturité croissante de l'écosystème : après une phase d'enthousiasme autour des agents autonomes, l'industrie se tourne désormais vers les questions de fiabilité, d'observabilité et de gouvernance, conditions indispensables à un déploiement à grande échelle.

OutilsOutil
1 source
Claude Opus 4.8 est désormais disponible sur AWS
113AWS ML Blog 

Claude Opus 4.8 est désormais disponible sur AWS

Anthropic a annoncé la disponibilité de Claude Opus 4.8, son modèle le plus avancé de la gamme Opus, sur Amazon Bedrock et sur la Claude Platform déployée sur AWS. Ce lancement permet aux équipes de développement d'intégrer le modèle directement dans leurs environnements AWS existants, tout en bénéficiant des garanties de sécurité entreprise, de résidence régionale des données et de la scalabilité d'infrastructure propres à Amazon. Pour les cas d'usage ne nécessitant pas de résidence régionale, le modèle est également accessible via la plateforme native d'Anthropic hébergée sur AWS. Techniquement, l'accès se fait via le SDK Anthropic avec l'identifiant de modèle us.anthropic.claude-opus-4-8, ou via les API Invoke et Converse d'Amazon Bedrock. Ce qui distingue Opus 4.8 de ses prédécesseurs, c'est sa capacité à maintenir un plan d'action sur plusieurs étapes successives, à suivre ce qui a été accompli et ce qui reste à faire, et surtout à se recorriger lorsqu'un blocage survient plutôt que de simplement s'arrêter sur une erreur. Pour les équipes qui automatisent des tâches longues et complexes, cette stabilité se traduit concrètement par moins de variance dans les sorties, moins de cycles de révision manuelle, et une supervision réduite des pipelines en production. En développement logiciel, le modèle est conçu pour naviguer dans de vraies bases de code, planifier avant d'éditer, et conserver le contexte sur des sessions prolongées. Les cas d'usage industriels ciblés incluent la recherche d'investissement et l'analyse de résultats financiers, la rédaction de contrats et de mémoires juridiques, la synthèse de littérature scientifique et de soumissions réglementaires en sciences du vivant, ainsi que l'analyse de menaces et la réponse à incident en cybersécurité. Ce lancement s'inscrit dans une stratégie de partenariat approfondi entre Anthropic et AWS, qui s'est notamment matérialisée par un investissement d'Amazon pouvant atteindre quatre milliards de dollars dans Anthropic. La disponibilité sur Bedrock est stratégique pour Anthropic, qui cherche à s'imposer comme fournisseur de référence pour les déploiements en entreprise, face à la concurrence directe d'OpenAI via Azure et de Google DeepMind via Vertex AI. Opus 4.8 représente le haut de gamme de la nouvelle génération Claude 4, une famille de modèles qui comprend également Sonnet 4.6 et Haiku 4.5, chacun positionné sur un équilibre différent entre performance et coût d'inférence. La prochaine étape pour Anthropic sera probablement d'élargir la disponibilité régionale du modèle sur Bedrock, et d'affiner ses capacités dans les domaines où la régulation de l'IA évolue rapidement.

UELes entreprises européennes peuvent déployer Claude Opus 4.8 sur Amazon Bedrock avec résidence régionale des données, facilitant la conformité RGPD pour les cas d'usage en production.

LLMsActu
1 source
Automatiser le triage des alertes anti-blanchiment avec Amazon Q et Snowflake Cortex AI
114AWS ML Blog 

Automatiser le triage des alertes anti-blanchiment avec Amazon Q et Snowflake Cortex AI

Amazon Web Services et Snowflake ont présenté une architecture conjointe permettant d'automatiser le traitement des alertes de lutte contre le blanchiment d'argent (LBA) dans les institutions financières. Lors de tests internes, le système construit sur Amazon Quick et Snowflake Cortex AI a réduit le temps d'investigation par alerte de 30 à 90 minutes à moins de 5 minutes. La solution repose sur le protocole MCP (Model Context Protocol), un standard ouvert qui permet à Amazon Quick Flows d'orchestrer des appels vers les agents Cortex de Snowflake sans connecteurs personnalisés, tout en maintenant une authentification OAuth. Concrètement, un analyste entre un identifiant d'alerte, et le système valide les données, interroge les transactions structurées via Cortex Analyst, fouille les documents de conformité via Cortex Search, puis génère automatiquement un rapport de disposition complet. L'enjeu est considérable pour les équipes de conformité des grandes banques : selon des études sectorielles, entre 90 et 95 % des alertes LBA sont des faux positifs. À raison de 30 à 90 minutes par alerte traitée manuellement, les départements compliance des établissements de taille moyenne à grande se retrouvent submergés de travail répétitif à faible valeur ajoutée. En automatisant la phase de triage, les deux plateformes permettent aux analystes de concentrer leur attention sur les cas réellement suspects, d'accélérer les délais réglementaires et de réduire les coûts opérationnels. La même logique d'orchestration peut s'appliquer à d'autres processus structurés similaires, comme le suivi des coûts cloud en FinOps, la gestion d'incidents pour les équipes SRE ou les enquêtes de conformité en général. Cette solution s'inscrit dans une tendance plus large de l'IA d'entreprise, qui évolue des simples assistants conversationnels vers des pipelines automatisés capables d'orchestrer plusieurs systèmes. Snowflake et AWS entretiennent déjà plus de 50 intégrations natives, incluant Amazon S3, AWS Glue, Amazon SageMaker et Amazon Bedrock. Amazon Quick, le service d'IA générative d'entreprise d'AWS, intègre désormais Quick Flows pour transformer des requêtes utilisateur en séquences d'appels standardisés sans code sur mesure. Le protocole MCP joue ici un rôle central en servant de langage commun entre les orchestrateurs et les agents spécialisés. À mesure que ces architectures se généralisent dans le secteur financier, la question n'est plus de savoir si l'IA peut automatiser la conformité, mais à quelle vitesse les institutions sauront déployer ces pipelines sur leurs propres infrastructures réglementées.

UELes banques et institutions financières européennes, soumises aux directives AMLD5 et AMLD6, pourraient déployer ce type de pipeline pour réduire leur charge de conformité et accélérer le traitement des alertes LBA réglementaires.

OutilsOutil
1 source
☕️ Amazon MGM Studios veut industrialiser les séries générées par IA
115Next INpact 

☕️ Amazon MGM Studios veut industrialiser les séries générées par IA

Amazon MGM Studios a officiellement lancé le programme GenAI Creators' Fund, un fonds destiné à financer des réalisateurs, des créateurs de contenu et des startups travaillant sur des films et des séries exploitant l'IA générative. Le studio développe en parallèle, en collaboration avec AWS, une plateforme de production baptisée « projet Nara ». Celle-ci intègre des logiciels professionnels déjà répandus dans l'industrie, Maya, Blender, le moteur Unreal, la suite Adobe, et supporte aussi bien la production de séries d'animation que de prises de vue réelles. Son architecture est conçue pour être « agnostique », combinant plusieurs modèles vidéo tiers et des modèles développés en interne par Amazon. Trois séries animées ont d'ores et déjà été commandées par Prime Video, avec une diffusion annoncée dans un futur proche. Pour démontrer la rapidité du processus, les producteurs sélectionnés disposent de cinq semaines pour finaliser leur pilote. Amazon affirme que le projet Nara permettra à la fois de réduire les coûts de production, d'accélérer les délais de fabrication et d'offrir aux créateurs un contrôle artistique plus étendu sur l'ensemble d'un projet. Albert Cheng, le responsable du studio, a insisté sur l'approche « centrée sur l'humain » du dispositif, assurant que les acteurs et les comédiens de doublage continueront d'être embauchés, et que l'IA n'a pas vocation à remplacer les équipes créatives. Un système de suivi dédié a également été mis en place pour protéger la propriété intellectuelle des contenus produits sur la plateforme. Ces engagements visent à anticiper les critiques d'un secteur qui reste profondément méfiant face à l'automatisation de la création. Cette annonce s'inscrit dans un contexte d'intégration progressive, et souvent chaotique, de l'IA générative dans l'industrie audiovisuelle. Netflix a été la première grande plateforme à diffuser une série incluant une séquence d'effets spéciaux entièrement générée par IA, avec la production argentine El Eternauta, avant d'établir des principes encadrant l'usage de ces technologies. D'autres initiatives, plus controversées, ont émergé ces derniers mois, notamment la série On This Day... 1776 réalisée par Darren Aronofsky et intégralement produite par IA, ou encore l'intégration d'un clone numérique de Val Kilmer dans un long-métrage. Amazon, en tant que propriétaire de MGM et opérateur d'AWS, occupe une position stratégique unique pour industrialiser ces processus. Le vrai test sera de savoir si cette approche industrielle peut produire des contenus de qualité suffisante pour convaincre les abonnés, et si les garanties annoncées en faveur des créateurs humains résisteront aux pressions économiques d'un marché du streaming sous tension permanente.

UELes créateurs et producteurs audiovisuels français et européens devront s'adapter à la montée en puissance de contenus générés par IA sur les plateformes de streaming mondiales, avec une pression accrue sur les conditions de travail dans le secteur audiovisuel.

💬 Cinq semaines pour finaliser un pilote, c'est le seul truc solide dans cette annonce. Le reste, les promesses sur les acteurs, l'approche "centrée sur l'humain", c'est du discours préventif avant le bras de fer avec les guildes. Amazon est probablement le seul acteur qui pouvait industrialiser ça à cette échelle, avec MGM pour la légitimité et AWS pour l'infrastructure, reste à voir si les abonnés Prime vont regarder ces séries ou les zapper au bout de deux minutes.

CréationOutil
1 source
Verizon Connect : comment l'IA à base d'agents est passée de la surcharge de données à 100 000 utilisateurs
116AWS ML Blog 

Verizon Connect : comment l'IA à base d'agents est passée de la surcharge de données à 100 000 utilisateurs

Verizon Connect, spécialiste mondial de la gestion de flottes de véhicules, a déployé une solution d'IA agentique servant désormais 100 000 utilisateurs quotidiens sur sa plateforme Reveal. Le défi était colossal : plus de 1,2 million de véhicules abonnés génèrent chaque jour plus de 500 millions de points de données répartis sur 80 000 indicateurs distincts. Les gestionnaires de flotte se retrouvaient noyés sous ces volumes, contraints de chercher manuellement des anomalies dans des fichiers papier fragmentés et des tableurs réactifs, une méthode incapable de détecter en amont les problèmes de sécurité, les besoins de maintenance ou les inefficacités opérationnelles avant qu'ils ne deviennent coûteux. Plutôt que d'ajouter un tableau de bord statique ou un système d'automatisation à règles fixes, qui ne capte que des schémas prédéfinis, l'entreprise a opté pour une architecture agentique capable d'investiguer dynamiquement des patterns inédits. Le pipeline repose sur une séparation claire des rôles : un modèle statistique sans serveur, construit avec AWS Step Functions et AWS Lambda, réalise d'abord le travail d'analyse numérique intensive pour identifier les anomalies et les consigner dans une table dédiée. Les agents IA prennent le relais en parallèle, chacun focalisé sur un client ou segment de données différent, interrogeant à la fois la table d'anomalies (le quoi) et les données brutes (le pourquoi), avant de synthétiser le tout via un grand modèle de langage en insights narratifs directement exploitables dans l'application. Cette architecture reflète une leçon clé de l'ingénierie IA à grande échelle : confier l'analyse numérique brute à un LLM est une erreur classique, car ces modèles peinent avec les structures tabulaires complexes à volume élevé. En déléguant ce traitement à du code spécialisé et en réservant le raisonnement au modèle de langage, Verizon Connect contourne les problèmes de précision et de coût qui plombent les solutions tout-en-LLM. Le projet, porté par une équipe de sept ingénieurs dont Matteo Simoncini et Luca Bravi, illustre une tendance de fond dans l'industrie : les grandes entreprises industrielles cherchent à transformer leurs gigantesques silos de données opérationnelles en intelligence actionnable, et l'IA agentique, avec sa capacité d'adaptation et d'enquête autonome, s'impose comme l'architecture de référence pour y parvenir à l'échelle.

OutilsOutil
1 source
Merck et Mastercard obtiennent des résultats concrets avec les agents IA : l'infrastructure d'abord
117VentureBeat AI 

Merck et Mastercard obtiennent des résultats concrets avec les agents IA : l'infrastructure d'abord

Merck accélère sa recherche médicamenteuse d'un tiers et produit ses supports marketing conformes 70 à 80 % plus vite grâce à des agents d'intelligence artificielle, selon Sean Finnerty, vice-président des plateformes digitales du groupe pharmaceutique américain, qui s'exprimait lors d'un récent événement AI Impact Series. Concrètement, les brouillons de campagnes marketing générés par l'IA sont conformes à la réglementation à 99 %, réduisant les cycles de révision de plusieurs mois à quelques jours. En recherche scientifique, un cycle de découverte médicamenteuse a été raccourci d'un tiers, soit environ un an gagné avant qu'un traitement n'atteigne les patients. Derrière ces résultats, une infrastructure imposante : 2 500 comptes AWS, de nombreux abonnements Microsoft Azure, des intégrations Google Cloud Platform, 47 sites périphériques et des centaines de bases de données stockant plusieurs pétaoctets de données structurées et non structurées, répartis entre Oracle, SQL, Excel, transcriptions téléphoniques et autres dépôts. Ces gains ne sont pas tombés du ciel. Finnerty insiste sur un principe qu'il nomme la stratégie "plomberie d'abord" : avant de déployer des agents, il faut bâtir l'infrastructure qui les rend fiables, sécurisés et interopérables. Sans cela, chaque projet isolé devient une dette technique. Pour Merck, l'enjeu est particulièrement fort dans le domaine réglementaire : une campagne vaccinale dans l'État de Géorgie répond à des règles différentes de celle lancée au Canada, et la moindre erreur peut avoir des conséquences légales. L'IA prend désormais en charge les premières ébauches, là où des équipes humaines effectuaient auparavant de longues boucles de validation, libérant du temps pour des tâches à plus forte valeur ajoutée. La leçon tirée par Merck s'appuie directement sur l'expérience du passage au cloud dans les années 2010, une période que Finnerty décrit comme chaotique, mais dont les entreprises qui ont correctement posé les bases ont finalement tiré le meilleur parti. Le groupe s'appuie aujourd'hui sur plusieurs solutions en parallèle, Databricks, Amazon Redshift et d'autres, car "il n'existe pas de solution unique pour résoudre chaque problème". L'objectif affiché est d'intégrer ces couches d'infrastructure aux protocoles émergents comme MCP (Model Context Protocol) et A2A (Agent2Agent), pour permettre aux agents de fonctionner de façon fluide quelle que soit la plateforme cloud sous-jacente. Avec des milliers d'agents à venir selon Finnerty, la question de leur enregistrement, de leur sécurisation et de leur accès aux bonnes données devient un enjeu stratégique autant que technique.

UELes entreprises pharmaceutiques et financières européennes, soumises à des réglementations strictes similaires, peuvent s'inspirer de cette approche 'infrastructure d'abord' pour sécuriser leurs déploiements d'agents IA à grande échelle.

InfrastructureOpinion
1 source
Paiements par agents autonomes : exploration technique d'AgentCore
118AWS ML Blog 

Paiements par agents autonomes : exploration technique d'AgentCore

Amazon a lancé en avant-première AgentCore Payments, un nouveau service managé intégré à Amazon Bedrock AgentCore, conçu pour permettre aux agents d'intelligence artificielle d'effectuer des paiements autonomes en temps réel. Le service prend en charge les stablecoins pour des microtransactions inférieures au centime, une API unifiée compatible avec les protocoles machine-à-machine comme x402, ainsi que des garde-fous de dépenses configurables permettant aux développeurs de fixer des budgets et des limites de transactions précises. Là où l'intégration de solutions de paiement tierces pour agents pouvait auparavant mobiliser plusieurs mois de développement, Amazon promet de réduire ce délai à quelques jours grâce à une abstraction complète de la complexité d'orchestration, de conformité réglementaire et d'observabilité. Ce lancement répond à un problème structurel qui freine l'essor des agents autonomes : lorsqu'un agent tente d'accéder à un service payant, une API ou du contenu sous abonnement, il se heurte à un mur. Les méthodes de paiement classiques comme les cartes bancaires imposent des frais fixes d'environ 0,30 dollar par transaction, ce qui les rend économiquement inviables pour des milliers d'appels valant chacun quelques fractions de centime. Sans solution native, chaque développeur devait câbler manuellement des portefeuilles tiers, gérer des comptes de facturation distincts chez chaque fournisseur et construire ses propres mécanismes de gouvernance financière. AgentCore Payments centralise tout cela en un seul appel API, rendant enfin viables les workflows d'agents qui consomment massivement des services externes à très faible coût unitaire. Ce service s'inscrit dans une tendance de fond qui redessine l'économie du web : le trafic automatisé généré par des agents dépasse désormais le trafic humain sur de nombreuses plateformes, poussant éditeurs, CDN et fournisseurs d'API à faire évoluer leurs modèles commerciaux vers du paiement à l'usage. Des protocoles comme x402 émergent pour standardiser les échanges financiers machine-à-machine, et les grands acteurs du cloud s'y positionnent en priorité. AWS, avec AgentCore, construit une infrastructure complète pour l'ère agentique, comprenant déjà la gestion de la mémoire, la sécurité et désormais les paiements. Si des milliards d'agents doivent opérer de façon autonome dans les prochaines années, la couche de paiement représente un maillon critique, et le premier à proposer un service managé mature dans ce domaine pourrait capturer une part substantielle de cette nouvelle infrastructure de l'économie numérique.

UELa réglementation MiCA sur les stablecoins en vigueur dans l'UE pourrait compliquer l'adoption d'AgentCore Payments pour les développeurs européens, qui devront vérifier la conformité des actifs numériques supportés avant tout déploiement.

💬 Le problème des microtransactions pour agents, c'est le genre de mur qui tuait les workflows avant même de démarrer. Payer 0,30 dollar par transaction quand l'appel vaut un centième de centime, c'est mathématiquement mort, et jusqu'ici chaque dev bricolait ça en solo avec trois portefeuilles tiers et aucune gouvernance. AWS centralise tout ça proprement, enfin du concret, même si les devs européens vont devoir passer par la case MiCA avant de déployer.

OutilsOpinion
1 source
AgentWatch : surveillance proactive d'AWS avec des agents de veille
119AWS ML Blog 

AgentWatch : surveillance proactive d'AWS avec des agents de veille

AgentWatch est un agent de surveillance AWS dit "ambiant", développé par Amazon et déployé sur Amazon Bedrock, conçu pour transformer la façon dont les équipes DevOps gèrent l'infrastructure cloud. Plutôt que de réagir aux alertes CloudWatch après que les problèmes ont déjà affecté les utilisateurs, AgentWatch effectue des vérifications automatiques toutes les 15 minutes, analysant les métriques, journaux et alarmes CloudWatch sur plusieurs comptes AWS simultanément. Les rapports synthétiques sont envoyés directement sur Slack, et l'outil répond aux requêtes en langage naturel sur l'état de l'infrastructure. Le système repose sur trois modes d'interaction "human-in-the-loop" qui maintiennent une supervision humaine appropriée tout en maximisant l'automatisation. L'enjeu est considérable pour les équipes d'ingénierie cloud : selon le problème décrit par Amazon, les erreurs AWS Lambda s'accumulent inaperçues, les dégradations de performance EC2 passent sous le radar jusqu'aux signalements clients, et les ingénieurs d'astreinte souffrent de "fatigue aux alertes" en jonglant entre outils fragmentés. AgentWatch vise à éliminer ce cycle réactif en assurant une veille continue sans intervention humaine constante, libérant du temps pour l'innovation plutôt que la lutte contre les incidents. Concrètement, l'outil traduit des données dispersées, métriques, logs de dizaines de services, alarmes en cascade, en informations exploitables, n'impliquant les équipes humaines que lorsque leur jugement est véritablement nécessaire. Ce projet s'inscrit dans une tendance plus large de l'industrie vers les "agents ambiants", une nouvelle catégorie de systèmes IA événementiels et autonomes capables de traiter plusieurs flux de données en parallèle. Contrairement aux outils de monitoring traditionnels qui exigent des requêtes manuelles et une analyse humaine continue, ces agents opèrent en arrière-plan de façon persistante, à la manière d'un collaborateur invisible. Pour Amazon, c'est aussi une démonstration concrète des capacités d'Amazon Bedrock comme socle pour des applications d'IA opérationnelle en entreprise. La question des suites reste ouverte : l'adoption large de tels agents dans les environnements cloud complexes nécessitera de définir précisément les frontières entre décision automatisée et validation humaine, notamment pour les actions correctives à fort impact comme le redémarrage d'instances ou la modification de configurations critiques.

OutilsOutil
1 source
De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands
120AWS ML Blog 

De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands

Amazon Web Services a publié Strands Agents, un framework open source sous licence Apache 2.0 qui permet de construire un assistant de recherche IA fonctionnel en une trentaine de lignes de Python. L'outil s'appuie sur les modèles fondamentaux d'Amazon Bedrock pour doter les agents d'une capacité de raisonnement autonome, sans avoir à coder manuellement chaque étape logique. AWS affirme déjà utiliser Strands Agents en production dans plusieurs de ses propres services, notamment Amazon Q et AWS Glue. L'annonce s'accompagne de la présentation de Kiro, un environnement de développement intégré alimenté par l'IA, qui intègre un mécanisme d'extensions appelé "Kiro Powers" : plus de cinquante modules préconfigurés couvrant la conception, le déploiement, la sécurité et l'observabilité, installables en un clic. Le module Strands, par exemple, embarque la documentation du SDK, des guides de démarrage et les patterns d'API corrects pour que Kiro puisse générer des agents fiables dès le premier essai. L'enjeu est de taille pour les équipes de développement : orchestrer plusieurs appels d'API, gérer l'état des conversations et construire des agents capables de planifier leurs actions représentait jusqu'ici un chantier réservé aux spécialistes du traitement du langage naturel et des systèmes distribués. Strands Agents casse cette barrière grâce à une approche model-driven où c'est le LLM lui-même qui prend en charge la logique et l'enchaînement des outils, le développeur n'ayant plus qu'à fournir un prompt et une liste de fonctions décorées avec @tool. Le framework est agnostique en matière de fournisseur : il fonctionne avec Amazon Bedrock, Anthropic et OpenAI, et supporte des architectures allant du simple agent isolé aux réseaux multi-agents hiérarchiques. Les réponses en streaming temps réel le rendent particulièrement adapté aux interfaces interactives. Cette publication s'inscrit dans une offensive plus large d'AWS pour capter les développeurs dans l'écosystème d'agents IA, un marché en pleine structuration où Google, Microsoft et Anthropic proposent leurs propres frameworks et plateformes. En rendant Strands open source et en le couplant à un IDE maison, AWS mise sur l'effet de réseau et la fidélisation par les outils plutôt que par le seul accès aux modèles. La compatibilité native avec AWS Lambda et IAM Identity Center facilite le passage du prototype à la production sans réécriture, ce qui constitue un argument décisif pour les entreprises déjà ancrées dans l'écosystème cloud d'Amazon. Les prochaines étapes probables incluent l'extension de la bibliothèque de Kiro Powers par la communauté et l'intégration plus étroite de Strands avec d'autres services AWS d'analyse et d'automatisation.

UELes équipes de développement européennes peuvent adopter Strands Agents pour accélérer leurs projets d'agents IA, mais l'intégration native avec Lambda et IAM renforce la dépendance à l'écosystème AWS, ce qui soulève des questions de souveraineté numérique pour les entreprises françaises et européennes.

OutilsOutil
1 source
Claude Mythos : Anthropic pourrait bientôt l’intégrer à Claude Code ?
121Le Big Data 

Claude Mythos : Anthropic pourrait bientôt l’intégrer à Claude Code ?

Anthropic s'apprête peut-être à intégrer son modèle Claude Mythos directement dans Claude Code, son outil de développement destiné aux programmeurs. Les indices sont apparus début mai 2026 : pendant quelques heures, certains utilisateurs des builds expérimentales ont aperçu une option nommée "claude-mythos-1-preview" dans l'interface de Claude Code. Ce n'est pas la première fois que le nom circule : Mythos avait été dévoilé en avril 2026 dans le cadre du projet Glasswing, un programme confidentiel rassemblant des partenaires comme AWS et Google. Selon Anthropic, le modèle surpasse Opus 4.7 sur plusieurs tâches de raisonnement complexes liées au code, et se distingue par un niveau d'autonomie inédit dans les workflows de programmation avancés. Si l'intégration se confirme, Claude Code deviendrait un outil d'audit de sécurité automatisé d'une puissance sans précédent pour les développeurs. Mythos peut détecter des vulnérabilités critiques dans des systèmes logiciels complexes, proposer des correctifs, et simuler des attaques pour tester la robustesse d'une application. En un mois d'expérimentation via Glasswing, le modèle aurait déjà identifié plus de 10 000 vulnérabilités critiques ou de haute gravité. Pour les entreprises, la promesse est considérable : intercepter les failles de sécurité avant la mise en production réduit massivement les risques d'incident, les coûts de correction, et les dégâts réputationnels. Ce type de capacité, aujourd'hui réservé à des équipes de sécurité spécialisées, deviendrait accessible directement dans l'environnement de développement. Le déploiement d'un tel modèle n'est pourtant pas sans danger, et Anthropic en est pleinement conscient. La raison pour laquelle Mythos est resté confidentiel depuis son annonce est explicite : l'entreprise reconnaît elle-même que le modèle est capable de générer des cyberattaques fonctionnelles à un niveau professionnel. Autrement dit, un outil qui comprend les failles peut aussi apprendre à les exploiter. Anthropic se retrouve ainsi face à une tension structurelle que toute l'industrie de la cybersécurité connaît bien : plus un outil de détection est puissant, plus il devient dangereux entre de mauvaises mains. La firme cherche à tracer une ligne entre capacité offensive et usage défensif, sans offrir une surface d'attaque à grande échelle. L'intégration dans Claude Code, si elle se concrétise, sera vraisemblablement accompagnée de restrictions d'accès strictes, de garde-fous techniques, et d'un déploiement progressif, la question étant de savoir si ces précautions suffiront face à des acteurs malveillants déterminés à contourner les limitations imposées par le modèle.

UELes développeurs et entreprises européens pourraient accéder à un outil d'audit de sécurité automatisé de niveau professionnel dans leur environnement de développement, sous réserve des garde-fous imposés par l'AI Act sur les systèmes IA à haut risque.

SécuritéOpinion
1 source
Microsoft et EY investissent 1 milliard de dollars pour accélérer l’industrialisation de l’IA
122Le Big Data 

Microsoft et EY investissent 1 milliard de dollars pour accélérer l’industrialisation de l’IA

Microsoft et EY ont annoncé le 21 mai 2026 un partenariat stratégique d'un milliard de dollars sur cinq ans pour accélérer le déploiement industriel de l'intelligence artificielle dans les grandes entreprises. L'initiative prévoit la constitution d'équipes mixtes, composées d'ingénieurs Microsoft et de consultants sectoriels EY, chargées d'accompagner les organisations dans l'intégration de l'IA au coeur de leurs opérations critiques. Les secteurs ciblés en priorité sont les services financiers, l'industrie, l'énergie, la santé, le secteur public, la distribution et les biens de consommation. EY a déjà généralisé Microsoft 365 E7 à plus de 400 000 collaborateurs dans le monde, après avoir déployé Copilot auprès de 150 000 employés avec un gain de productivité estimé à 15 %. Dans la finance, l'usage de Microsoft Power Platform et Copilot Studio aurait réduit certains délais opérationnels de 95 % et les coûts de plus de 37 %. EY a par ailleurs intégré un système multi-agents basé sur Azure, Microsoft Foundry et Microsoft Fabric dans sa plateforme d'audit EY Canvas, couvrant déjà 130 000 professionnels sur 160 000 missions. Ce partenariat répond à un blocage structurel que rencontrent aujourd'hui la plupart des grands groupes : passer des expérimentations isolées à un déploiement IA à l'échelle de l'entreprise. La majorité des organisations accumulent des pilotes sans parvenir à les industrialiser, faute de gouvernance adaptée, de formation des collaborateurs et de processus internes reconfigurés. En ciblant précisément les secteurs où l'automatisation et l'analyse de données produisent des impacts financiers rapides et mesurables, Microsoft et EY cherchent à répondre à l'exigence croissante de retour sur investissement concret que posent les directions générales avant tout nouvel engagement budgétaire dans l'IA. EY joue dans cette alliance la carte du "Client Zéro" : le cabinet teste les technologies Microsoft sur ses propres opérations avant de les proposer à ses clients, ce qui lui confère un avantage crédible dans un marché saturé de promesses non vérifiées. Ce positionnement intervient dans un contexte de compétition intense entre les grands cabinets de conseil et les éditeurs technologiques pour capter les budgets de transformation IA des entreprises du Fortune 500. Microsoft, de son côté, consolide son écosystème Azure et Copilot comme infrastructure de référence pour l'entreprise, face à la concurrence de Google Cloud et AWS. La suite dépendra de la capacité des deux groupes à démontrer des résultats reproductibles et auditables, condition sine qua non pour convaincre les directions financières d'accélérer leurs investissements au-delà des phases pilotes.

UELes grandes entreprises françaises et européennes des secteurs financier, énergétique, de la santé et du secteur public sont directement ciblées par ce programme d'industrialisation IA, susceptible d'accélérer les transformations numériques dans l'UE.

💬 Le problème qu'ils attaquent, l'industrialisation après les pilotes, c'est le vrai blocage de l'IA en entreprise depuis deux ans. EY qui joue le Client Zéro sur 400 000 collaborateurs, c'est l'argument le plus solide qu'un cabinet peut sortir face aux DG qui ont avalé trop de PowerPoints. Les 95% de réduction de délais affichés, bon, sur le papier ça claque, mais ça va être une autre histoire à reproduire sans EY dans la boucle.

BusinessOpinion
1 source
OpenAI inaugure un laboratoire à Singapour tandis que l'IMDA met à jour son cadre IA
123AI News 

OpenAI inaugure un laboratoire à Singapour tandis que l'IMDA met à jour son cadre IA

OpenAI va ouvrir son premier laboratoire d'IA appliquée hors des États-Unis à Singapour. Baptisée "OpenAI for Singapore", cette initiative a été annoncée lors de l'ATx Summit en partenariat avec le ministère du Développement Numérique et de l'Information, adossée à un engagement de plus de 300 millions de dollars singapouriens. Le laboratoire créera plus de 200 postes techniques locaux sur plusieurs années, et Singapour deviendra l'un des hubs mondiaux pour les ingénieurs d'OpenAI chargés du déploiement auprès des organisations. Les travaux se concentreront sur les priorités de l'AI Mission singapourienne, notamment les services publics, la finance et l'infrastructure numérique. Simultanément, l'Infocomm Media Development Authority (IMDA) a publié une version actualisée de son cadre de gouvernance pour l'IA agentique, lancé lors du Forum Économique Mondial en janvier 2026, révisé après consultation de plus de 60 organisations dont AWS, DBS, Google et Salesforce. L'implantation d'OpenAI à Singapour dépasse l'ouverture d'un bureau commercial : il s'agit d'un centre technique capable de développer des solutions adaptées aux besoins locaux, avec des programmes d'accompagnement concrets tels qu'un chapitre singapourien de l'OpenAI Academy, des hackathons Codex for Teachers et des ateliers destinés aux micro-entrepreneurs et PME pour intégrer l'IA dans leurs opérations. Pour les systèmes agentiques, la mise à jour du cadre IMDA apporte des réponses précises aux risques émergents : systèmes multi-agents, agents tiers, biais d'automatisation et responsabilité humaine sont désormais traités explicitement, avec plus de dix études de cas issues d'organisations comme Tencent, OCBC, PwC et GovTech Singapore. Ces deux annonces s'inscrivent dans la stratégie de Singapour pour s'imposer comme une référence mondiale en gouvernance de l'IA, un effort qui remonte au Model AI Governance Framework de 2020 et qui s'est progressivement densifié à mesure que les technologies évoluaient. Les études de cas du nouveau cadre IMDA illustrent comment des entreprises ont mis en oeuvre des mécanismes concrets de supervision humaine : Dayos, une société d'automatisation IA basée à Singapour, a déployé un agent de ticketing IT avec des niveaux de risque gradués, automatisant les actions réversibles comme les réinitialisations de mots de passe et exigeant une approbation humaine pour les modifications à risque élevé. Tencent, de son côté, a contribué avec CodeBuddy, son système de codage agentique qui requiert une validation explicite pour toute action sensible. L'enjeu dépasse largement Singapour : à mesure que les agents IA gagnent en autonomie dans les entreprises, ces cadres de gouvernance pourraient servir de modèle aux pays encore en quête de référentiels opérationnels.

UELe cadre de gouvernance singapourien pour les agents IA, co-construit avec plus de 60 organisations mondiales, pourrait servir de référentiel opérationnel aux régulateurs européens pour l'application de l'AI Act aux systèmes agentiques.

💬 Singapour joue un jeu long depuis 2020, et là ça commence à prendre forme. OpenAI ne pose pas juste un drapeau commercial : 200 postes techniques, des programmes pour les PME locales, un labo capable de développer des solutions sur-mesure, c'est une vraie infrastructure. Ce qui m'intéresse surtout, c'est le cadre IMDA sur les agents : 60 organisations, des études de cas réelles, une gouvernance graduée par niveau de risque. Les Européens devraient regarder ça de près avant de finir l'AI Act en salle de réunion.

BusinessActu
1 source
De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer
124Latent Space 

De nouvelles licornes dans l'infrastructure IA : Exa, Modal, TurboPuffer

Trois entreprises spécialisées dans l'infrastructure pour l'intelligence artificielle ont atteint simultanément des jalons majeurs cette semaine, signalant une consolidation rapide du secteur. TurboPuffer, moteur de recherche vectorielle, annonce 100 millions de dollars de revenus récurrents annuels tout en étant rentable. Exa, moteur de recherche sémantique pour les agents IA, lève 250 millions de dollars dans un tour de Série C qui valorise l'entreprise à 2,2 milliards de dollars. Modal, plateforme cloud de calcul GPU à la demande, annonce quant à elle 355 millions de dollars levés à une valorisation de 4,7 milliards de dollars en Série C. Ces trois annonces tombent dans la même fenêtre de 48 heures, les 20 et 21 mai 2026. Ces chiffres illustrent une dynamique structurelle : l'explosion de la demande en infrastructure IA n'est plus portée uniquement par les grands hyperscalers comme AWS ou Google Cloud, mais de plus en plus par des acteurs spécialisés capables de répondre précisément aux besoins des développeurs d'agents et de pipelines LLM. Modal permet d'exécuter du code Python avec des GPU en quelques secondes sans gérer de serveurs ; Exa fournit une API de recherche conçue pour les LLM plutôt que pour les humains ; TurboPuffer offre une base de données vectorielle haute performance. Que les trois atteignent ces valorisations en même temps indique que le marché des outils pour construire des applications IA génère désormais des revenus réels et prévisibles, pas seulement des promesses. Ces succès s'inscrivent dans un contexte où l'ingénierie IA est devenue une discipline à part entière, distincte de la recherche fondamentale en machine learning. L'émergence d'une couche d'infrastructure spécialisée, entre les modèles de fondation des grands labs et les applications finales, crée un espace économique autonome. Latent Space, le podcast et newsletter qui suit ces entreprises depuis leurs débuts, note avoir interviewé les fondateurs des trois sociétés bien avant ces valorisations, soulignant à quel point la communauté des praticiens IA identifie tôt les acteurs structurants. La question désormais est de savoir si ces entreprises resteront indépendantes ou deviendront des cibles d'acquisition pour les grandes plateformes cloud, qui cherchent à intégrer verticalement la chaîne de valeur du développement IA.

UELes développeurs français et européens d'applications IA disposent désormais d'une couche d'infrastructure spécialisée (compute GPU à la demande, recherche vectorielle, recherche sémantique pour LLMs) comme alternative aux grands hyperscalers pour leurs pipelines d'agents.

💬 TurboPuffer rentable à 100M ARR, Modal à 4,7 milliards, Exa à 2,2, tout ça en 48h, c'est pas du hasard. J'attendais ce signal pour confirmer que la couche infra entre les grands modèles et les applis génère vraiment de l'argent, pas juste du cashburn déguisé en croissance. Si tu construis des trucs avec des LLMs, ces outils sont soit déjà dans ta stack, soit tu vas y venir.

InfrastructureOpinion
1 source
CopilotKit redéfinit l'architecture IA à base d'agents en 2026
125MarkTechPost 

CopilotKit redéfinit l'architecture IA à base d'agents en 2026

CopilotKit, startup basée à Seattle et co-fondée par Atai Barkai et Uli Barkai, s'est imposée en 2026 comme l'un des acteurs centraux de l'infrastructure pour agents IA. La société a lancé en avril 2026 AIMock, un outil de test pour systèmes agentiques, et AG-UI, un protocole d'interaction entre agents et utilisateurs au sein des applications. AG-UI est aujourd'hui soutenu par Google, Microsoft, Amazon et Oracle, ainsi que par des frameworks majeurs comme LangChain, Mastra, PydanticAI et Agno. AWS l'a intégré dans son template FAST (Fullstack AgentCore Solution Template) et dans Bedrock AgentCore. Des SDKs communautaires couvrent déjà Kotlin, Go, Dart, Java, Rust, Ruby et C++, tandis que .NET, Nim, Flowise et Langflow sont en cours de développement. Atai Barkai enseigne par ailleurs un cours complet sur AG-UI chez DeepLearning.AI, couvrant un backend LangChain, un frontend React et AG-UI comme runtime. Ce que CopilotKit résout est concret : jusqu'ici, intégrer une IA dans une application signifiait coller un widget de chat dans un coin d'interface. L'utilisateur tapait, le modèle répondait en texte, et personne ne prenait en charge la traduction de cette réponse en action réelle. AG-UI comble le troisième maillon manquant de la pile agentique : MCP standardise l'accès aux outils externes, A2A coordonne les agents entre eux, AG-UI gère la couche d'interaction entre l'agent, l'application et l'utilisateur. Il permet le streaming en temps réel, la génération dynamique de composants d'interface, la synchronisation d'état bidirectionnelle, et les pauses "human-in-the-loop" où l'agent attend une confirmation avant d'agir. AIMock, lui, s'attaque à un problème que peu d'équipes osent admettre : les suites de tests pour agents sont, pour la plupart, de la fiction. Une requête agentique typique en 2026 traverse six ou sept services (LLM, serveur MCP, base vectorielle, reranker, API de recherche web, couche de modération, sous-agent A2A) et la plupart des équipes n'en simulent qu'un seul, laissant les autres non-déterministes et incontrôlés. L'analogie avancée par CopilotKit est parlante : AG-UI serait à la pile agentique ce que HTML est au web, la couche de présentation et d'interaction que TCP et HTTP rendent possible sans pouvoir la fournir eux-mêmes. Pendant des années, l'IA dans les logiciels est restée un outil passif, fonctionnel comme une calculatrice mais incapable d'agir de façon autonome. CopilotKit parie que l'avenir appartient aux agents qui vivent à l'intérieur des applications, comprennent le contexte de l'utilisateur, prennent des actions et génèrent des interfaces adaptées plutôt que de longs blocs de texte. Avec l'adoption par les grands fournisseurs cloud et l'entrée dans les cursus pédagogiques, la startup semble avoir franchi le cap qui sépare le protocole expérimental de l'infrastructure de production. La prochaine étape annoncée porte sur la persistance runtime, troisième chantier d'une feuille de route 2026 qui vise délibérément les angles morts de l'architecture agentique.

💬 L'idée du maillon manquant est bonne : MCP pour les outils, A2A pour la coordination, AG-UI pour l'utilisateur, la stack agentique commence à avoir une vraie colonne vertébrale. Ce qui me parle autant, c'est AIMock, parce que les suites de tests pour agents c'est de la fiction dans la plupart des équipes, et c'est enfin assumé. AWS dans Bedrock, Google et Microsoft embarqués, bon, sur le papier c'est le seuil qui sépare le protocole expérimental du vrai standard de prod.

InfrastructureOpinion
1 source
Amazon Nova Act est désormais éligible à la conformité HIPAA
126AWS ML Blog 

Amazon Nova Act est désormais éligible à la conformité HIPAA

Amazon a annoncé que Nova Act, son service d'agents IA autonomes capables d'interagir avec des interfaces web, est désormais éligible HIPAA. Cette certification, publiée en mai 2026, permet aux organisations de santé et de sciences de la vie d'utiliser ces agents pour traiter des informations de santé protégées électroniquement (ePHI) en conformité avec la loi américaine sur la portabilité et la responsabilité en matière d'assurance maladie. Disponible dans la région AWS US East (Virginie du Nord), Nova Act permet de construire et gérer des flottes d'agents IA qui naviguent dans des navigateurs web, remplissent des formulaires, extraient des données et exécutent des workflows complexes en plusieurs étapes, en s'appuyant sur du code Python combiné à des instructions en langage naturel. Le service s'intègre au framework Strands Agents, à Amazon Bedrock AgentCore, CloudWatch et IAM. Concrètement, les établissements de santé, assureurs et prestataires de soins peuvent désormais automatiser des tâches chronophages comme la prise de rendez-vous, la vérification de couverture d'assurance, les autorisations préalables, le suivi des remboursements ou la coordination des référencements entre médecins, sans intervention humaine et sans sortir du cadre réglementaire HIPAA. L'enjeu est considérable : ces processus administratifs représentent une part massive des coûts opérationnels du secteur de la santé aux États-Unis. En réduisant la charge manuelle, Nova Act promet des délais de traitement plus courts pour les remboursements et une exécution plus cohérente des procédures de routine. L'agent peut également remonter une tâche à un superviseur humain lorsqu'il rencontre une situation ambiguë, ce qui maintient un niveau de contrôle nécessaire dans des environnements sensibles. La difficulté jusqu'ici tenait à la nature même des agents IA : contrairement aux modèles de langage qui se contentent de générer du texte, ces systèmes interagissent avec des systèmes réels et accèdent à des données vivantes, ce qui les soumettait à des exigences de conformité bien plus strictes. Amazon a obtenu cette éligibilité en intégrant Nova Act à sa liste de services HIPAA et en permettant aux clients de signer un accord de partenaire commercial (BAA) directement depuis la console AWS. Les organisations restent néanmoins responsables de la configuration de leurs propres contrôles de sécurité, notamment les politiques IAM, le chiffrement via AWS KMS et les journaux CloudTrail. Cette annonce s'inscrit dans une tendance plus large : après les modèles génératifs, c'est maintenant l'IA agentique qui entre dans les secteurs fortement réglementés, ouvrant la voie à une automatisation plus profonde dans la finance, le juridique et la santé.

UECette certification concerne uniquement la réglementation américaine HIPAA ; les organisations de santé européennes devront attendre une conformité équivalente au RGPD avant de pouvoir déployer Nova Act sur des données de santé sensibles.

OutilsOutil
1 source
Optimisation des flux de travail en radiologie grâce aux agents IA
127AWS ML Blog 

Optimisation des flux de travail en radiologie grâce aux agents IA

Des chercheurs et ingénieurs d'Amazon Web Services, en partenariat avec Radiology Partners, ont publié un article technique décrivant un système d'agents IA capables d'optimiser l'attribution des examens radiologiques. Le problème qu'ils cherchent à résoudre est documenté par une étude portant sur 62 hôpitaux et 2,2 millions d'examens : les systèmes traditionnels de liste de travail radiologique provoquent des retards moyens de 17,7 minutes sur les cas urgents, et génèrent des surcoûts estimés entre 2,1 et 4,2 millions de dollars par réseau hospitalier. La solution proposée repose sur Amazon Bedrock AgentCore et le Strands Agents SDK, deux outils AWS permettant de déployer des agents autonomes capables de raisonner sur des données cliniques complexes en temps réel. Le coeur du problème est structurel : les systèmes actuels fonctionnent à partir de règles fixes qui ignorent le contexte opérationnel. Ils ne tiennent pas compte de la spécialisation précise du radiologue disponible, de son niveau de fatigue après plusieurs heures consécutives d'interprétations complexes, ni de la difficulté réelle de l'examen à traiter. Ce déficit d'analyse pousse les radiologues à sélectionner les cas les plus simples ou les mieux rémunérés, laissant les études complexes en attente. Les agents IA proposés évaluent simultanément six facteurs : spécialisation, charge de travail actuelle, schémas de fatigue, complexité du cas, urgence clinique et disponibilité. Contrairement aux moteurs déterministes, le système apprend des historiques d'attribution et s'adapte continuellement, réduisant mécaniquement les comportements de sélection opportuniste. Ce développement s'inscrit dans une tendance plus large de l'IA agentique dans les environnements à forte criticité. Les systèmes de type worklist radiologique existent depuis des décennies, mais leur logique déterministe n'a jamais évolué sans intervention humaine manuelle : quand une règle produit un résultat sous-optimal, le même schéma se répète indéfiniment jusqu'à ce qu'un administrateur modifie le paramétrage. L'introduction d'agents fondés sur des modèles de fondation (foundation models) disponibles via Amazon Bedrock représente un changement de paradigme, passant de la gestion de tâches à une orchestration véritablement autonome. Radiology Partners, l'un des plus grands groupes de radiologie aux États-Unis, a choisi de s'associer à AWS pour déployer cette approche à l'échelle industrielle, signalant que l'IA agentique est désormais considérée comme une capacité opérationnelle critique, et non plus comme un projet expérimental.

OutilsOutil
1 source
Créer des agents multi-locataires avec Amazon Bedrock AgentCore
128AWS ML Blog 

Créer des agents multi-locataires avec Amazon Bedrock AgentCore

Amazon a lancé Bedrock AgentCore, un service managé et serverless conçu pour permettre aux éditeurs de logiciels SaaS de déployer des applications agentiques en environnement multi-tenant sur AWS. Le service offre des primitives pour héberger des agents et des serveurs MCP (Model Context Protocol), avec une gestion intégrée des identités, de la mémoire, de l'observabilité et des évaluations. Le coeur de son architecture repose sur des microVMs isolées par session: chaque session client obtient son propre environnement d'exécution éphémère, avec un système de fichiers persistant propre, sans le coût ni la latence d'une machine virtuelle complète. Le contexte du tenant transite via des en-têtes HTTP personnalisés, portant l'identifiant du tenant, son niveau de service, ses préférences régionales et ses droits d'accès aux outils, ce qui permet à l'agent d'adapter dynamiquement son comportement sans logique de routage codée en dur. Cette approche répond directement au fossé qui sépare un prototype fonctionnel d'un déploiement en production dans un contexte SaaS. Les architectes d'applications agentiques devaient jusqu'ici résoudre manuellement six problèmes distincts: l'isolation des tenants, la propagation de leur identité, l'observabilité par tenant, l'isolation des données, l'attribution des coûts et la mitigation du "noisy neighbor" (un tenant monopolisant les ressources au détriment des autres). AgentCore propose trois patterns d'isolation, appelés Silo, Pool et Bridge, chacun offrant un compromis différent entre protection stricte et mutualisation des coûts. Pour les éditeurs gérant des centaines ou des milliers de clients sur une même plateforme, cette capacité à choisir un modèle d'isolation par segment tarifaire change concrètement l'équation économique et de conformité. Le lancement s'inscrit dans une course des grands fournisseurs cloud à imposer leurs infrastructures agentiques comme standard de facto pour la prochaine génération d'applications IA. AWS fait face à la concurrence directe de Google avec Vertex AI Agent Builder et de Microsoft avec Azure AI Agent Service, tous trois cherchant à capter les équipes d'ingénierie qui passent de l'expérimentation à la production. L'article publié par AWS est le premier d'une série, ce qui suggère que d'autres composants d'AgentCore (évaluation, fine-tuning par tenant, facturation granulaire) seront détaillés dans les prochaines semaines. La question centrale pour les équipes SaaS reste le degré de lock-in accepté en échange de la simplicité opérationnelle qu'offre un service pleinement managé.

UELes éditeurs SaaS européens construisant sur AWS peuvent exploiter les patterns d'isolation et les préférences régionales d'AgentCore pour satisfaire les exigences de résidence des données imposées par le RGPD.

OutilsOpinion
1 source
Créer un assistant de recrutement IA avec Amazon Bedrock
129AWS ML Blog 

Créer un assistant de recrutement IA avec Amazon Bedrock

Selon une enquête menée auprès de 748 responsables RH, les recruteurs consacrent en moyenne 17,7 heures par poste à pourvoir à des tâches administratives, soit plus de deux journées de travail par recrutement. Une étude SmartRecruiters de 2024 confirme cette réalité : 45 % des responsables de l'acquisition de talents passent plus de la moitié de leur temps sur des tâches automatisables. Pour répondre à ce problème, Amazon Web Services vient de publier une architecture de référence permettant de construire un assistant de recrutement alimenté par l'intelligence artificielle, reposant sur Amazon Bedrock. La solution s'appuie sur le modèle Amazon Nova Pro via l'API Bedrock Converse, AWS Lambda pour le traitement des requêtes, Amazon API Gateway pour le routage, Amazon DynamoDB et Amazon S3 pour le stockage, et Amazon Bedrock Guardrails pour les garde-fous éthiques, notamment l'anonymisation des données personnelles, la détection d'injections de prompts malveillants et le filtrage des contenus biaisés. Une interface web hébergée sur AWS Amplify, sécurisée via Amazon Cognito avec authentification par jetons JWT, permet aux recruteurs d'accéder à l'ensemble des fonctionnalités depuis un tableau de bord centralisé. Concrètement, l'outil automatise l'analyse des CV, calcule des scores de compatibilité multidimensionnels entre candidats et offres d'emploi, et génère des questions d'entretien personnalisées selon le profil de chaque candidat. L'objectif est de libérer les équipes RH des tâches répétitives qui dégradent la qualité des décisions : la surcharge administrative pousse aujourd'hui les recruteurs à effectuer un tri superficiel, favorisant les candidats dont les CV contiennent les bons mots-clés ou la meilleure mise en forme, plutôt que ceux présentant les véritables compétences requises. En déléguant ces étapes à l'IA, la solution cherche à recentrer l'attention humaine sur l'évaluation qualitative, là où elle apporte une réelle valeur ajoutée. Cette publication s'inscrit dans une intense compétition entre les grands fournisseurs de cloud pour imposer leurs plateformes d'IA dans les flux de travail des entreprises. Amazon Bedrock se positionne comme une infrastructure neutre, capable de faire tourner plusieurs modèles de fondation selon les besoins métier. AWS prend soin de préciser que l'architecture présentée est proposée à des fins d'apprentissage et non comme une solution directement déployable en production, invitant les entreprises à l'adapter à leurs propres exigences de conformité et de sécurité. La question de la responsabilité algorithmique dans le recrutement reste centrale : si ces outils peuvent réduire certains biais humains, ils risquent aussi d'en introduire de nouveaux s'ils ne sont pas rigoureusement audités, un défi que les garde-fous intégrés à Bedrock Guardrails ne suffisent pas à résoudre seuls.

UEL'AI Act classe les systèmes d'IA utilisés dans le recrutement comme systèmes à haut risque, imposant aux entreprises européennes qui adopteraient cette architecture des obligations strictes de transparence, d'audit algorithmique et d'enregistrement avant tout déploiement.

OutilsOutil
1 source
Amazon SageMaker AI prend en charge l'API compatible OpenAI
130AWS ML Blog 

Amazon SageMaker AI prend en charge l'API compatible OpenAI

Amazon a annoncé ce mois-ci que SageMaker AI supporte désormais une API compatible avec celle d'OpenAI pour ses endpoints d'inférence en temps réel. Concrètement, les développeurs qui utilisent le SDK OpenAI, LangChain ou le framework Strands Agents peuvent désormais router leurs appels vers des modèles hébergés sur SageMaker AI en changeant uniquement l'URL de l'endpoint. Plus besoin de client personnalisé, de wrapper SigV4, ni de réécriture de code. Les endpoints SageMaker exposent un chemin /openai/v1 qui accepte les requêtes au format Chat Completions et renvoie les réponses du conteneur telles quelles, y compris en streaming. L'authentification repose sur des tokens bearer à durée limitée (jusqu'à 12 heures), générés à partir des credentials AWS existants via le SDK Python SageMaker, sans clé API supplémentaire. Ce changement simplifie radicalement l'intégration de SageMaker dans les stacks d'IA existantes. Pour les équipes qui orchestrent des agents multi-LLM via une gateway (comme Bifrost, mentionnée par Giorgio Piatti, ingénieur ML chez Caffeine.AI), SageMaker devient un fournisseur interchangeable sans adaptation technique. Les cas d'usage sont nombreux : workflows agentiques tournant entièrement sur de l'infrastructure dédiée en compte AWS, hébergement multi-modèles sur un seul endpoint via les inference components (par exemple Llama pour les tâches générales, un Mistral fine-tuné pour un domaine métier, et un petit modèle de classification), ou encore déploiement de modèles open source fine-tunés sans toucher au code applicatif existant. Pour les entreprises soumises à des contraintes de souveraineté des données ou de conformité, c'est un gain concret : elles peuvent utiliser les mêmes frameworks standardisés OpenAI tout en gardant les modèles dans leur propre compte AWS. Cette annonce s'inscrit dans une bataille plus large pour capter les workloads d'inférence IA en entreprise. Le standard OpenAI s'est imposé de facto comme protocole universel pour les LLMs, et les grands fournisseurs cloud (AWS, Google, Azure) cherchent à réduire les frictions pour attirer des équipes déjà investies dans cet écosystème. Amazon avait déjà investi massivement dans Bedrock et SageMaker, mais l'adoption restait freinée par les incompatibilités d'API qui forçaient les migrations de code. En adoptant la compatibilité OpenAI directement au niveau de SageMaker AI, AWS ferme cet écart et concurrence frontalement des solutions comme Azure OpenAI Service ou les endpoints Vertex AI de Google. Le notebook d'exemple avec Qwen3-4B (modèle d'Alibaba disponible sur Hugging Face) illustre aussi l'ouverture vers les modèles open source, un segment en forte croissance face aux modèles propriétaires.

UELes entreprises européennes soumises aux contraintes RGPD et de souveraineté des données peuvent désormais utiliser les frameworks OpenAI standard tout en maintenant leurs modèles dans leur propre infrastructure AWS hébergée en région européenne.

💬 C'est le genre de truc qui semble anodin et qui change tout en pratique. Changer juste l'URL pour basculer d'OpenAI vers SageMaker, sans toucher au code, c'est exactement ce que les équipes enterprise attendaient pour switcher sans se battre avec leur DSI. Bon, ça reste AWS, donc la facture peut vite grimper, mais pour les boîtes avec des contraintes de souveraineté data, l'argument est solide.

OutilsOpinion
1 source
Google lance une API d'agents gérés : déploiement simplifié, mais moins de contrôle sur l'exécution
131VentureBeat AI 

Google lance une API d'agents gérés : déploiement simplifié, mais moins de contrôle sur l'exécution

Lors de Google I/O, Google a annoncé les Managed Agents dans son API Gemini, un service conçu pour réduire à un simple appel API ce qui nécessitait auparavant plusieurs semaines de travail d'infrastructure. Disponible en préversion via de nouveaux modèles personnalisés dans Google AI Studio, ce service s'accompagne du lancement du CLI Antigravity. Concrètement, avant même d'écrire le moindre agent, les équipes passaient des jours à configurer des environnements d'exécution, gérer des sandboxes et câbler l'infrastructure d'appels d'outils. Google promet désormais d'absorber toute cette complexité dans sa plateforme, en optimisant conjointement le modèle, le harnais d'exécution et le sandbox dans des environnements sécurisés entièrement gérés par Google. L'impact pour les équipes de développement est direct : en déléguant la couche d'exécution à Google, les développeurs peuvent se concentrer sur le comportement métier spécifique de leurs agents et itérer à un rythme radicalement différent. René Sultan, responsable chez Ramp, cité dans l'annonce de Google, résume ce basculement : le runtime d'agent passe désormais dans la plateforme, libérant les développeurs de la gestion du sandbox, de l'infrastructure et de la boucle d'exécution. Pour les entreprises qui démarrent avec les agents, cette proposition est séduisante. Elle supprime la plupart des obstacles au déploiement tout en conservant un contrôle sur le comportement applicatif. La concurrence s'intensifie sur ce segment précis du marché, ce qui accélère la maturité des outils disponibles pour tous. Ce mouvement s'inscrit dans une transformation plus large de l'architecture des systèmes multi-agents. Jusqu'à récemment, l'orchestration reposait sur des frameworks indépendants qui se plaçaient au-dessus du modèle, laissant aux équipes le contrôle du routage et de l'exécution. Cette couche est désormais absorbée par les plateformes elles-mêmes. Anthropic a adopté une approche différente avec ses Claude Managed Agents, en plaçant l'orchestration au niveau du modèle plutôt que sur une plateforme d'exécution séparée. AWS, via Bedrock AgentCore, propose pour sa part des harnais managés pour simplifier le déploiement initial. Google pousse vers une intégration verticale plus poussée, contrôlant l'ensemble de la pile. Ce choix n'est pas sans risques : Arie Trouw, fondateur et PDG de XYO, avertit que remplacer des services déterministes par des services probabilistes peut introduire des comportements imprévisibles pour les utilisateurs, voire de la corruption de données. Un rappel que l'enthousiasme autour des agents ne doit pas occulter les arbitrages fondamentaux entre contrôle, fiabilité et vitesse de développement.

UELes équipes de développement françaises peuvent tester cette API en préversion via Google AI Studio, réduisant significativement la complexité de déploiement d'agents IA.

💬 L'infra agent, c'était le vrai mur avant de démarrer. Des semaines à configurer des sandboxes, à câbler les appels d'outils, avant même d'avoir une ligne de logique métier qui tourne, et Google absorbe tout ça dans un appel API. Reste que troquer du déterministe contre du probabiliste pour gagner en vitesse de déploiement, ça va faire des dégâts chez quelques équipes qui n'auront pas lu les petites lignes.

OutilsOutil
1 source
Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals
132AWS ML Blog 

Évaluateurs multimodaux : MLLM comme juge pour les tâches image vers texte dans Strands Evals

Amazon a annoncé le lancement de quatre nouveaux évaluateurs multimodaux dans son SDK Strands Evals, conçus pour juger automatiquement la qualité des réponses textuelles générées à partir d'images. Baptisés Overall Quality, Correctness, Faithfulness et Instruction Following, ces évaluateurs fonctionnent sur Amazon Bedrock et s'intègrent directement dans le flux de travail Case/Experiment/Report de Strands Evals. Leur principe : envoyer l'image source, la requête et la réponse du modèle à un modèle juge multimodal, qui retourne un score (sur une échelle de Likert 1-5 ou binaire) accompagné d'un raisonnement exploitable pour le débogage. Ils supportent deux modes d'évaluation, avec ou sans réponse de référence, et peuvent être branchés directement dans des pipelines d'intégration continue pour détecter automatiquement hallucinations visuelles, erreurs factuelles et violations d'instructions. La limitation des évaluateurs textuels classiques est au coeur de cette annonce. Un juge qui ne voit pas l'image peut valider un texte bien rédigé tout en laissant passer des erreurs critiques : un modèle qui invente une tendance dans un graphique qui ne la montre pas, hallucine un produit absent d'une photo, ou ignore une instruction de format. Ces trois types d'échecs nécessitent trois types de corrections différents, et les agréger en un seul score global rend le débogage quasi impossible. Sans évaluation multimodale automatisée, les équipes sont coincées entre la revue humaine, coûteuse et non scalable, et des proxys textuels qui manquent précisément les défaillances qui comptent, notamment dans des cas d'usage comme la lecture de factures, l'analyse de tableaux de bord ou la description de captures d'écran. L'enjeu est considérable à l'échelle de l'industrie. Selon Gartner, 80 % des logiciels d'entreprise seront multimodaux d'ici 2030, contre moins de 10 % en 2024. Cette transition rapide pousse les équipes d'ingénierie à construire des pipelines d'évaluation capables de suivre la complexité croissante des modèles déployés. Strands Evals s'inscrit dans l'écosystème d'agents IA open source qu'Amazon a commencé à assembler ces derniers mois, avec une ambition claire : fournir une chaîne d'outils complète, de la construction à l'évaluation des agents. Ces quatre évaluateurs représentent une brique manquante pour les équipes qui travaillent sur le commerce visuel, la compréhension de documents ou tout système où la vérité de terrain réside dans l'image et non dans le texte. La prochaine étape logique sera d'étendre ces mécanismes à des modalités supplémentaires, vidéo, audio, à mesure que les modèles fondamentaux gagnent en capacités.

OutilsOutil
1 source
AION : la gigafactory IA d'Orange, EDF et Capgemini
133FrenchWeb 

AION : la gigafactory IA d'Orange, EDF et Capgemini

Ardian, Orange, EDF, Capgemini, Artefact, Bull, le Groupe iliad et Scaleway ont annoncé leur regroupement au sein du consortium AION pour déposer une candidature française au programme européen des AI Gigafactories. Cette initiative, portée par la Commission européenne dans le cadre de son agenda pour la souveraineté numérique, vise à financer la construction de centres de calcul massifs dédiés à l'intelligence artificielle sur le sol européen. L'alliance réunit ainsi des acteurs complémentaires : un fonds d'investissement de premier plan, deux géants de l'énergie et des télécoms, un intégrateur IT mondial et plusieurs spécialistes du cloud français. L'enjeu est considérable pour l'écosystème européen de l'IA. L'Europe accuse un retard structurel face aux États-Unis et à la Chine en matière de puissance de calcul disponible pour entraîner et faire tourner des grands modèles de langage. Une gigafactory labellisée par Bruxelles permettrait de concentrer des milliers de GPU sur un même site, d'en garantir l'accès à des startups et laboratoires de recherche européens à des conditions compétitives, et de réduire la dépendance aux infrastructures américaines comme AWS ou Azure. Le programme AI Gigafactories s'inscrit dans le plan InvestAI annoncé par la Commission européenne début 2025, qui ambitionne de mobiliser 200 milliards d'euros pour rattraper le retard du continent. Plusieurs États membres ont déjà soumis des candidatures, et la France entend peser dans cette compétition en fédérant ses acteurs industriels et technologiques les plus solides. Le choix des lauréats par Bruxelles déterminera quels pays accueilleront les prochains piliers de l'infrastructure IA continentale.

UELe consortium AION réunit Orange, EDF, Capgemini, iliad et Scaleway pour candidater au programme européen des AI Gigafactories, ce qui pourrait permettre à la France d'accueillir un centre de calcul souverain offrant aux startups et laboratoires européens un accès compétitif à la puissance GPU nécessaire à l'entraînement de grands modèles.

💬 Du lourd dans ce consortium : Orange, EDF, Scaleway, iliad, c'est pas une candidature symbolique. Ce qui m'intéresse vraiment là-dedans, c'est pas la gigafactory en elle-même, c'est l'accès GPU garanti pour les startups et labos européens qui galèrent à se payer du compute H100. Bruxelles retient 2-3 sites max sur tout le continent, et là, faut pas se louper.

InfrastructureActu
1 source
Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session
134AWS ML Blog 

Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session

Amazon a présenté une série de patrons architecturaux pour concevoir des agents vocaux scalables, s'appuyant sur trois composants clés : Amazon Nova Sonic, Amazon Bedrock AgentCore Runtime et le framework open source Strands Agents. Nova Sonic est un modèle de fondation capable de conduire des conversations vocales naturelles en temps réel, avec compréhension du ton et du flux conversationnel. AgentCore Runtime constitue un environnement d'hébergement serverless pour agents IA : on y déploie un agent comme contenaire, et la plateforme gère automatiquement la mise à l'échelle, l'isolation de sessions via microVM, la facturation et le streaming WebSocket bidirectionnel authentifié. Strands Agents, via sa classe BidiAgent, sert de couche d'intégration qui simplifie la gestion du cycle de vie du flux audio et le routage des appels d'outils. Trois patrons d'intégration sont détaillés pour répondre aux défis concrets des équipes : latence élevée, coordination multi-agents et gestion de l'audio en temps réel. Le premier patron, AgentCore Gateway, expose la logique métier existante comme des outils discrets appelables directement par Nova Sonic, sans couche de raisonnement intermédiaire, ce qui minimise la latence. Un exemple concret : quand un utilisateur demande son solde bancaire, le modèle sélectionne l'outil approprié, passe les paramètres et restitue le résultat vocalement en quelques centaines de millisecondes. Le deuxième patron, l'agent-as-tool ou sous-agent, permet de composer plusieurs agents spécialisés, chacun encapsulant un domaine métier distinct, l'agent principal les invoquant comme de simples fonctions. Le troisième patron, la segmentation de sessions, isole les prompts, la mémoire et les permissions selon le contexte, renforçant les frontières de sécurité tout en permettant la réutilisation des composants. Ces annonces s'inscrivent dans une tendance de fond : le passage des assistants vocaux monolithiques vers des architectures composables, où des agents légers et spécialisés collaborent plutôt qu'un seul modèle omniscient tente de tout gérer. Amazon s'aligne ici sur le protocole MCP (Model Context Protocol), standard open source en cours d'adoption dans l'industrie pour l'interopérabilité des outils d'agents. AgentCore Gateway agit comme hôte managé de serveurs MCP, identifiés par des ARN AWS. L'enjeu commercial est direct : les entreprises déployant des centres de contacts ou des assistants vocaux à grande échelle cherchent à réduire le temps avant le premier audio (time-to-first-audio) tout en maintenant fiabilité et conformité. AWS positionne ainsi Bedrock comme socle d'infrastructure pour la prochaine génération d'expériences vocales IA en production.

UELes équipes européennes déployant des centres de contact vocaux peuvent adopter ces patrons via AWS Bedrock, mais aucun acteur ou régulateur européen n'est directement impliqué.

OutilsOutil
1 source
Face aux États-Unis et à la Chine, MISTRAL cherche son propre modèle d’IA et fait l’acquisition d’Emmi AI
135FrenchWeb 

Face aux États-Unis et à la Chine, MISTRAL cherche son propre modèle d’IA et fait l’acquisition d’Emmi AI

Mistral AI, la startup parisienne fondée en 2023 et valorisée plus de six milliards d'euros, annonce l'acquisition d'Emmi AI, une société spécialisée dans les agents conversationnels d'entreprise. Cette opération s'inscrit dans une stratégie de diversification accélérée : plutôt que de se limiter à l'entraînement de modèles fondationnels, Mistral cherche à construire une offre verticalement intégrée, allant du modèle de base jusqu'aux applications déployées chez les clients. Les détails financiers de l'acquisition n'ont pas été rendus publics. L'enjeu est de taille pour l'écosystème européen. Les entreprises du continent restent largement dépendantes des hyperscalers américains (AWS, Azure, Google Cloud) pour leurs infrastructures, des GPU NVIDIA pour le calcul, et des modèles d'OpenAI, Anthropic ou Google pour l'inférence. En absorbant Emmi AI, Mistral tente de proposer une alternative souveraine complète aux directions informatiques européennes soucieuses de leur autonomie stratégique et de conformité réglementaire, notamment au regard de l'AI Act européen entré en vigueur en 2024. Ce rachat intervient alors que la compétition internationale s'intensifie sur deux fronts simultanés : les États-Unis maintiennent leur avance sur les modèles de pointe, tandis que la Chine rattrape son retard à marche forcée avec des architectures intégrées comme celles de Huawei ou Baidu. Pour Mistral, qui a levé 1,1 milliard de dollars en 2024 avec des investisseurs comme Andreessen Horowitz et la Banque publique d'investissement, l'heure est au passage à l'échelle commerciale, pas seulement technologique.

UEL'acquisition d'Emmi AI par Mistral AI renforce l'offre souveraine européenne en agents IA d'entreprise, donnant aux DSI françaises et européennes une alternative intégrée aux solutions américaines, dans un contexte de conformité à l'AI Act.

💬 Mistral fait le pari qu'un modèle de base, ça ne suffit plus. Racheter Emmi AI, c'est aller chercher le client là où il est, dans ses workflows d'entreprise, plutôt que d'attendre qu'il vienne lui-même sur une API. Reste à voir si une startup, même avec un milliard en caisse, peut tenir tête aux hyperscalers sur leur propre terrain.

BusinessOpinion
1 source
Amazon Nova 2 appliqué à la modération de contenu
136AWS ML Blog 

Amazon Nova 2 appliqué à la modération de contenu

Amazon a publié un guide détaillé sur l'utilisation de son modèle Nova 2 Lite pour la modération de contenus générés par les utilisateurs, en s'appuyant sur des techniques de prompting structuré plutôt que sur un entraînement personnalisé. Le système repose sur Amazon Bedrock et intègre le standard MLCommons AILuminate v1.1, une taxonomie de 12 catégories de risques organisées en trois groupes : risques physiques (crimes violents, automutilation), non-physiques (haine, atteinte à la vie privée) et contextuels (conseils spécialisés). Le pipeline fonctionne en quatre étapes : le contenu entrant est enveloppé dans un prompt avec des définitions de politique et des exemples, envoyé au modèle, puis la réponse indique si une violation est détectée, quelle catégorie est concernée, et une explication optionnelle. La configuration recommandée est une température de 0,7 et un top-p de 0,9, bien qu'une température à 0 soit possible pour des sorties déterministes. Amazon précise également que le mode raisonnement peut être désactivé pour les pipelines à fort débit, réduisant latence et coûts. L'approche par prompting présente un avantage opérationnel majeur par rapport au fine-tuning : elle ne nécessite aucune donnée d'entraînement ni personnalisation du modèle. Mettre à jour une politique de modération revient simplement à modifier le prompt, sans réentraîner quoi que ce soit. Pour des équipes qui modèrent des millions de messages, forums ou commentaires, cela représente une réduction drastique du cycle de déploiement. Nova 2 Lite est présenté comme un modèle multimodal à faible coût et à inférence rapide, conçu précisément pour ces usages à haut volume. Amazon a benchmarké ses performances face à plusieurs modèles fondamentaux concurrents sur trois jeux de données publics, positionnant Nova 2 Lite comme une option compétitive pour les entreprises qui ne veulent pas internaliser des modèles lourds. Cette publication s'inscrit dans une stratégie plus large d'Amazon pour imposer Bedrock comme infrastructure de référence pour les cas d'usage IA en production. La modération de contenu est un marché critique : les grandes plateformes (réseaux sociaux, marketplaces, forums) font face à des obligations légales croissantes en Europe et aux États-Unis pour retirer contenus illicites et discours haineux dans des délais stricts. Le standard AILuminate de MLCommons, un consortium industriel cofondé par Meta, Google et d'autres, cherche à établir des bases communes d'évaluation pour éviter que chaque acteur redéfinisse les critères de nocivité à sa guise. En ancrant son guide sur ce référentiel, Amazon positionne Nova 2 Lite non seulement comme un outil technique, mais comme une solution alignée sur les standards émergents de l'industrie, à un moment où la pression réglementaire sur la modération automatisée s'intensifie des deux côtés de l'Atlantique.

UELes plateformes européennes soumises au DSA pourraient s'appuyer sur cette solution pour automatiser la modération de contenu et respecter les délais de retrait stricts imposés par la réglementation européenne.

OutilsOutil
1 source
Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE
137MarkTechPost 

Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE

Cline, l'agent de codage IA open-source utilisé par des millions de développeurs, a annoncé cette semaine une refonte architecturale majeure avec la sortie de @cline/sdk, un runtime d'agent TypeScript désormais disponible en open-source. Concrètement, l'équipe a extrait le coeur du moteur agentique, jusqu'ici étroitement couplé à l'extension VS Code, pour en faire un SDK indépendant, modulaire, sur lequel tous ses produits sont désormais reconstruits : l'extension VS Code, JetBrains, le CLI et le tableau Kanban. Le SDK est structuré en couches strictement ordonnées : @cline/shared (types, schémas, utilitaires), @cline/llms (passerelle vers Anthropic, OpenAI, Google, AWS Bedrock, Mistral, LiteLLM et tout endpoint compatible OpenAI), @cline/agents (boucle d'exécution stateless, compatible navigateur), et @cline/core (orchestration Node.js, sessions, stockage, télémétrie, plugins). Chaque couche est installable séparément, ce qui permet par exemple d'utiliser uniquement @cline/llms comme proxy LLM sans embarquer tout le runtime. Cette architecture redéfinie apporte des gains concrets mesurables. Avec Cline 2.0, l'équipe a reécrit les prompts, simplifié la boucle agentique et amélioré la gestion du contexte. Les résultats publiés sur Terminal Benchmark 2.0 (tbench.ai) au 8 mai 2026 sont frappants : sur claude-opus-4.7, le CLI Cline atteint 74,2% contre 69,4% pour Claude Code d'Anthropic sur le même modèle. Sur claude-opus-4.6, l'écart est similaire, 71,9% contre 65,4%. Sur les modèles open-weight, Cline marque 55,1% sur Kimi-K2.6, contre 37,1% pour OpenCode et 45,5% pour Pi-Code. Côté stabilité, les sessions agentiques longues ne meurent plus lors d'un redémarrage de l'interface : la boucle reste stateless et portable, tandis que la persistance est gérée séparément par le runtime. Cette sortie s'inscrit dans une tendance plus large : celle de la fragmentation et de la standardisation de l'outillage agentique. Pendant des années, les agents IA étaient construits comme des monolithes liés à une interface spécifique, VS Code, un navigateur, un SaaS. Le choix de Cline de découpler son moteur de ses surfaces d'affichage ouvre la voie à une nouvelle génération d'outils où le même agent peut s'exécuter dans un IDE, un terminal, un serveur serverless ou un environnement browser sans réécriture. Le système de plugins intégré au SDK permet en outre aux équipes tierces d'enregistrer leurs propres outils, d'observer les événements du cycle de vie de l'agent et d'étendre ses capacités. Pour les éditeurs et startups qui cherchent à construire sur une base agentique robuste sans repartir de zéro, @cline/sdk représente une fondation crédible, et son positionnement open-source face à des alternatives propriétaires comme Claude Code ou Cursor pourrait accélérer l'adoption dans les environnements d'entreprise.

UELe SDK intègre Mistral nativement comme fournisseur LLM, ce qui facilite l'adoption par les équipes européennes souhaitant une alternative open-source aux outils propriétaires soumis au CLOUD Act.

OutilsOutil
1 source
Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic
138AWS ML Blog 

Agents vocaux en temps réel avec Stream Vision Agents et Amazon Nova 2 Sonic

Amazon et Stream ont annoncé une intégration combinant le framework open-source Vision Agents de Stream avec Amazon Nova 2 Sonic, un modèle de fondation voix-à-voix disponible via Amazon Bedrock. Cette solution permet de construire des agents vocaux en temps réel capables d'être déployés en production en quelques minutes. Nova 2 Sonic prend en charge l'intégralité du pipeline vocal, entrée audio, détection de tour de parole, appel de fonctions et sortie audio, sans recourir à des services séparés de reconnaissance ou de synthèse vocale. Vision Agents, côté Stream, est un framework Python open-source proposant plus de 25 intégrations, des SDK clients pour React, iOS, Android, Flutter et React Native, et une architecture modulaire basée sur des décorateurs. Le réseau edge mondial de Stream complète le dispositif, avec des temps de connexion inférieurs à 500 ms et une latence audio typique de moins de 30 ms. L'enjeu est considérable pour les équipes qui développent des applications vocales : une conversation naturelle exige que la totalité du pipeline, capture du micro, traitement, génération de réponse, restitution audio, s'exécute en quelques centaines de millisecondes. Jusqu'ici, les développeurs devaient consacrer l'essentiel de leur temps non pas à l'IA elle-même, mais à la gestion des connexions WebRTC, aux logiques de reconnexion automatique, à la compatibilité navigateur et à la dégradation gracieuse en cas d'indisponibilité d'un service. Cette charge infrastructure forçait les équipes soit à investir plusieurs mois dans des solutions maison, soit à se contenter de produits clés en main trop rigides. L'intégration Vision Agents + Nova 2 Sonic absorbe cette complexité et libère les développeurs pour se concentrer sur les cas d'usage : support client, automatisation de workflows, actions pilotées par API. La course à l'agent vocal de qualité production s'est intensifiée ces derniers mois, avec OpenAI, Google et Mistral qui proposent chacun des modèles natifs voix-à-voix. Amazon positionne Nova 2 Sonic comme une réponse enterprise via Bedrock, en s'appuyant sur l'écosystème AWS et le réseau de partenaires comme Stream pour accélérer l'adoption. Le support multilingue natif et les capacités de function calling de Nova 2 Sonic ouvrent la voie à des agents vocaux connectés à des systèmes tiers, CRM, bases de données, outils métier, sans couche d'intégration supplémentaire. La prochaine étape pour cet écosystème sera probablement l'extension vers des agents multimodaux combinant voix et vision, une direction que Vision Agents anticipe déjà avec son nom et son architecture.

UELes développeurs et entreprises européens utilisant AWS Bedrock peuvent désormais déployer des agents vocaux en production sans infrastructure supplémentaire grâce à cette intégration.

OutilsOutil
1 source
Les entreprises peuvent entraîner des modèles d'IA personnalisés depuis leurs workflows de production, sans équipe ML
139VentureBeat AI 

Les entreprises peuvent entraîner des modèles d'IA personnalisés depuis leurs workflows de production, sans équipe ML

Empromptu AI, une startup basée à San Francisco, a lancé jeudi une plateforme baptisée Alchemy Models, conçue pour transformer automatiquement les workflows de production d'entreprise en données d'entraînement pour des modèles d'IA personnalisés. Le principe est simple : chaque requête traitée par une application IA, chaque correction apportée par un expert métier à ses résultats, constitue un signal d'apprentissage. Jusqu'ici, ces données disparaissaient dans le vide. Alchemy les capte en continu via une infrastructure appelée Golden Data Pipelines, soumet les sorties de l'application à des experts internes pour validation, puis utilise ces données vérifiées pour lancer des cycles de fine-tuning successifs. Les modèles résultants, que la société appelle Expert Nano Models, sont de petits modèles spécialisés sur une tâche précise plutôt que sur le raisonnement général. L'entreprise est dirigée par Shanea Leven, qui a présenté la plateforme en exclusivité à VentureBeat. Les clients conservent la propriété intégrale des poids du modèle, qui sont portables et exportables moyennant frais. La plateforme est compatible avec Llama, Qwen et d'autres modèles de base. L'enjeu commercial est direct pour les entreprises qui s'appuient aujourd'hui sur des API de modèles fondamentaux : les coûts d'inférence augmentent avec l'usage, les données qui entraînent ces modèles profitent aux fournisseurs et non aux clients, et la personnalisation pour des tâches métier spécifiques reste limitée. Alchemy propose une sortie de cette dépendance en faisant de l'application elle-même la source de données d'entraînement, sans équipe ML ni étape séparée de collecte et d'étiquetage. Comme le résume Leven : "L'application IA que les clients construisent déjà nettoie les données." La gouvernance, les garde-fous et les contrôles de conformité sont intégrés au même pipeline, ce qui signifie que la traçabilité suit le processus d'entraînement. La contrainte principale reste le volume : les premiers déploiements tournent sur le modèle de base le temps que l'application accumule suffisamment de données de production pour déclencher un cycle de fine-tuning utile. Sur le marché du fine-tuning entreprise, Empromptu se positionne face à des acteurs établis comme OpenAI avec son API de fine-tuning et Amazon Web Services avec Bedrock Custom Models. Ces deux solutions imposent aux organisations d'apporter leurs propres jeux de données préparés séparément et de gérer le processus en dehors de leur stack applicatif, ce qui nécessite une équipe ML dédiée. La différenciation d'Alchemy repose sur l'intégration : le workflow applicatif est le pipeline d'entraînement, et non un projet distinct. La question de la soutenabilité économique et du délai avant le premier cycle de fine-tuning efficace reste ouverte, Leven elle-même reconnaissant sans détour que "l'entraînement du modèle prendra du temps". La startup s'adresse à un moment charnière où de nombreuses entreprises cherchent à protéger leur avantage compétitif face à la généralisation rapide des outils IA.

OutilsOutil
1 source
Amazon Finance automatise le traitement des demandes réglementaires grâce à l'IA générative sur AWS
140AWS ML Blog 

Amazon Finance automatise le traitement des demandes réglementaires grâce à l'IA générative sur AWS

Les équipes Finance Technology (FinTech) d'Amazon ont déployé un système automatisé de gestion des enquêtes réglementaires, construit sur Amazon Bedrock et plusieurs services AWS. Face à des milliers de documents à traiter, en formats PDF, Word, PowerPoint et CSV, et à des délais réglementaires stricts imposés par des autorités aux exigences très différentes selon les juridictions, les équipes ont développé une application basée sur la génération augmentée par récupération (RAG). Le coeur du système repose sur Amazon Bedrock Knowledge Bases couplé à Amazon OpenSearch Serverless pour le stockage vectoriel, Claude Sonnet 4.5 comme modèle de langage via l'API Converse Stream, et Amazon DynamoDB pour la gestion de l'historique des conversations. Chaque équipe FinTech maintient sa propre base de connaissances alimentée par ses documents spécifiques. Ce système change concrètement la façon dont des équipes internes traitent des demandes réglementaires complexes, qui nécessitent de croiser des milliers de précédents documentaires tout en maintenant le fil de conversations multi-tours sur plusieurs sessions. Avant cette solution, la fragmentation des connaissances entre différents systèmes d'infrastructure Amazon rendait la synthèse d'information lente et risquée. Désormais, les réponses sont contextuelles, s'appuient sur des données historiques précises, et s'affinent de manière itérative au fil des échanges. L'enjeu de conformité est central : une réponse inexacte ou basée sur une directive réglementaire obsolète peut exposer Amazon à des violations juridiques directes. La difficulté majeure que ce projet révèle est celle de l'observabilité des systèmes d'IA dans des contextes réglementés. Les équipes ont intégré OpenTelemetry et Langfuse en auto-hébergement pour monitorer en continu les décisions du modèle, détecter les hallucinations, c'est-à-dire les cas où le modèle génère des informations absentes des documents sources, et surveiller la dérive de précision dans le temps, inévitable à mesure que les prompts, les modèles et le corpus documentaire évoluent. Le choix de ne pas mettre en cache les réponses LLM est délibéré : les enquêtes réglementaires sont trop contextuelles pour bénéficier d'un cache, dont le taux d'utilisation serait trop faible pour justifier la complexité. Ce déploiement illustre une tendance croissante chez les grandes entreprises tech à internaliser leurs systèmes RAG sur des infrastructures cloud propriétaires, plutôt que de s'appuyer sur des solutions SaaS tierces, notamment pour garder le contrôle sur la traçabilité et la conformité des réponses générées.

UELes équipes techniques européennes confrontées aux enquêtes réglementaires (RGPD, AI Act) peuvent s'inspirer de cette architecture RAG multi-sources pour automatiser leur gestion de conformité.

OutilsActu
1 source
Automatiser la génération de schémas pour le traitement intelligent de documents
141AWS ML Blog 

Automatiser la génération de schémas pour le traitement intelligent de documents

Amazon Web Services vient d'enrichir son IDP Accelerator, solution open-source et serverless dédiée au traitement automatisé de documents, d'une nouvelle fonctionnalité baptisée "multi-document discovery". Jusqu'ici, exploiter le traitement intelligent de documents (IDP) exigeait de constituer manuellement un schéma de configuration pour chaque type de document à analyser : définir les classes, identifier des exemples représentatifs, spécifier les champs à extraire. Une contrainte rédhibitoire dès lors qu'une organisation se retrouve avec des milliers de documents non étiquetés et aucune visibilité sur les catégories qui les composent. La nouvelle fonctionnalité répond directement à ce problème : elle analyse une collection de documents inconnus, les regroupe automatiquement par type, puis génère les schémas de configuration prêts à l'emploi. Le pipeline repose sur AWS Step Functions pour l'orchestration, AWS Lambda pour le calcul serverless, Amazon S3 pour le stockage, et les modèles disponibles via Amazon Bedrock pour la génération des schémas, dont le modèle d'embeddings Cohere Embed v4 utilisé par défaut. L'intérêt opérationnel est considérable pour les équipes qui traitent des volumes documentaires hétérogènes. Là où le module Discovery existant nécessitait de connaître ses classes de documents à l'avance et de fournir un exemple par classe, la nouvelle approche supprime ce prérequis. Le système génère d'abord un embedding visuel pour chaque document, en se basant sur la première page uniquement pour les documents multi-pages, puis utilise le score de silhouette pour déterminer automatiquement le nombre de clusters pertinents. Un agent construit avec Strands Agents et un LLM Bedrock analyse ensuite chaque cluster pour identifier le type de document et produire un schéma. Une étape de "réflexion" finale compare l'ensemble des schémas générés pour détecter les chevauchements et incohérences avant validation humaine. Cette approche réduit drastiquement le travail préparatoire qui, à grande échelle, pouvait représenter des semaines de labelling manuel. Le choix des embeddings visuels plutôt que textuels, via OCR, est une décision technique délibérée : la mise en page, le formatage et la structure visuelle d'un document permettent de distinguer des types documentaires même lorsque leur contenu textuel se ressemble. Ce positionnement s'inscrit dans la stratégie plus large d'AWS de faire de Bedrock un socle central pour les workflows d'IA en entreprise, en y adossant des briques comme Strands Agents pour la partie agentique. La solution reste open-source, disponible sur GitHub, ce qui permet aux équipes de l'adapter à leurs propres collections. L'enjeu sous-jacent est de rendre accessibles les initiatives IDP à des organisations qui ne disposent pas des ressources pour classifier manuellement leur patrimoine documentaire avant même de commencer à en extraire de la valeur.

OutilsOutil
1 source
Amazon Nova Multimodal Embeddings au service de l'intelligence industrielle
142AWS ML Blog 

Amazon Nova Multimodal Embeddings au service de l'intelligence industrielle

Amazon a présenté Nova Multimodal Embeddings, un modèle disponible sur sa plateforme Bedrock capable de traiter simultanément du texte, des images et des pages de documents en les projetant dans un espace vectoriel commun. Concrètement, une requête textuelle peut désormais retrouver un schéma d'ingénierie, et inversement, une image peut servir de requête pour récupérer une spécification écrite, les deux modalités partagent le même système de coordonnées mathématiques. Pour démontrer l'intérêt du système, les ingénieurs d'Amazon ont construit un pipeline de recherche documentaire appliqué à des documents d'ingénierie aérospatiale, en l'évaluant sur 26 requêtes types et en comparant les résultats avec une pipeline classique basée uniquement sur du texte. Le modèle propose quatre niveaux de dimensions d'embedding configurables : 256, 384, 1 024 et 3 072, avec un mode spécifique appelé DOCUMENT_IMAGE conçu pour les pages à contenu mixte. L'enjeu est particulièrement critique pour les secteurs industriels comme l'aérospatial, l'automobile ou la fabrication lourde, où les documents techniques mêlent systématiquement du texte à des courbes de fatigue, des diagrammes CAO, des photographies d'inspection ou des cartographies thermiques. Un système de recherche purement textuel, même assisté d'OCR, rate ces informations visuelles : il peut mal interpréter les annotations sur un schéma en coupe, ignorer les relations spatiales dans un diagramme, ou rater une valeur de couple encodée graphiquement dans un plan d'ingénierie plutôt qu'écrite dans un paragraphe. Avec les embeddings multimodaux, le modèle traite l'image directement et génère un vecteur dans le même espace que le texte, ce qui permet, par exemple, de retrouver la section d'un schéma de turbopompe en posant simplement une question en langage naturel sur le type de roulements utilisés. Cette approche s'inscrit dans une compétition plus large entre les fournisseurs cloud pour dominer l'infrastructure des systèmes RAG (retrieval-augmented generation) d'entreprise. Amazon positionne Nova Multimodal Embeddings comme une brique native de Bedrock, couplée à Amazon S3 Vectors pour le stockage et la recherche de proximité, ce qui réduit la friction d'intégration pour les équipes déjà dans l'écosystème AWS. La capacité à unifier texte et image dans un même index vectoriel répond à un blocage réel pour les industries à forte documentation technique, où une fraction significative de la connaissance métier est piégée dans des visuels non interrogeables. Les prochaines étapes naturelles concerneront la prise en charge de vidéos et de documents multi-pages complexes, ainsi que l'extension à d'autres secteurs comme la médecine ou le droit, où les mêmes limites de l'OCR s'appliquent.

UELes secteurs industriels européens à forte documentation technique, aérospatial, automobile, fabrication lourde, peuvent directement exploiter cet outil via AWS Bedrock pour améliorer leurs systèmes RAG sur des archives mixtes texte-image, sans impact réglementaire direct sur la France ou l'UE.

OutilsOutil
1 source
OpenClaw vs Hermes Agent : Nous Research domine le classement mondial d'OpenRouter avec son agent auto-améliorant
143MarkTechPost 

OpenClaw vs Hermes Agent : Nous Research domine le classement mondial d'OpenRouter avec son agent auto-améliorant

Hermes Agent, développé par Nous Research sous licence MIT, a dépassé OpenClaw pour s'imposer à la première place du classement mondial des agents et applications sur OpenRouter au 10 mai 2026. L'agent génère désormais 224 milliards de tokens quotidiens sur la plateforme, contre 186 milliards pour OpenClaw, un écart significatif qui illustre une adoption massive en seulement quelques mois. Lancé en février 2026, Hermes a enchaîné les versions majeures à un rythme soutenu : la v0.9.0 a ajouté le support Android/Termux et 16 plateformes de messagerie, la v0.11.0 a livré une réécriture complète de l'interface en React/Ink ainsi que l'intégration d'AWS Bedrock, de NVIDIA NIM et de GPT-5.5. La v0.13.0 "Tenacity", publiée le 7 mai 2026, introduit un tableau Kanban multi-agents avec détection de tâches zombies, une commande /goal pour maintenir un objectif sur plusieurs tours de conversation, et Google Chat comme 20e plateforme supportée, le tout en 1 556 commits et 761 pull requests fusionnées depuis le lancement. Ce basculement de leadership révèle deux philosophies opposées sur ce que doit être un agent IA. OpenClaw mise sur la portée maximale via une passerelle WebSocket centrale connectant plus de 50 canaux (Telegram, Discord, Slack, WhatsApp, Signal, etc.). Hermes parie sur la valeur cumulée : après chaque tâche, l'agent analyse sa propre performance et génère automatiquement des fichiers de compétences réutilisables, stockés dans une base SQLite FTS5 combinée à des instantanés d'identité persistants. Plus l'agent tourne longtemps, plus il s'optimise pour les workflows spécifiques de son utilisateur. Ce modèle "do, learn, improve" semble résonner fortement avec les développeurs qui cherchent un agent capable d'évoluer plutôt qu'un simple routeur de messages. La comparaison sécuritaire entre les deux projets est également instructive. OpenClaw a accumulé neuf CVE en quatre jours en mars 2026, dont un à 9,9/10 selon le score CVSS ; un audit de Koi Security sur 2 857 compétences ClawHub a identifié 341 entrées malveillantes, et SecurityScorecard a signalé des dizaines de milliers d'instances publiquement exposées. Hermes n'est pas exempt de vulnérabilités, plusieurs CVE ont été publiés fin avril 2026, dont CVE-2026-7113, une absence d'authentification sur l'endpoint webhooks en version 0.8.0, mais la v0.13.0 a corrigé huit failles critiques, dont l'activation par défaut de la rédaction des données sensibles et des correctifs sur les flux OAuth. Le contexte plus large est celui d'une compétition ouverte qui s'intensifie : depuis le départ du fondateur d'OpenClaw chez OpenAI en février 2026 et la mise sous tutelle du projet via une fondation sponsorisée par OpenAI, Hermes bénéficie d'un momentum à la fois technique et symbolique dans l'écosystème open source.

💬 224 milliards de tokens par jour, c'est pas rien. Ce qui me frappe surtout dans cette histoire, c'est moins le chiffre que l'architecture : un agent qui génère ses propres fichiers de compétences après chaque tâche et s'optimise en continu, c'est le modèle qu'on attendait depuis un moment. Et bon, 9 CVE en quatre jours chez OpenClaw dont un à 9,9, ça aide à faire le tri.

OutilsOutil
1 source
Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI
144AWS ML Blog 

Apprentissage par renforcement avec récompenses vérifiables via GRPO sur SageMaker AI

Amazon Web Services publie une approche technique pour améliorer l'entraînement des grands modèles de langage via le renforcement à récompenses vérifiables, connue sous l'acronyme RLVR (Reinforcement Learning with Verifiable Rewards), déployée sur sa plateforme SageMaker AI. La méthode combine RLVR avec un algorithme d'optimisation appelé GRPO (Group Relative Policy Optimization) et des exemples dits "few-shot" pour affiner la précision des modèles sur des tâches où la réponse correcte est objectivement mesurable. Pour illustrer l'approche, AWS s'appuie sur le jeu de données GSM8K (Grade School Math 8K), une collection de problèmes mathématiques de niveau primaire, qui sert de terrain d'entraînement et d'évaluation. L'ensemble du pipeline est implémenté et documenté pour fonctionner directement sur SageMaker AI, l'infrastructure cloud d'entraînement de modèles d'Amazon. L'enjeu central est celui du "reward hacking", un phénomène bien connu dans l'entraînement par renforcement traditionnel : les modèles apprennent à maximiser leur score sans réellement accomplir la tâche souhaitée, en exploitant des failles dans la définition de la récompense. RLVR contourne ce problème en remplaçant les évaluations humaines, coûteuses et subjectives, par des fonctions de récompense programmatiques et reproductibles, le modèle est noté automatiquement selon des règles précises, sans ambiguïté. GRPO complète ce dispositif en organisant les données d'entraînement en groupes et en optimisant les performances de chaque groupe indépendamment, ce qui réduit la variance d'entraînement, accélère la convergence et produit des modèles plus homogènes sur des catégories variées. Ajoutés à cela, les exemples few-shot servent de modèles de référence qui réduisent l'espace de recherche pendant l'exploration du modèle, lui montrant concrètement à quoi ressemble une bonne réponse. L'approche s'inscrit dans une tendance de fond qui voit l'industrie chercher à réduire la dépendance au feedback humain dans l'entraînement des LLM, un processus long, coûteux et difficile à scaler. Des travaux récents comme DeepSeek-R1 ou les modèles de raisonnement d'OpenAI ont popularisé l'idée que des récompenses vérifiables permettent d'atteindre des niveaux de performance élevés sur des tâches structurées, notamment en mathématiques et en génération de code. AWS positionne SageMaker AI comme une plateforme clé pour que les équipes d'ingénierie puissent reproduire et adapter ces techniques sans repartir de zéro. L'approche est présentée comme généraliste : si le cas d'usage retenu est le calcul mathématique, la combinaison RLVR-GRPO peut s'appliquer à toute tâche disposant de critères de succès objectifs et mesurables, ouvrant la voie à des applications en vérification de code, en manipulation symbolique ou dans tout domaine où la vérité terrain est déterministe.

LLMsTuto
1 source
MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative
145AWS ML Blog 

MLflow v3.10 sur Amazon SageMaker simplifie le développement d'IA générative

Amazon Web Services a annoncé le support de MLflow version 3.10 sur Amazon SageMaker AI MLflow Apps, son service géré de suivi d'expériences machine learning. Cette mise à jour apporte des améliorations ciblées autour de l'observabilité, de l'évaluation et du développement d'applications d'IA générative. Parmi les nouveautés phares figure une API dédiée à l'évaluation, mlflow.genai.evaluation(), qui mesure automatiquement la qualité des modèles selon des critères de pertinence, de fidélité, d'exactitude et de sécurité. MLflow 3.10 introduit également un traçage amélioré pour les workflows multi-tours complexes, une intégration plus étroite avec les principaux frameworks LLM, ainsi que des tableaux de bord de performance préconfigurés affichant la distribution des latences, le nombre de requêtes, les scores de qualité et la consommation de tokens. Ces améliorations ont un impact direct pour les équipes de data scientists et d'ingénieurs ML qui développent des applications d'IA générative en production. L'API d'évaluation permet de mesurer et maintenir la qualité des modèles de manière systématique tout au long du cycle de développement, depuis l'expérimentation jusqu'au déploiement. Les tableaux de bord intégrés éliminent le besoin de configuration manuelle des graphiques, offrant une visibilité immédiate sur les coûts opérationnels et les performances des charges de travail. La notion de "workspaces" MLflow, introduite dans cette version, permet aux équipes d'organiser leurs artefacts et expériences de façon structurée à l'échelle de projets et de départements entiers, ce qui répond à un besoin croissant de gouvernance dans les organisations qui industrialisent leurs déploiements de modèles. MLflow est un framework open source lancé par Databricks en 2018, devenu une référence pour le suivi d'expériences et la gestion du cycle de vie des modèles ML. La version 3.0, publiée précédemment, avait posé les bases du traçage et de l'observabilité pour l'IA générative ; la 3.10 consolide et étend ces fondations en réponse à la montée en puissance des architectures agentiques et des workflows LLM complexes. AWS positionne SageMaker AI comme une infrastructure de niveau entreprise pour l'IA générative, en intégrant MLflow directement dans SageMaker Studio, accessible via la console AWS, l'AWS CLI ou son API. La configuration par défaut provisionne automatiquement MLflow 3.10 avec un rôle IAM et un bucket S3 préconfigurés, abaissant significativement le seuil d'adoption pour les équipes qui souhaitent passer de l'expérimentation à la production sans infrastructure supplémentaire à gérer.

OutilsOutil
1 source
Amazon Bedrock AgentCore Identity permet de sécuriser des agents IA sur Amazon ECS
146AWS ML Blog 

Amazon Bedrock AgentCore Identity permet de sécuriser des agents IA sur Amazon ECS

Amazon a lancé AgentCore Identity, un service intégré à Amazon Bedrock, conçu pour sécuriser l'accès des agents d'intelligence artificielle aux services externes. Disponible en tant que service autonome, il s'intègre aux principales plateformes de calcul d'AWS, Amazon ECS, Amazon EKS, AWS Lambda, ainsi qu'aux environnements on-premises. La solution s'appuie sur deux protocoles standards : OAuth 2.0 (RFC 6749) pour l'autorisation des actions, et OpenID Connect (OIDC) pour l'authentification des utilisateurs. Le flux retenu est l'Authorization Code Grant, dit « 3-legged OAuth » : l'utilisateur s'authentifie auprès d'un fournisseur d'identité comme Microsoft Entra ID, donne son consentement explicite, et l'application échange un code d'autorisation contre un jeton d'accès à portée limitée. Ce jeton est ensuite conservé dans le coffre-fort de tokens d'AgentCore Identity, lié à l'identité précise de l'utilisateur, créant ainsi une chaîne d'audit traçable de l'authentification jusqu'à l'action de l'agent. Ce mécanisme répond à un problème concret et croissant en production : comment empêcher un agent IA d'agir au-delà de ce que l'utilisateur a expressément autorisé. AgentCore Identity introduit un « session binding » applicatif qui protège contre les attaques CSRF et les attaques par substitution de navigateur, deux vecteurs courants dans les flux OAuth mal implémentés. Chaque token est scopé à une session utilisateur individuelle, suivant le principe du moindre privilège : l'agent ne peut accéder qu'aux ressources pour lesquelles le consentement a été donné. La séparation des responsabilités entre le workload agent et le service de session binding permet en outre de réduire la surface d'attaque et de centraliser la gestion du cycle de vie des tokens, sans que l'application principale n'ait à gérer ce risque directement. La mise en production de cette architecture illustre une tendance de fond dans l'industrie cloud : les agents IA autonomes ne peuvent plus fonctionner sur la base de credentials statiques ou de permissions trop larges. AWS propose ici une implémentation de référence déployée sur Amazon ECS derrière un Application Load Balancer, avec chiffrement HTTPS via AWS Certificate Manager et routage DNS via Amazon Route 53. Le code source complet est disponible sur GitHub. Pour les équipes qui construisent des agents agissant pour le compte d'utilisateurs réels, assistants, automatisations, workflows délégués, cette approche standardisée autour d'OIDC et OAuth 2.0 constitue désormais une baseline de sécurité incontournable, d'autant qu'elle s'appuie sur des fournisseurs d'identité existants plutôt que de réinventer une gestion des identités propriétaire.

UELes équipes européennes déployant des agents IA sur AWS disposent d'une baseline de sécurité standardisée qui facilite la conformité RGPD grâce au consentement explicite, à la traçabilité des accès et au principe du moindre privilège.

SécuritéOutil
1 source
Le procès Musk contre Altman, et l'IA au service de la démocratie
147MIT Technology Review 

Le procès Musk contre Altman, et l'IA au service de la démocratie

Le procès opposant Elon Musk à Sam Altman, fondateur d'OpenAI, est entré dans sa deuxième semaine devant un tribunal californien. Musk, qui a cofondé OpenAI en 2015 avant de quitter son conseil d'administration en 2018, accuse Altman de l'avoir induit en erreur sur la transformation de l'organisation à but non lucratif en entreprise commerciale. La journaliste Michelle Kim du MIT Technology Review, elle-même avocate, a suivi les audiences quotidiennement et rapporte que la première semaine a livré des détails inédits sur le fonctionnement interne d'OpenAI ainsi que sur la relation entre les deux hommes. En parallèle, le Pentagone a annoncé des contrats de grande ampleur avec Microsoft, Nvidia, Amazon Web Services et la start-up Reflection AI pour des travaux d'intelligence artificielle sur données classifiées, dans le cadre d'une ambition affichée de faire des forces américaines une puissance "IA en premier". Sur un autre front, Musk a conclu un accord avec la SEC, acceptant de payer une amende de 1,5 million de dollars pour avoir tardé à déclarer ses achats initiaux d'actions Twitter en 2022. Ces développements simultanés illustrent la tension croissante autour du contrôle de l'IA à plusieurs échelles. Le procès Musk-Altman soulève une question fondamentale pour toute l'industrie : peut-on engager des capitaux dans une organisation à but non lucratif et la voir se muer en entreprise valorisée à plusieurs centaines de milliards sans recours juridique ? L'issue du procès pourrait redéfinir les règles de gouvernance applicables aux futures transformations de structures similaires. Les contrats du Pentagone, qui excluent Anthropic, repositionnent Microsoft, Nvidia et AWS comme piliers de l'IA militaire américaine, un signal structurant pour l'ensemble du secteur. Pendant ce temps, un tribunal chinois a établi un précédent notable : une entreprise ne peut pas licencier des salariés au seul motif de les remplacer par des outils d'IA, une décision qui résonne dans un secteur mondial où la pression à l'automatisation ne cesse de s'intensifier. Ce cycle d'actualité dense reflète l'accélération des enjeux de gouvernance de l'IA sur tous les fronts à la fois. La genèse du procès remonte à la décision d'OpenAI, en 2019, de créer une entité commerciale pour lever des capitaux, une évolution que Musk conteste aujourd'hui en justice. Parallèlement, la Maison Blanche travaillerait à la création d'un groupe de travail chargé d'évaluer les modèles d'IA avant leur diffusion publique, signe que Washington cherche à encadrer un secteur qui échappe encore à toute régulation fédérale cohérente. Des chercheurs s'interrogent également sur l'émergence des "scientifiques artificiels", des systèmes d'IA capables de conduire des projets de recherche de manière autonome : une perspective aux possibilités immenses, mais qui soulève des inquiétudes sur l'appauvrissement de la diversité scientifique si ces outils convergent tous vers les mêmes priorités de recherche.

UELe précédent chinois interdisant les licenciements motivés uniquement par le remplacement par l'IA alimente directement le débat européen sur la protection des travailleurs face à l'automatisation, un angle encore insuffisamment couvert par l'AI Act.

RégulationReglementation
1 source
Ruben BRYON, construire une alternative européenne au cloud américain
148FrenchWeb 

Ruben BRYON, construire une alternative européenne au cloud américain

Ruben Bryon a commencé à coder seul à l'âge de 12 ans, allant jusqu'à percer un mur dans le garage familial pour refroidir ses premiers serveurs. Quinze ans plus tard, il dirige Verda, une entreprise fondée sous le nom de DataCrunch, qui ambitionne de construire la première "Gigafactory" européenne de l'intelligence artificielle. Concrètement, il s'agit de déployer des centres de données massivement équipés en GPU, les puces indispensables à l'entraînement et à l'inférence des grands modèles d'IA, sur le sol européen, en dehors de la dépendance aux hyperscalers américains comme AWS, Azure ou Google Cloud. L'enjeu est considérable pour l'industrie technologique européenne. Les startups et laboratoires de recherche du continent paient aujourd'hui leurs coûts de calcul à des entreprises américaines, ce qui crée une dépendance structurelle tant sur le plan économique que réglementaire. Une infrastructure GPU souveraine permettrait aux acteurs européens de développer et déployer des modèles d'IA sans que leurs données transitent par des juridictions soumises au droit américain, un point particulièrement sensible depuis le Cloud Act de 2018. L'initiative de Bryon s'inscrit dans un mouvement plus large de souveraineté numérique européenne, porté aussi bien par des régulations comme le RGPD que par des initiatives industrielles telles que GAIA-X. Face à la concentration du marché du cloud d'IA entre les mains de quelques géants américains, des acteurs comme Verda cherchent à occuper le créneau de l'infrastructure de confiance en Europe, à mesure que la demande en puissance de calcul pour l'IA continue d'exploser.

UEVerda déploie des centres de données GPU sur sol européen pour permettre aux startups et laboratoires de recherche européens d'entraîner leurs modèles d'IA sans transiter par des juridictions soumises au Cloud Act américain.

💬 C'est exactement ce qu'on attendait depuis que le Cloud Act a rendu la question brûlante. Partir de l'infra GPU, pas du cadre réglementaire, c'est ce qui distingue Verda de toutes les initiatives européennes de souveraineté numérique qui finissent en comité de pilotage. Reste à voir si les capitaux suivent à l'échelle d'une gigafactory.

InfrastructureOpinion
1 source
Microsoft sort Agent 365 de sa phase de test alors que l'IA non officielle devient une menace pour les entreprises
149VentureBeat AI 

Microsoft sort Agent 365 de sa phase de test alors que l'IA non officielle devient une menace pour les entreprises

Microsoft a fait passer Agent 365 du statut de préversion à la disponibilité générale la semaine dernière, franchissant une étape importante pour ce produit annoncé lors de la conférence Ignite en novembre 2025. La plateforme, facturée 15 dollars par utilisateur, se positionne comme un panneau de contrôle centralisé permettant aux équipes IT et sécurité de surveiller, gouverner et sécuriser les agents d'intelligence artificielle, peu importe où ils s'exécutent : dans l'écosystème Microsoft, sur des clouds tiers comme AWS Bedrock ou Google Cloud, sur les appareils des employés, ou au sein de l'écosystème grandissant d'agents SaaS proposés par des partenaires comme Zendesk ou SAP. La plateforme offre un registre unique de tous les agents actifs dans l'environnement d'une organisation, couplé à un moteur de politiques de sécurité. Ce lancement intervient dans un contexte de montée en puissance de ce que Microsoft appelle le "shadow AI" : des assistants de code, outils de productivité personnelle et workflows autonomes que les salariés installent sur leurs propres appareils, souvent sans en informer leur service informatique. David Weston, vice-président en charge de la sécurité IA chez Microsoft, identifie trois catégories d'incidents déjà observées chez les clients enterprise. La première, et la plus répandue, concerne des développeurs qui connectent des agents à des systèmes backend sensibles via des serveurs MCP laissés accessibles sur internet sans authentification, exposant des données personnelles. La deuxième est la "cross-prompt injection" : des attaquants glissent des instructions malveillantes dans des sources de données consultées par les agents, comme des tickets de support, des wikis ou des pages web, pour en détourner les actions. La troisième menace, plus diffuse mais tout aussi coûteuse, concerne des systèmes de prévention des fuites de données non conçus pour les accès agentiques, qui laissent fuiter des informations confidentielles vers des prestataires externes. Le passage à la disponibilité générale d'Agent 365 reflète une réalité inconfortable pour les entreprises : les agents IA ont déjà devancé les infrastructures de gouvernance censées les encadrer. Les organisations qui ont passé des années à bâtir des contrôles pour les applications cloud et les outils SaaS font face à un type de sprawl radicalement différent, où des logiciels autonomes peuvent invoquer des outils, accéder à des données sensibles, se chaîner entre eux et agir de manière indépendante. Microsoft se positionne ainsi comme l'arbitre central de cette nouvelle ère agentique, cherchant à trouver, selon les termes de Weston, l'équilibre entre le "YOLO" où tout est permis, et le "oh no" où rien ne fonctionne. L'enjeu pour l'éditeur est considérable : s'imposer comme la couche de gouvernance de référence à l'heure où chaque éditeur logiciel intègre ses propres agents autonomes.

UELes entreprises européennes utilisant Microsoft 365 sont directement exposées aux risques de 'shadow AI' décrits (serveurs MCP non sécurisés, injections de prompts croisées), et peuvent désormais évaluer Agent 365 comme couche de gouvernance, dans un contexte où l'AI Act impose des exigences croissantes de traçabilité et de contrôle sur les systèmes IA déployés.

SécuritéOutil
1 source
AgentCore : optimisation de la qualité des agents, désormais en préversion
150AWS ML Blog 

AgentCore : optimisation de la qualité des agents, désormais en préversion

Amazon a annoncé ce 5 mai 2026 l'intégration de nouvelles capacités d'optimisation automatique dans AgentCore, sa plateforme de déploiement d'agents IA, désormais disponibles en préversion. Ces fonctionnalités couvrent trois mécanismes complémentaires : les Recommandations, l'évaluation par lots (batch evaluation) et les tests A/B. Le moteur de recommandations analyse les traces de production et les résultats d'évaluation pour proposer des améliorations concrètes des prompts système ou des descriptions d'outils, en ciblant un critère de performance défini par le développeur. L'évaluation par lots permet ensuite de valider ces suggestions sur un jeu de données de test prédéfini, en mesurant des scores agrégés pour détecter d'éventuelles régressions. Enfin, les tests A/B comparent deux versions d'un agent en production via AgentCore Gateway, en répartissant le trafic réel selon un pourcentage configurable et en restituant les résultats avec intervalles de confiance et significativité statistique. L'ensemble s'appuie sur un système de traçabilité OpenTelemetry géré par AgentCore Observability, qui capture chaque appel au modèle, chaque invocation d'outil et chaque étape de raisonnement. Ces nouvelles capacités répondent à un problème structurel bien connu des équipes IA en production : la dégradation silencieuse des agents au fil du temps. Lorsque les modèles évoluent, les comportements utilisateurs changent, ou les prompts sont réutilisés dans des contextes imprévus, la qualité baisse sans signal d'alerte clair. Jusqu'ici, le cycle de correction restait entièrement manuel : un utilisateur se plaint, un développeur lit des traces, formule une hypothèse, réécrit le prompt, teste quelques cas et pousse un correctif qui peut en créer un autre. AgentCore ferme cette boucle en remplaçant l'intuition du développeur par des données systématiques, avec un signal de récompense configurable : taux de succès des objectifs, précision de sélection des outils, pertinence, sécurité. Yoshiharu Okuda, directeur de la stratégie IA générative chez NTT DATA, a confirmé que des processus qui nécessitaient auparavant plusieurs semaines de réglage manuel se transforment désormais en cycles rapides et reproductibles. AgentCore est la plateforme d'Amazon Web Services pour construire, connecter et optimiser des agents IA à grande échelle, avec des milliers de développeurs déjà actifs. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud pour proposer des outils d'opérationnalisation des agents, au-delà de la simple inférence. Google Vertex AI, Microsoft Azure AI et AWS se disputent les équipes qui passent de la phase expérimentale à la production à grande échelle, là où la maintenance de la qualité devient un défi d'ingénierie à part entière. En automatisant la boucle observer-évaluer-améliorer, AWS positionne AgentCore comme une infrastructure de fond pour les organisations qui ne peuvent pas se permettre des équipes dédiées à l'optimisation manuelle de prompts sur des cycles hebdomadaires, alors que leurs agents dérivent chaque jour en production.

OutilsActu
1 source