Aller au contenu principal

Dossier AWS — page 4

559 articles · page 4 sur 12

Ce qu'on suit chez AWS côté IA : Bedrock et ses modèles, SageMaker, les puces Trainium et Inferentia, l'investissement dans Anthropic et l'offre cloud IA.

L'optimisation mathématique là où l'intuition échoue : des décisions à grande échelle
151AWS ML Blog OutilsOutil

L'optimisation mathématique là où l'intuition échoue : des décisions à grande échelle

Face aux décisions d'entreprise trop complexes pour l'intuition humaine, optimiser des milliers de routes de livraison, coordonner des centaines de robots en usine sans collision, gérer les plannings d'un hôpital 24h/24 en respectant toutes les contraintes réglementaires, des organisations de premier plan se tournent vers l'optimisation mathématique, une branche spécialisée de l'IA distincte du machine learning. L'équipe scientifique du AWS Generative AI Innovation Center accompagne ces entreprises en combinant expertise en modélisation mathématique, informatique quantique et calcul haute performance, entièrement déployés sur l'infrastructure AWS. Parmi les cas concrets, le Fidelity Center for Applied Technology (FCAT) illustre bien l'enjeu : leurs modèles de machine learning produisaient déjà de solides prédictions pour les décisions d'investissement et la gestion du risque, mais manquaient d'interprétabilité. En collaborant avec l'Innovation Center, FCAT a intégré l'explicabilité directement dans la construction des modèles, sans sacrifier leur précision prédictive, et en produisant des cadres réutilisables pour les développements futurs. Ce que l'optimisation mathématique apporte, que le machine learning ne peut pas fournir seul, c'est une réponse définitive et prouvablement optimale, et non une approximation probabiliste. Le machine learning est une IA inductive : il apprend des régularités à partir de milliers d'exemples pour produire des prédictions. L'optimisation est déductive : elle applique des principes mathématiques à un problème spécifique pour délivrer la meilleure décision possible compte tenu de toutes les contraintes réelles. Là où un algorithme prédictif dira "cet itinéraire est probablement efficace", l'optimisation répond "voici l'itinéraire optimal en intégrant chaque contrainte de votre système". Pour des opérations soumises à des limites physiques, des fenêtres horaires serrées ou des exigences réglementaires non négociables, cette différence est décisive. L'essor de ces approches s'inscrit dans une transformation plus large de l'IA d'entreprise, qui cherche à dépasser la simple prédiction pour atteindre la prescription, dire non pas ce qui va se passer, mais ce qu'il faut faire. Les pipelines dits "predict-then-optimize" combinent les deux disciplines : le machine learning prédit la demande future, l'optimisation mathématique détermine ensuite le plan d'action optimal à partir de ces prévisions. AWS positionne son Innovation Center comme un accélérateur de cette convergence, en prenant en charge la complexité scientifique que peu d'entreprises peuvent internaliser. La compétition pour maîtriser ces outils s'intensifie dans la logistique, la finance, la santé et l'industrie manufacturière, secteurs où une décision sous-optimale à grande échelle se chiffre en millions, et où l'IA prescriptive commence à supplanter les règles métier manuelles comme standard opérationnel.

1 source
Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock
152AWS ML Blog 

Comment déployer des opérations IA autonomes à grande échelle sur Amazon Bedrock

Amazon Web Services a dévoilé Amazon Bedrock Ops Alert, une solution de supervision automatisée en trois couches conçue pour les organisations qui déploient des applications d'IA générative à grande échelle. Utilisé par plus de 100 000 organisations dans le monde, d'entreprises naissantes aux multinationales, Amazon Bedrock fournit l'infrastructure sur laquelle reposent des centaines de workloads de production. La nouvelle solution surveille en continu les quotas de requêtes par minute (RPM) et de tokens par minute (TPM) alloués à chaque client, détecte les anomalies opérationnelles avant qu'elles n'impactent la production, ajuste dynamiquement les seuils d'alarme, et ouvre automatiquement des tickets de support AWS enrichis en contexte. Elle intègre également un mécanisme anti-doublons qui bloque la création d'un nouveau ticket si un cas non résolu de même nature est déjà ouvert, évitant ainsi de diluer l'attention des équipes d'ingénierie. Pour les équipes SRE spécialisées en IA, l'enjeu est considérable : gérer manuellement les quotas et escalades de support à mesure que l'adoption interne s'accélère est un travail chronophage qui détourne les ingénieurs de l'innovation. Bedrock Ops Alert réduit ce surcoût opérationnel en automatisant le triage, en fournissant des notifications contextualisées directement exploitables, et en raccourcissant le temps moyen de résolution des incidents. La solution permet aussi d'anticiper les besoins d'augmentation de quotas avant que les limitations ne se matérialisent en erreurs pour les utilisateurs finaux, un gain critique dans des environnements où plusieurs modèles de fondation tournent simultanément en production. Cette annonce s'inscrit dans une tendance plus large chez AWS : réduire la friction liée à l'échelle des workloads d'IA générative sans exiger systématiquement une augmentation de quotas. Amazon Bedrock propose déjà l'inférence inter-régions géographique et, plus récemment, l'inférence inter-régions mondiale (global cross-region inference), qui route automatiquement les requêtes vers les régions AWS commerciales les mieux disponibles dans le monde entier, offrant un accès à un pool de ressources nettement plus large et une réduction de coût d'environ 10 % par rapport à l'inférence géographique classique. Le prompt caching, autre fonctionnalité optionnelle, permet quant à lui de réduire la latence et les coûts en token en évitant de recalculer des portions de contexte identiques. Ensemble, ces mécanismes forment une réponse structurée d'AWS à la pression croissante que font peser des milliers d'organisations sur une infrastructure d'IA devenue critique pour leurs opérations quotidiennes.

UELes organisations françaises et européennes utilisant Amazon Bedrock pour leurs workloads d'IA en production peuvent réduire la charge opérationnelle de leurs équipes SRE grâce à cette solution d'automatisation du monitoring et de la gestion des quotas.

InfrastructureActu
1 source
Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart
153AWS ML Blog 

Le modèle tabulaire NEXUS de Fundamental est désormais disponible sur Amazon SageMaker JumpStart

Amazon Web Services vient d'annoncer la disponibilité de NEXUS, le modèle de fondation développé par la startup Fundamental, sur Amazon SageMaker JumpStart. NEXUS est un "Large Tabular Model" conçu spécifiquement pour les données structurées -- tableurs, bases de données relationnelles, systèmes ERP et CRM -- là où réside la majorité des données critiques des entreprises. Contrairement aux LLMs classiques, il a été pré-entraîné sur des milliards de tâches de prédiction réelles issues de datasets structurés. Il peut être déployé en tant qu'endpoint SageMaker managé sur une instance ml.p5en.48xlarge équipée de 8 GPU NVIDIA H200, avec accès via un SDK Python compatible scikit-learn incluant des estimateurs NEXUSClassifier et NEXUSRegressor. NEXUS s'attaque à un problème concret que rencontrent quotidiennement les équipes data des grandes entreprises : générer des prédictions fiables à partir de données tabulaires prend habituellement entre trois et six mois de travail pour une équipe de data scientists, entre le feature engineering, l'entraînement, la validation et le déploiement. Fundamental promet de ramener ce délai à quelques jours. L'un des atouts clés du modèle est son architecture déterministe : là où les LLMs produisent des réponses différentes à des questions identiques, NEXUS garantit des résultats reproductibles pour chaque prédiction individuelle. Il gère nativement les nombres, catégories, dates et textes sans prétraitement manuel, tolère les données manquantes, traite des datasets de plusieurs milliards de lignes sans troncature, et reconnaît que l'ordre des colonnes ne change pas la sémantique des données -- une propriété appelée permutation invariance, absente des architectures transformer classiques. Ce lancement s'inscrit dans une tendance plus large de spécialisation des modèles de fondation par type de données. Si les LLMs comme GPT-4 ou Claude ont démontré leur puissance sur le texte et les modèles de diffusion sur les images, les données tabulaires sont longtemps restées le terrain des approches ML traditionnelles -- gradient boosting, random forests -- ou de tentatives maladroites d'adapter des LLMs à des formats pour lesquels ils n'étaient pas conçus. La tokenisation numérique dans les LLMs introduit en effet des erreurs de contexte qui les rendent peu fiables sur des données structurées à haute précision. Fundamental parie que les données tabulaires méritent leur propre classe de modèles de fondation, et l'intégration avec SageMaker JumpStart lui donne accès à l'écosystème cloud d'AWS pour une diffusion à grande échelle auprès des entreprises. Le modèle est distribué via AWS Marketplace, positionnant clairement Fundamental sur le marché B2B des outils data enterprise.

OutilsOutil
1 source
Détection d'objets avec Amazon Nova 2 Lite
154AWS ML Blog 

Détection d'objets avec Amazon Nova 2 Lite

Amazon a intégré à son service Bedrock un nouveau modèle multimodal, Nova 2 Lite, capable de détecter des objets dans des images via de simples instructions en langage naturel. Concrètement, il suffit de spécifier les éléments à repérer, une "voiture", une "personne", un "défaut", et le modèle retourne les coordonnées précises de chaque objet sous forme de JSON structuré, avec des boîtes englobantes normalisées sur une échelle de 0 à 1 000. Le déploiement repose sur trois services AWS : Bedrock pour l'inférence, Lambda pour l'exécution serverless, et API Gateway pour exposer l'endpoint. Le coût est particulièrement bas : 0,0003 dollar pour mille tokens en entrée et 0,0025 dollar pour mille tokens en sortie, ce qui revient à environ 5,69 dollars pour 10 000 images. Une intégration complète prend entre 30 et 45 minutes, sans aucun entraînement de modèle nécessaire. L'intérêt principal est d'éliminer la barrière d'entrée de la vision par ordinateur traditionnelle. Jusqu'ici, mettre en place un système de détection d'objets exigeait des pipelines de données, une infrastructure d'entraînement, des ressources de calcul significatives et souvent une équipe dédiée de data scientists, un investissement prohibitif pour les petites structures. Nova 2 Lite rend cette capacité accessible à n'importe quel développeur Python maîtrisant boto3, sans expertise en machine learning. Les cas d'usage couverts sont concrets : contrôle qualité en fabrication pour repérer des défauts sur une chaîne de production, comptage de cultures en agriculture, suivi de colis en logistique. La précision repose sur le prompt engineering, la façon dont on formule la demande au modèle conditionne directement la qualité des détections. Cette annonce s'inscrit dans une tendance de fond : les grands modèles de fondation multimodaux absorbent progressivement des tâches qui relevaient auparavant de pipelines spécialisés entraînés sur mesure. Amazon positionne Nova 2 Lite comme une alternative crédible aux solutions de computer vision classiques comme AWS Rekognition ou des bibliothèques comme YOLO, en misant sur la flexibilité du langage naturel plutôt que sur des catégories prédéfinies. Le fait que les coordonnées soient retournées dans un format standardisé et que l'architecture soit entièrement serverless facilite l'intégration dans des workflows existants. La prochaine étape logique pour les équipes adoptant cette approche sera d'évaluer les limites de précision face à des cas complexes, occlusions, objets de petite taille, scènes encombrées, là où les modèles spécialisés conservent encore un avantage.

OutilsOutil
1 source
Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP
155AWS ML Blog 

Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP

Amazon a annoncé cette semaine une extension significative des capacités d'AgentCore Gateway, son service de passerelle centralisée pour le protocole MCP (Model Context Protocol) au sein d'Amazon Bedrock. Les nouvelles fonctionnalités couvrent notamment la prise en charge étendue des schémas d'outils MCP, l'intégration des primitives MCP prompts et ressources, la découverte dynamique de serveurs MCP à l'exécution, la gestion de sessions pour les interactions temps réel, un mécanisme d'élicitation permettant des demandes d'entrée en cours d'exécution, et un échange de jetons OAuth 2.0 pour l'authentification déléguée. Ces ajouts s'appliquent à un service qui sert déjà de point d'entrée unique entre les serveurs MCP d'une organisation et les clients qui les consomment, en centralisant la gestion des identifiants, l'observabilité et la connectivité sécurisée. L'enjeu est directement opérationnel pour les équipes engineering en entreprise. Sans passerelle centralisée, chaque serveur MCP déployé, qu'il gère les contrats pour l'équipe juridique, les données financières ou les incidents opérationnels, doit gérer indépendamment ses propres mécanismes d'authentification, de contrôle d'accès et de journalisation. Cela multiplie les délais d'approbation, fragmente la visibilité sur l'usage des outils et oblige les équipes sécurité à auditer chaque serveur séparément. AgentCore Gateway réduit ce fardeau en laissant chaque équipe se concentrer sur la logique métier de son serveur MCP, tandis que la passerelle prend en charge tout le reste : agrégation des capacités, politiques d'accès basées sur les ressources, isolation réseau via AWS PrivateLink, logs d'audit centralisés, et guardrails déterministes via AgentCore Policy. MCP, le protocole lancé par Anthropic fin 2024 pour standardiser la façon dont les agents IA interagissent avec des outils et services externes, a rapidement été adopté par les grands acteurs du cloud, dont AWS, Microsoft et Google. Amazon intègre AgentCore Gateway dans son écosystème Bedrock, qui concurrence directement Azure AI et Google Cloud Vertex AI dans la course aux infrastructures d'agents IA en entreprise. La montée en puissance des architectures multi-agents, où plusieurs modèles coopèrent en orchestrant des dizaines d'outils, rend ce type de couche de gouvernance centrale de plus en plus stratégique. Les prochaines étapes probables incluent une intégration plus poussée avec les outils d'identité AWS IAM et une extension du support aux agents tiers via les flux OAuth 2.0 maintenant disponibles dans la passerelle.

InfrastructureOpinion
1 source
AgentOps : déployer des agents IA à grande échelle avec Amazon Bedrock AgentCore
156AWS ML Blog 

AgentOps : déployer des agents IA à grande échelle avec Amazon Bedrock AgentCore

Amazon Web Services a présenté AgentOps, une nouvelle discipline opérationnelle pour déployer, gérer et améliorer les agents IA en production, en s'appuyant sur sa plateforme Amazon Bedrock AgentCore. Publié début juin 2026, ce cadre de référence s'articule autour de quatre piliers : gouvernance et sécurité, construction et opérations, évaluation, et observabilité. Bedrock AgentCore permet de déployer des agents IA compatibles avec n'importe quel modèle de langage et n'importe quel framework open source, en passant du développement local à la production sans gérer d'infrastructure. AWS propose une architecture de référence complète couvrant l'ensemble du cycle de vie DevOps adapté aux agents : planification, développement, construction, test, déploiement et maintenance. Le besoin derrière AgentOps est concret : contrairement aux pipelines classiques, les agents IA prennent des décisions autonomes et non déterministes, ce qui rend le débogage difficile, les coûts imprévisibles et le contrôle qualité complexe. AgentOps répond à ces défis en traitant chaque agent, outil et configuration mémoire comme un artefact versionné avec son propre pipeline CI/CD. L'évaluation s'effectue à quatre niveaux : l'outil individuel, le tour de conversation, le résultat de session et le système global, aussi bien en développement qu'en production. L'observabilité couvre quatre couches de télémétrie pour tracer chaque décision d'agent, surveiller les baisses de qualité et mesurer le coût par interaction. Ce lancement s'inscrit dans une course industrielle autour de l'IA agentique, où AWS, Google, Microsoft et OpenAI cherchent à proposer des plateformes complètes pour industrialiser le déploiement d'agents. La complexité opérationnelle croissante, notamment la gestion des identités d'agents, des protocoles d'authentification inter-agents (A2A), du Model Context Protocol (MCP) et des mécanismes de contrôle humain (human-in-the-loop), pousse les entreprises à chercher des cadres structurés. Amazon Bedrock AgentCore se positionne comme une réponse cloud-native à ces enjeux, en intégrant nativement sécurité, registre d'outils, gestion de l'état et limites d'exécution. Les suites prévisibles incluent l'adoption de ces pratiques AgentOps dans les grandes organisations, ainsi qu'une pression croissante sur les équipes DevOps pour adapter leurs outils et processus à la nature non déterministe des systèmes agentiques.

UELes entreprises françaises et européennes déployant des agents IA sur AWS peuvent adopter ce cadre AgentOps pour structurer leurs pipelines CI/CD et leur observabilité, sans impact réglementaire spécifique à la France ou l'UE.

OutilsActu
1 source
Asana rachète Stack AI pour renforcer ses agents IA no-code
157Le Big Data 

Asana rachète Stack AI pour renforcer ses agents IA no-code

Asana a annoncé l'acquisition de Stack AI, une startup spécialisée dans la création d'agents IA no-code et l'orchestration de workflows entre systèmes d'entreprise. L'opération, dont le montant n'a pas été divulgué, vise à doter la plateforme de gestion de projets d'une couche d'automatisation opérationnelle capable de connecter des environnements aussi divers que Salesforce, Oracle, AWS ou DocuSign. Stack AI s'est bâti une réputation solide dans les secteurs réglementés, santé, services financiers, services professionnels, précisément grâce à ses engagements en matière de gouvernance, de sécurité et de fiabilité des flux automatisés. L'intégration prévue associera les capacités d'exécution de Stack AI au "Work Graph" d'Asana, la couche de données organisationnelles qui structure projets, responsabilités et historiques de collaboration au sein des équipes. Cette acquisition répond à un problème concret que rencontre l'industrie : la plupart des solutions IA actuelles restent cantonnées à des usages individuels, résumer un document, répondre à une question, assister un employé dans une tâche isolée. Elles peinent à orchestrer des processus complets qui traversent plusieurs équipes et plusieurs logiciels. Avec Stack AI, Asana vise à passer du copilote personnel à l'automatisation opérationnelle à grande échelle. Les entreprises pourront concevoir des workflows qui traitent des demandes IT, des processus de conformité, du support client ou des opérations financières sans recourir à du développement logiciel complexe. L'enjeu devient ainsi opérationnel plutôt que conversationnel, ce qui représente un changement de paradigme significatif pour l'ensemble du marché des plateformes de collaboration. Asana se positionne depuis plusieurs mois sur la notion de "human-agent teams", des environnements où des agents IA travaillent collectivement avec des humains, avec validations, transferts de tâches, approbations et mémoire partagée, plutôt que d'opérer comme des outils parallèles déconnectés des opérations réelles. Le PDG Dan Rogers a formulé clairement l'ambition : selon lui, la valeur durable ne résidera pas dans les modèles IA eux-mêmes, mais dans la capacité des plateformes à coordonner outils, données, gouvernance et exécution métier dans un flux cohérent. Cette vision distingue Asana des acteurs focalisés sur les assistants conversationnels généralistes, et la place en concurrence directe avec des plateformes comme ServiceNow ou Microsoft 365 Copilot, qui cherchent eux aussi à devenir le système nerveux central de l'entreprise automatisée. L'intégration de Stack AI dans les produits AI Studio et AI Teammates d'Asana devrait être précisée dans les prochains mois.

UELes entreprises européennes en quête d'automatisation de workflows métier sans développement logiciel pourront à terme bénéficier de nouvelles capacités no-code, sans impact réglementaire direct sur la France ou l'UE.

BusinessOpinion
1 source
72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave
158Le Big Data 

72 GPU dans un seul rack : Dell livre le premier Vera Rubin NVL72 à CoreWeave

Dell a livré à CoreWeave le premier système NVIDIA Vera Rubin NVL72 opérationnel, un rack unique intégrant 72 GPU Rubin et 36 processeurs Vera personnalisés. Cette machine atteint une puissance de calcul de 3,6 exaFLOPS, soit une capacité suffisante pour entraîner et faire tourner des modèles d'intelligence artificielle comptant des milliers de milliards de paramètres. Le système adopte un refroidissement liquide intégral, désormais indispensable pour absorber la chaleur et la consommation énergétique générées par une telle densité de composants. CoreWeave, spécialiste américain du cloud GPU qui alimente déjà de nombreux acteurs de l'IA générative, devient ainsi l'un des premiers opérateurs au monde à déployer cette génération d'infrastructure dans un environnement de production réel. Ce déploiement illustre une tendance de fond qui redessine l'économie du calcul pour l'IA : la densification. Regrouper 72 GPU dans un seul rack ne relève pas de l'exploit pour la galerie, mais répond à une contrainte très concrète. Plus les modèles grossissent, plus les échanges de données entre composants deviennent un goulot d'étranglement. En rapprochant physiquement les GPU, on réduit les latences de communication et on améliore le débit global du système, ce qui se traduit directement par des temps d'inférence plus courts et une capacité d'entraînement plus élevée. Pour les opérateurs cloud qui facturent leurs clients à l'heure de GPU, cette efficacité accrue est un avantage compétitif direct. Pour les laboratoires qui entraînent les prochaines générations de modèles, c'est la condition nécessaire pour rester dans la course. Cette livraison s'inscrit dans un cycle d'escalade technologique qui s'accélère depuis le lancement de ChatGPT fin 2022. NVIDIA enchaîne les générations de puces à un rythme inédit : après les H100, les H200 et les Blackwell, la famille Vera Rubin représente la prochaine marche. Dell, longtemps perçu comme un constructeur de serveurs classiques, a clairement choisi de se repositionner comme intégrateur de référence pour les infrastructures d'IA à très grande échelle. CoreWeave, de son côté, a levé plusieurs milliards de dollars ces dernières années pour construire une alternative aux clouds hyperscalers comme AWS ou Google Cloud, spécifiquement taillée pour les charges de travail GPU intensives. La combinaison des deux acteurs sur ce premier déploiement Vera Rubin n'est pas anodine : elle signale que l'infrastructure d'IA de prochaine génération est prête à sortir des laboratoires pour entrer dans les centres de données commerciaux. À ce rythme, les 72 GPU d'aujourd'hui pourraient paraître modestes dès 2027.

UELa disponibilité commerciale de cette infrastructure GPU de prochaine génération conditionnera indirectement la compétitivité des acteurs européens de l'IA dans la course à l'entraînement de très grands modèles.

InfrastructureOpinion
1 source
À peine le contrat signé, Elon Musk compte déjà virer Anthropic du data center de SpaceX
159Le Big Data 

À peine le contrat signé, Elon Musk compte déjà virer Anthropic du data center de SpaceX

Quelques semaines après l'annonce d'un accord entre Anthropic et Colossus, le data center de SpaceX et xAI situé à Memphis, Elon Musk a précisé publiquement que le contrat ne couvrait que 180 jours de location, résiliable avec un préavis de 90 jours. Cette clarification contraste nettement avec le formulaire S-1 déposé par SpaceX auprès de la Securities and Exchange Commission (SEC), qui décrit un engagement financier considérable : Anthropic devrait verser jusqu'à 1,25 milliard de dollars par mois jusqu'en mai 2029. Le document officiel mentionnait même une montée progressive des capacités prévue en mai et juin 2026, à tarif réduit. C'est donc Musk lui-même qui a précisé que la durée limitée était une exigence de SpaceX, et non d'Anthropic. Cet écart entre le contenu du document réglementaire et la communication de Musk soulève des questions sur les intentions réelles derrière cet accord. Si les termes du S-1 donnaient l'image d'un partenariat structuré sur plusieurs années, les déclarations publiques du patron de SpaceX suggèrent une logique bien différente : une démonstration de la valeur commerciale de Colossus auprès des investisseurs, plutôt qu'une alliance durable avec le créateur de Claude. Musk a également précisé que SpaceX proposerait une solution alternative à Anthropic en cas de résiliation, mais que l'entreprise pourrait récupérer les ressources si la capacité venait à manquer, laissant entendre que ses propres besoins auraient la priorité. L'accord s'inscrit dans un contexte de concurrence frontale entre xAI, la division IA de Musk, et Anthropic, deux acteurs qui se disputent à la fois les investisseurs, les talents et les marchés enterprise. Colossus est présenté comme l'un des clusters de GPU les plus puissants au monde, et sa capacité à générer des revenus locatifs stables représente un argument de poids pour la valorisation de SpaceX. Certains analystes voient dans ce contrat à durée limitée une stratégie délibérée : en gardant la main sur la résiliation à court terme, Musk préserve la possibilité de consacrer toute cette puissance de calcul à ses propres projets IA, notamment si xAI venait à accélérer le développement de Grok ou d'applications industrielles. La question de savoir si Anthropic cherchera à prolonger l'accord, ou s'orientera vers d'autres infrastructures comme AWS ou Google Cloud, reste entière.

💬 1,25 milliard par mois dans le S-1, 90 jours de préavis dans les faits, c'est pas un partenariat, c'est une location Airbnb. Musk a besoin que Colossus paraisse rentable pour valoriser SpaceX auprès des investisseurs, et un client du calibre d'Anthropic sur le papier, ça en jette. Reste qu'Anthropic loue sa puissance de calcul chez son concurrent direct, avec une clause expulsion à portée de tweet.

META découvre à son tour l’économie du compute
160FrenchWeb 

META découvre à son tour l’économie du compute

Meta Platforms envisage de commercialiser une partie de sa gigantesque infrastructure informatique, une rupture stratégique majeure pour l'entreprise fondée par Mark Zuckerberg. Depuis plus de quinze ans, le groupe utilisait ses data centers exclusivement en interne pour faire fonctionner Facebook, Instagram et WhatsApp, sans jamais vendre de capacités cloud à des tiers. L'explosion des besoins en intelligence artificielle change la donne : Meta disposerait désormais d'une surcapacité de compute suffisante pour envisager une offre commerciale externe. Ce pivot potentiel placerait Meta en concurrence directe avec Amazon Web Services, Microsoft Azure et Google Cloud, les trois géants qui dominent aujourd'hui le marché mondial du cloud, estimé à plusieurs centaines de milliards de dollars. Pour les entreprises qui développent des modèles d'IA, une quatrième alternative crédible serait une opportunité de diversification et de pression à la baisse sur les prix. Meta apporterait une infrastructure taillée pour les workloads IA les plus exigeants, notamment grâce à ses clusters de GPU massivement parallèles. Cette évolution s'inscrit dans une logique que l'histoire de la tech a déjà validée : AWS est né des excédents d'infrastructure d'Amazon, et est devenu sa division la plus rentable. Meta, qui investit des dizaines de milliards de dollars par an en capital expenditure, cherche à rentabiliser ces actifs autrement que par la seule publicité. La question reste de savoir si le groupe possède la culture commerciale B2B nécessaire pour rivaliser avec des acteurs qui ont dix à vingt ans d'avance sur ce marché.

UESi Meta lance une offre cloud commerciale, les entreprises et startups européennes disposeraient d'un quatrième fournisseur d'infrastructure IA majeur, renforçant leur capacité de négociation et potentiellement réduisant leurs coûts de compute.

💬 L'histoire AWS, Meta l'a visiblement relue attentivement. Quand tu as des clusters GPU calibrés pour entraîner des modèles à l'échelle de Facebook et Instagram, laisser ça tourner à vide serait absurde. Reste à voir si Zuckerberg a les équipes commerciales B2B pour vendre ça aux DSI, parce qu'entre avoir l'infra et savoir la packager pour des clients enterprise, il y a un vrai fossé de culture.

InfrastructureOpinion
1 source
Les fournisseurs d'inférence connaissent-ils un essor ?
161The Information AI 

Les fournisseurs d'inférence connaissent-ils un essor ?

Il y a moins d'un an, les fournisseurs d'inférence spécialisés suscitaient un scepticisme marqué dans l'industrie de l'IA. Des startups comme Fireworks AI, Baseten et Together AI, qui louent des serveurs Nvidia à des développeurs d'applications et les aident à déployer des modèles open source, avaient connu une croissance rapide, mais semblaient fragilisées face à la concurrence des grands fournisseurs cloud. Ces derniers disposent en effet d'un avantage structurel majeur : ils possèdent leurs propres puces, là où les fournisseurs d'inférence doivent d'abord les louer à AWS, Google ou Azure avant de les revendre à leurs clients, ce qui comprime mécaniquement leurs marges brutes. Pourtant, le discours dominant a changé. Ces acteurs spécialisés semblent aujourd'hui trouver leur place dans un écosystème où la demande d'inférence explose, portée par la multiplication des applications IA en production. Leur proposition de valeur, flexibilité, optimisation technique, et support des modèles open source, répond à des besoins que les clouds généralistes satisfont moins bien, notamment pour les équipes cherchant à éviter l'enfermement propriétaire et à contrôler précisément leurs coûts d'inférence. Ce retournement s'inscrit dans une dynamique plus large : avec la prolifération des modèles open source performants comme Llama ou Mistral, les développeurs disposent désormais d'alternatives crédibles aux API propriétaires d'OpenAI ou Anthropic. Les fournisseurs d'inférence se positionnent comme l'infrastructure neutre de ce marché alternatif, pariant sur le fait que la fragmentation des modèles leur garantit une demande structurelle durable face aux géants du cloud.

UELa montée en puissance des fournisseurs d'inférence open source renforce l'écosystème autour de Mistral (entreprise française), offrant aux développeurs européens une infrastructure neutre pour déployer des modèles sans dépendance aux API propriétaires.

InfrastructureOpinion
1 source
De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands
162AWS ML Blog 

De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands

Amazon Web Services a publié Strands Agents, un framework open source sous licence Apache 2.0 qui permet de construire un assistant de recherche IA fonctionnel en une trentaine de lignes de Python. L'outil s'appuie sur les modèles fondamentaux d'Amazon Bedrock pour doter les agents d'une capacité de raisonnement autonome, sans avoir à coder manuellement chaque étape logique. AWS affirme déjà utiliser Strands Agents en production dans plusieurs de ses propres services, notamment Amazon Q et AWS Glue. L'annonce s'accompagne de la présentation de Kiro, un environnement de développement intégré alimenté par l'IA, qui intègre un mécanisme d'extensions appelé "Kiro Powers" : plus de cinquante modules préconfigurés couvrant la conception, le déploiement, la sécurité et l'observabilité, installables en un clic. Le module Strands, par exemple, embarque la documentation du SDK, des guides de démarrage et les patterns d'API corrects pour que Kiro puisse générer des agents fiables dès le premier essai. L'enjeu est de taille pour les équipes de développement : orchestrer plusieurs appels d'API, gérer l'état des conversations et construire des agents capables de planifier leurs actions représentait jusqu'ici un chantier réservé aux spécialistes du traitement du langage naturel et des systèmes distribués. Strands Agents casse cette barrière grâce à une approche model-driven où c'est le LLM lui-même qui prend en charge la logique et l'enchaînement des outils, le développeur n'ayant plus qu'à fournir un prompt et une liste de fonctions décorées avec @tool. Le framework est agnostique en matière de fournisseur : il fonctionne avec Amazon Bedrock, Anthropic et OpenAI, et supporte des architectures allant du simple agent isolé aux réseaux multi-agents hiérarchiques. Les réponses en streaming temps réel le rendent particulièrement adapté aux interfaces interactives. Cette publication s'inscrit dans une offensive plus large d'AWS pour capter les développeurs dans l'écosystème d'agents IA, un marché en pleine structuration où Google, Microsoft et Anthropic proposent leurs propres frameworks et plateformes. En rendant Strands open source et en le couplant à un IDE maison, AWS mise sur l'effet de réseau et la fidélisation par les outils plutôt que par le seul accès aux modèles. La compatibilité native avec AWS Lambda et IAM Identity Center facilite le passage du prototype à la production sans réécriture, ce qui constitue un argument décisif pour les entreprises déjà ancrées dans l'écosystème cloud d'Amazon. Les prochaines étapes probables incluent l'extension de la bibliothèque de Kiro Powers par la communauté et l'intégration plus étroite de Strands avec d'autres services AWS d'analyse et d'automatisation.

UELes équipes de développement européennes peuvent adopter Strands Agents pour accélérer leurs projets d'agents IA, mais l'intégration native avec Lambda et IAM renforce la dépendance à l'écosystème AWS, ce qui soulève des questions de souveraineté numérique pour les entreprises françaises et européennes.

OutilsOutil
1 source
☕️ Les agences de renseignement américaines à court de puissance de calcul pour leurs IA
163Next INpact 

☕️ Les agences de renseignement américaines à court de puissance de calcul pour leurs IA

La Maison Blanche aurait approuvé une enveloppe de 9 milliards de dollars destinée à doter les agences de renseignement américaines en puces IA de dernière génération, selon des informations rapportées par le New York Times. Ce financement, qui doit encore passer par le Congrès, vise à permettre à la CIA, la NSA et leurs homologues de faire tourner les modèles d'intelligence artificielle les plus récents sur des infrastructures à la hauteur. L'administration Trump aurait par ailleurs déjà redirigé 800 millions de dollars pour accélérer des achats de capacités de calcul en urgence. Parallèlement, la Maison Blanche aurait autorisé la NSA à continuer d'exploiter Mythos, le modèle le plus avancé d'Anthropic, dans le cadre d'un contrat classifié en préparation qui inclurait des restrictions sur le traitement de données concernant des citoyens américains. Les agences américaines se retrouvent dans la même situation que n'importe quel acteur privé : les infrastructures capables d'accueillir les grands modèles d'OpenAI, d'Anthropic ou de Google affichent complet, et les composants les plus puissants, comme les puces Grace Blackwell de NVIDIA, exigent des centres de données dotés de systèmes d'alimentation massifs. Or les réseaux infonuagiques classifiés du gouvernement, dont ceux opérés par AWS, ne peuvent pas être modernisés rapidement. Les agences n'auraient tout simplement pas anticipé les besoins en calcul de ces modèles, et les délais de déploiement restent incompressibles même avec de l'argent disponible. Résultat : les 800 millions déjà mobilisés représentent une goutte d'eau face à l'ampleur des besoins réels, et les 9 milliards supplémentaires n'arriveraient pas immédiatement sur le terrain. Cette situation s'inscrit dans une séquence de tensions entre Washington et les labos d'IA. Le Pentagone avait exigé un accès très large aux modèles avancés d'Anthropic pour ses opérations classifiées, ce qu'Anthropic a refusé, une affaire encore devant les tribunaux. Le DoD a finalement constitué un cercle de fournisseurs IA pour ses opérations secret défense, retenant OpenAI, Google, Microsoft et AWS, mais laissant Anthropic à l'écart, du moins officiellement. Le Pentagone qualifiait même l'entreprise de "risque" pour la chaîne d'approvisionnement et la sécurité nationale, ce qui rend d'autant plus notable la décision d'autoriser la NSA à continuer d'utiliser Mythos. Cette contradiction illustre la difficulté pour les institutions américaines de concilier impératifs de souveraineté numérique, besoins opérationnels croissants en IA, et dépendance inévitable envers quelques entreprises privées qui contrôlent les modèles les plus performants.

UELe retard des agences de renseignement américaines illustre les risques de dépendance envers quelques fournisseurs privés d'IA, un avertissement indirect pour les institutions européennes engagées dans des démarches de souveraineté numérique.

💬 9 milliards pour rattraper un retard que tout le monde voyait venir. Ce qui me frappe, c'est la contradiction : le Pentagone liste officiellement Anthropic comme un "risque sécurité" pour la chaîne d'approvisionnement, et pendant ce temps la NSA continue d'utiliser Mythos via un contrat classifié. Ça dit tout sur ce que vaut la "souveraineté numérique" quand les seuls modèles utilisables sont dans les mains de trois boîtes privées.

InfrastructureOpinion
1 source
CopilotKit redéfinit l'architecture IA à base d'agents en 2026
164MarkTechPost 

CopilotKit redéfinit l'architecture IA à base d'agents en 2026

CopilotKit, startup basée à Seattle et co-fondée par Atai Barkai et Uli Barkai, s'est imposée en 2026 comme l'un des acteurs centraux de l'infrastructure pour agents IA. La société a lancé en avril 2026 AIMock, un outil de test pour systèmes agentiques, et AG-UI, un protocole d'interaction entre agents et utilisateurs au sein des applications. AG-UI est aujourd'hui soutenu par Google, Microsoft, Amazon et Oracle, ainsi que par des frameworks majeurs comme LangChain, Mastra, PydanticAI et Agno. AWS l'a intégré dans son template FAST (Fullstack AgentCore Solution Template) et dans Bedrock AgentCore. Des SDKs communautaires couvrent déjà Kotlin, Go, Dart, Java, Rust, Ruby et C++, tandis que .NET, Nim, Flowise et Langflow sont en cours de développement. Atai Barkai enseigne par ailleurs un cours complet sur AG-UI chez DeepLearning.AI, couvrant un backend LangChain, un frontend React et AG-UI comme runtime. Ce que CopilotKit résout est concret : jusqu'ici, intégrer une IA dans une application signifiait coller un widget de chat dans un coin d'interface. L'utilisateur tapait, le modèle répondait en texte, et personne ne prenait en charge la traduction de cette réponse en action réelle. AG-UI comble le troisième maillon manquant de la pile agentique : MCP standardise l'accès aux outils externes, A2A coordonne les agents entre eux, AG-UI gère la couche d'interaction entre l'agent, l'application et l'utilisateur. Il permet le streaming en temps réel, la génération dynamique de composants d'interface, la synchronisation d'état bidirectionnelle, et les pauses "human-in-the-loop" où l'agent attend une confirmation avant d'agir. AIMock, lui, s'attaque à un problème que peu d'équipes osent admettre : les suites de tests pour agents sont, pour la plupart, de la fiction. Une requête agentique typique en 2026 traverse six ou sept services (LLM, serveur MCP, base vectorielle, reranker, API de recherche web, couche de modération, sous-agent A2A) et la plupart des équipes n'en simulent qu'un seul, laissant les autres non-déterministes et incontrôlés. L'analogie avancée par CopilotKit est parlante : AG-UI serait à la pile agentique ce que HTML est au web, la couche de présentation et d'interaction que TCP et HTTP rendent possible sans pouvoir la fournir eux-mêmes. Pendant des années, l'IA dans les logiciels est restée un outil passif, fonctionnel comme une calculatrice mais incapable d'agir de façon autonome. CopilotKit parie que l'avenir appartient aux agents qui vivent à l'intérieur des applications, comprennent le contexte de l'utilisateur, prennent des actions et génèrent des interfaces adaptées plutôt que de longs blocs de texte. Avec l'adoption par les grands fournisseurs cloud et l'entrée dans les cursus pédagogiques, la startup semble avoir franchi le cap qui sépare le protocole expérimental de l'infrastructure de production. La prochaine étape annoncée porte sur la persistance runtime, troisième chantier d'une feuille de route 2026 qui vise délibérément les angles morts de l'architecture agentique.

💬 L'idée du maillon manquant est bonne : MCP pour les outils, A2A pour la coordination, AG-UI pour l'utilisateur, la stack agentique commence à avoir une vraie colonne vertébrale. Ce qui me parle autant, c'est AIMock, parce que les suites de tests pour agents c'est de la fiction dans la plupart des équipes, et c'est enfin assumé. AWS dans Bedrock, Google et Microsoft embarqués, bon, sur le papier c'est le seuil qui sépare le protocole expérimental du vrai standard de prod.

InfrastructureOpinion
1 source
Amazon Nova Act est désormais éligible à la conformité HIPAA
165AWS ML Blog 

Amazon Nova Act est désormais éligible à la conformité HIPAA

Amazon a annoncé que Nova Act, son service d'agents IA autonomes capables d'interagir avec des interfaces web, est désormais éligible HIPAA. Cette certification, publiée en mai 2026, permet aux organisations de santé et de sciences de la vie d'utiliser ces agents pour traiter des informations de santé protégées électroniquement (ePHI) en conformité avec la loi américaine sur la portabilité et la responsabilité en matière d'assurance maladie. Disponible dans la région AWS US East (Virginie du Nord), Nova Act permet de construire et gérer des flottes d'agents IA qui naviguent dans des navigateurs web, remplissent des formulaires, extraient des données et exécutent des workflows complexes en plusieurs étapes, en s'appuyant sur du code Python combiné à des instructions en langage naturel. Le service s'intègre au framework Strands Agents, à Amazon Bedrock AgentCore, CloudWatch et IAM. Concrètement, les établissements de santé, assureurs et prestataires de soins peuvent désormais automatiser des tâches chronophages comme la prise de rendez-vous, la vérification de couverture d'assurance, les autorisations préalables, le suivi des remboursements ou la coordination des référencements entre médecins, sans intervention humaine et sans sortir du cadre réglementaire HIPAA. L'enjeu est considérable : ces processus administratifs représentent une part massive des coûts opérationnels du secteur de la santé aux États-Unis. En réduisant la charge manuelle, Nova Act promet des délais de traitement plus courts pour les remboursements et une exécution plus cohérente des procédures de routine. L'agent peut également remonter une tâche à un superviseur humain lorsqu'il rencontre une situation ambiguë, ce qui maintient un niveau de contrôle nécessaire dans des environnements sensibles. La difficulté jusqu'ici tenait à la nature même des agents IA : contrairement aux modèles de langage qui se contentent de générer du texte, ces systèmes interagissent avec des systèmes réels et accèdent à des données vivantes, ce qui les soumettait à des exigences de conformité bien plus strictes. Amazon a obtenu cette éligibilité en intégrant Nova Act à sa liste de services HIPAA et en permettant aux clients de signer un accord de partenaire commercial (BAA) directement depuis la console AWS. Les organisations restent néanmoins responsables de la configuration de leurs propres contrôles de sécurité, notamment les politiques IAM, le chiffrement via AWS KMS et les journaux CloudTrail. Cette annonce s'inscrit dans une tendance plus large : après les modèles génératifs, c'est maintenant l'IA agentique qui entre dans les secteurs fortement réglementés, ouvrant la voie à une automatisation plus profonde dans la finance, le juridique et la santé.

UECette certification concerne uniquement la réglementation américaine HIPAA ; les organisations de santé européennes devront attendre une conformité équivalente au RGPD avant de pouvoir déployer Nova Act sur des données de santé sensibles.

OutilsOutil
1 source
Doter les agents d'ordinateurs : Ivan Burazin, Daytona
166Latent Space 

Doter les agents d'ordinateurs : Ivan Burazin, Daytona

Ivan Burazin, PDG de Daytona, est au coeur d'une transformation silencieuse mais radicale de l'infrastructure cloud. Son entreprise, fondée sur une obsession vieille de plus d'une décennie, a opéré un pivot décisif : quitter les environnements de développement pour humains afin de fournir des sandboxes informatiques aux agents IA. Daytona peut aujourd'hui démarrer un sandbox en environ 60 millisecondes, en lancer 50 000 en 75 secondes, et son plus gros client exploite quelque 850 000 sandboxes par jour. La plateforme tourne sur du bare metal avec son propre scheduler, plutôt que sur Kubernetes, et les charges de travail liées au reinforcement learning et aux évaluations de modèles sont passées de zéro à environ 50 % de l'utilisation totale en quelques mois seulement. Ce changement illustre une bascule profonde dans les besoins de l'industrie IA. Les agents logiciels ne travaillent pas sur un laptop : ils ont besoin d'une machine accessible par API, capable de conserver un état entre les tâches, de s'adapter instantanément à des pics de charge massifs, et d'être suffisamment isolée pour rester sûre. Quand un client passe de zéro à 100 000 CPUs en quelques minutes pour une tâche d'entraînement, les architectures classiques comme EKS ou GKE montrent leurs limites. Plusieurs clients de Daytona affirment ne pas vouloir revenir à ces solutions. Au-delà du code, Burazin défend l'idée que les agents auront besoin de machines Windows et macOS, pas seulement Linux, ce qui pose des contraintes de licencing importantes, notamment du côté d'Apple. Ivan Burazin n'en est pas à son coup d'essai. Il avait fondé CodeAnywhere, l'un des premiers IDE entièrement dans le navigateur, avec l'idée déjà en tête de mettre fin au développement sur machine locale. La thèse était bonne, mais le marché n'était pas prêt. L'essor des agents IA en 2025 a changé la donne : là où les développeurs humains s'attachent à leur éditeur favori, les agents sont indifférents à l'environnement, pourvu qu'il soit rapide, fiable et pilotable par code. Daytona s'est imposé dans ce créneau en lançant un MVP la veille du Nouvel An, dont les API keys se sont arrachées en quelques heures. La vision de Burazin pour la prochaine étape du cloud IA ressemble davantage à Stripe, une infrastructure invisible et composable consommée à l'usage, qu'au modèle AWS traditionnel. Un pari sur la façon dont les agents, et non plus les humains, deviendront les principaux consommateurs de ressources informatiques.

InfrastructureOpinion
1 source
Amazon Bedrock AgentCore lève la limite de la fenêtre de contexte
167AWS ML Blog 

Amazon Bedrock AgentCore lève la limite de la fenêtre de contexte

Amazon Web Services a présenté une approche pour contourner la limite fondamentale des fenêtres de contexte des grands modèles de langage, en combinant Amazon Bedrock AgentCore Code Interpreter et le SDK Strands Agents. La technique repose sur les Recursive Language Models (RLM), introduits dans un article académique de Zhang et al. (arXiv:2512.24601), qui réorganisent radicalement la façon dont un modèle interagit avec des documents volumineux. Concrètement, plutôt que d'injecter l'intégralité d'un document dans le contexte du modèle, le système charge le document dans un environnement Python sandboxé persistant, puis orchestre des appels itératifs à des sous-modèles pour analyser des sections spécifiques. Les résultats intermédiaires restent stockés comme variables Python dans le sandbox, sans jamais encombrer la fenêtre de contexte du modèle racine. L'exemple illustratif est celui d'une analyse financière : comparer deux années de rapports annuels d'une même entreprise, soit 300 à 500 pages chacun, auxquels s'ajoutent les dépôts SEC et les rapports d'analystes, pour un total de plusieurs millions de caractères, impossible à traiter d'un seul tenant pour n'importe quel modèle existant. Cette avancée répond à deux échecs classiques des LLM face aux très longs documents. Le premier : la requête dépasse la fenêtre de contexte maximale et est simplement rejetée. Le second, plus insidieux : le document entre en contexte mais le modèle peine à tenir compte des informations situées en son milieu, un phénomène connu sous le nom de "lost in the middle". Les RLM contournent les deux en découpant le problème : un modèle racine génère du code Python pour naviguer et découper le document, tandis que des sous-LLM sont appelés ponctuellement pour les tâches de compréhension sémantique. Le résultat est une architecture sans limite théorique de taille de document, potentiellement transformatrice pour des secteurs comme la finance, le droit ou la recherche médicale, où l'analyse de corpus massifs est quotidienne. Le problème de la fenêtre de contexte n'est pas nouveau : les chercheurs et les ingénieurs y butent depuis l'émergence des LLM à grande échelle. Les solutions précédentes incluaient la recherche par similarité vectorielle (RAG), qui fragmente les documents en chunks et ne récupère que les passages pertinents, mais au prix d'une perte de cohérence globale. L'approche RLM se positionne comme une alternative plus puissante : le modèle racine explore activement le document comme un environnement, décide quelles sections méritent une analyse approfondie, et délègue ces tâches à des sous-modèles via une fonction llm_query() injectée dans le sandbox d'AgentCore. Ce dernier fonctionne en mode réseau PUBLIC, ce qui permet aux appels vers Amazon Bedrock de s'effectuer directement depuis l'environnement sandboxé. AWS s'appuie ici sur son infrastructure Bedrock pour proposer une solution intégrée, combinant orchestration, exécution de code et appels LLM dans un pipeline unifié, sans nécessiter d'infrastructure tierce.

UELes secteurs européens à forte charge documentaire (juridique, financier, médical) disposent d'une approche technique concrète pour traiter des corpus massifs sans être bloqués par les limites de contexte des LLM.

LLMsOutil
1 source
Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session
168AWS ML Blog 

Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session

Amazon a présenté une série de patrons architecturaux pour concevoir des agents vocaux scalables, s'appuyant sur trois composants clés : Amazon Nova Sonic, Amazon Bedrock AgentCore Runtime et le framework open source Strands Agents. Nova Sonic est un modèle de fondation capable de conduire des conversations vocales naturelles en temps réel, avec compréhension du ton et du flux conversationnel. AgentCore Runtime constitue un environnement d'hébergement serverless pour agents IA : on y déploie un agent comme contenaire, et la plateforme gère automatiquement la mise à l'échelle, l'isolation de sessions via microVM, la facturation et le streaming WebSocket bidirectionnel authentifié. Strands Agents, via sa classe BidiAgent, sert de couche d'intégration qui simplifie la gestion du cycle de vie du flux audio et le routage des appels d'outils. Trois patrons d'intégration sont détaillés pour répondre aux défis concrets des équipes : latence élevée, coordination multi-agents et gestion de l'audio en temps réel. Le premier patron, AgentCore Gateway, expose la logique métier existante comme des outils discrets appelables directement par Nova Sonic, sans couche de raisonnement intermédiaire, ce qui minimise la latence. Un exemple concret : quand un utilisateur demande son solde bancaire, le modèle sélectionne l'outil approprié, passe les paramètres et restitue le résultat vocalement en quelques centaines de millisecondes. Le deuxième patron, l'agent-as-tool ou sous-agent, permet de composer plusieurs agents spécialisés, chacun encapsulant un domaine métier distinct, l'agent principal les invoquant comme de simples fonctions. Le troisième patron, la segmentation de sessions, isole les prompts, la mémoire et les permissions selon le contexte, renforçant les frontières de sécurité tout en permettant la réutilisation des composants. Ces annonces s'inscrivent dans une tendance de fond : le passage des assistants vocaux monolithiques vers des architectures composables, où des agents légers et spécialisés collaborent plutôt qu'un seul modèle omniscient tente de tout gérer. Amazon s'aligne ici sur le protocole MCP (Model Context Protocol), standard open source en cours d'adoption dans l'industrie pour l'interopérabilité des outils d'agents. AgentCore Gateway agit comme hôte managé de serveurs MCP, identifiés par des ARN AWS. L'enjeu commercial est direct : les entreprises déployant des centres de contacts ou des assistants vocaux à grande échelle cherchent à réduire le temps avant le premier audio (time-to-first-audio) tout en maintenant fiabilité et conformité. AWS positionne ainsi Bedrock comme socle d'infrastructure pour la prochaine génération d'expériences vocales IA en production.

UELes équipes européennes déployant des centres de contact vocaux peuvent adopter ces patrons via AWS Bedrock, mais aucun acteur ou régulateur européen n'est directement impliqué.

OutilsOutil
1 source
Amazon Bedrock : mise en oeuvre des appels d'outils par programmation
169AWS ML Blog 

Amazon Bedrock : mise en oeuvre des appels d'outils par programmation

Amazon Bedrock propose désormais une approche appelée "Programmatic Tool Calling" (PTC), qui change fondamentalement la manière dont les grands modèles de langage interagissent avec des outils externes. Dans le schéma traditionnel, chaque appel d'outil nécessite un aller-retour complet vers le modèle : celui-ci formule un appel, reçoit le résultat, raisonne, formule le suivant, et ainsi de suite. Avec le PTC, le modèle n'est sollicité qu'une seule fois pour générer un bloc de code Python qui orchestre l'ensemble des appels d'outils. Ce code s'exécute dans un environnement bac à sable isolé, peut enchaîner des appels en parallèle grâce à asyncio, filtrer et agréger les données, et ne renvoie au modèle que le résultat final traité. Amazon Bedrock offre trois chemins d'implémentation : un sandbox Docker auto-hébergé sur ECS pour un contrôle maximal, une solution gérée via Amazon Bedrock AgentCore Code Interpreter, et un proxy compatible avec le SDK Anthropic pour les équipes habituées à cette interface. L'impact concret de cette approche est considérable en termes de latence, de coût et de précision. Prenons un exemple typique : "Quels membres de l'équipe ingénierie ont dépassé leur budget de déplacements au T3 ?" En mode traditionnel, le modèle effectuerait d'abord un appel pour obtenir la liste des 20 membres, puis 20 appels individuels pour récupérer leurs notes de frais, soit au moins 20 cycles d'inférence complets et plus de 2 000 lignes de données dans la fenêtre de contexte. Avec le PTC, un seul cycle d'inférence génère le code qui récupère tout en parallèle, filtre les dépenses de voyage approuvées, compare aux budgets individuels, et retourne uniquement la liste des personnes concernées. Les économies de tokens et de temps sont proportionnelles à la complexité du workflow. Ce paradigme émerge dans un contexte où les agents IA sont de plus en plus utilisés pour des tâches analytiques complexes, et où les coûts d'inférence restent un frein réel au déploiement à grande échelle. Le PTC n'est pas une innovation propre à AWS : le pattern sous-jacent, générer du code exécutable plutôt que d'orchestrer des appels séquentiels, est indépendant du fournisseur et commence à se diffuser chez plusieurs acteurs. Anthropic l'intègre déjà dans son propre SDK. Les cas d'usage privilégiés incluent le traitement de grands volumes de données, les calculs numériques précis, l'orchestration de processus multi-étapes, et les scénarios où la confidentialité des données brutes impose de ne pas les faire transiter par le contexte du modèle. La prochaine étape probable est la standardisation de ce pattern dans les frameworks d'agents comme LangChain ou LlamaIndex.

UELes développeurs européens utilisant Amazon Bedrock peuvent adopter cette approche pour réduire leurs coûts d'inférence et la latence de leurs agents IA analytiques.

OutilsOutil
1 source
Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE
170MarkTechPost 

Cline publie son SDK open source : un runtime d'agents qui alimente désormais son CLI et son Kanban, avec migration des extensions IDE

Cline, l'agent de codage IA open-source utilisé par des millions de développeurs, a annoncé cette semaine une refonte architecturale majeure avec la sortie de @cline/sdk, un runtime d'agent TypeScript désormais disponible en open-source. Concrètement, l'équipe a extrait le coeur du moteur agentique, jusqu'ici étroitement couplé à l'extension VS Code, pour en faire un SDK indépendant, modulaire, sur lequel tous ses produits sont désormais reconstruits : l'extension VS Code, JetBrains, le CLI et le tableau Kanban. Le SDK est structuré en couches strictement ordonnées : @cline/shared (types, schémas, utilitaires), @cline/llms (passerelle vers Anthropic, OpenAI, Google, AWS Bedrock, Mistral, LiteLLM et tout endpoint compatible OpenAI), @cline/agents (boucle d'exécution stateless, compatible navigateur), et @cline/core (orchestration Node.js, sessions, stockage, télémétrie, plugins). Chaque couche est installable séparément, ce qui permet par exemple d'utiliser uniquement @cline/llms comme proxy LLM sans embarquer tout le runtime. Cette architecture redéfinie apporte des gains concrets mesurables. Avec Cline 2.0, l'équipe a reécrit les prompts, simplifié la boucle agentique et amélioré la gestion du contexte. Les résultats publiés sur Terminal Benchmark 2.0 (tbench.ai) au 8 mai 2026 sont frappants : sur claude-opus-4.7, le CLI Cline atteint 74,2% contre 69,4% pour Claude Code d'Anthropic sur le même modèle. Sur claude-opus-4.6, l'écart est similaire, 71,9% contre 65,4%. Sur les modèles open-weight, Cline marque 55,1% sur Kimi-K2.6, contre 37,1% pour OpenCode et 45,5% pour Pi-Code. Côté stabilité, les sessions agentiques longues ne meurent plus lors d'un redémarrage de l'interface : la boucle reste stateless et portable, tandis que la persistance est gérée séparément par le runtime. Cette sortie s'inscrit dans une tendance plus large : celle de la fragmentation et de la standardisation de l'outillage agentique. Pendant des années, les agents IA étaient construits comme des monolithes liés à une interface spécifique, VS Code, un navigateur, un SaaS. Le choix de Cline de découpler son moteur de ses surfaces d'affichage ouvre la voie à une nouvelle génération d'outils où le même agent peut s'exécuter dans un IDE, un terminal, un serveur serverless ou un environnement browser sans réécriture. Le système de plugins intégré au SDK permet en outre aux équipes tierces d'enregistrer leurs propres outils, d'observer les événements du cycle de vie de l'agent et d'étendre ses capacités. Pour les éditeurs et startups qui cherchent à construire sur une base agentique robuste sans repartir de zéro, @cline/sdk représente une fondation crédible, et son positionnement open-source face à des alternatives propriétaires comme Claude Code ou Cursor pourrait accélérer l'adoption dans les environnements d'entreprise.

UELe SDK intègre Mistral nativement comme fournisseur LLM, ce qui facilite l'adoption par les équipes européennes souhaitant une alternative open-source aux outils propriétaires soumis au CLOUD Act.

OutilsOutil
1 source
Contrôlez la navigation de vos agents IA avec les politiques Chrome Enterprise sur Amazon Bedrock AgentCore
171AWS ML Blog 

Contrôlez la navigation de vos agents IA avec les politiques Chrome Enterprise sur Amazon Bedrock AgentCore

Amazon a annoncé le support des politiques d'entreprise Chrome et des certificats CA racine personnalisés dans Amazon Bedrock AgentCore Browser. Cette mise à jour permet aux organisations de configurer plus de 450 paramètres de navigateur via des fichiers JSON conformes au standard Chrome Enterprise, stockés dans Amazon S3 et appliqués à chaque session d'agent. Concrètement, les équipes peuvent désormais définir des listes blanches et noires d'URL, bloquer les téléchargements de fichiers, désactiver le gestionnaire de mots de passe ou contrôler le remplissage automatique de formulaires, le tout appliqué au niveau du navigateur, indépendamment de la logique ou des instructions de l'agent. Le support des certificats CA racine, stockés dans AWS Secrets Manager, permet en outre aux agents de se connecter aux services internes qui utilisent une autorité de certification privée, résolvant ainsi les erreurs de validation HTTPS qui bloquaient jusqu'ici l'accès aux infrastructures d'entreprise. L'enjeu est significatif pour les organisations qui déploient des agents IA autonomes sur le web. Un agent sans restriction de navigation peut accéder à des domaines non autorisés, stocker des identifiants dans le navigateur, télécharger des fichiers hors des flux de travail approuvés, voire exfiltrer des données sensibles. Le nouveau système introduit une séparation claire des responsabilités : les équipes de sécurité configurent les politiques au niveau du navigateur via l'API de plan de contrôle, tandis que les développeurs se concentrent sur la logique métier de l'agent, sans avoir à intégrer des décisions de conformité dans le code applicatif. Les politiques dites "managed", stockées côté service et non surchargeables, s'appliquent à toutes les sessions créées à partir d'un navigateur donné, alors que les politiques "recommended", définies au démarrage de session, jouent le rôle de préférences utilisateur et sont écrasées en cas de conflit. Cette évolution s'inscrit dans une tendance plus large : les agents IA accèdent de plus en plus à des interfaces web réelles pour exécuter des tâches, de la saisie de données à la recherche documentaire en passant par la gestion de portails métier. Cette capacité, aussi puissante soit-elle, ouvre des vecteurs d'attaque inédits, manipulation via des pages web malveillantes (prompt injection), exfiltration involontaire, navigation hors périmètre. En s'appuyant sur l'écosystème Chrome Enterprise, déjà utilisé par des millions d'entreprises pour gérer les navigateurs humains, Amazon évite de réinventer une couche de politique maison et offre aux DSI un cadre familier. L'intégration native avec S3 et Secrets Manager renforce l'alignement avec les architectures AWS existantes, ce qui devrait faciliter l'adoption dans les environnements régulés, finance, santé, administration, où le contrôle granulaire de l'accès aux données est non négociable.

UELes entreprises européennes opérant sur AWS dans des secteurs régulés (finance, santé, administration publique) peuvent désormais imposer des politiques de navigation granulaires à leurs agents IA, facilitant la conformité avec le RGPD et les exigences sectorielles de contrôle des accès aux données.

OutilsOpinion
1 source
La startup Modal en négociations pour lever des fonds à une valorisation de 4,5 milliards de dollars après une forte hausse de ses revenus
172The Information AI 

La startup Modal en négociations pour lever des fonds à une valorisation de 4,5 milliards de dollars après une forte hausse de ses revenus

La startup Modal est en négociation pour lever des fonds à une valorisation d'environ 4,5 milliards de dollars, selon deux sources proches du dossier. Ce montant représente une prime de 80 % par rapport à sa dernière valorisation, obtenue il y a seulement quelques mois. Fondée pour permettre aux développeurs de louer des GPU Nvidia et d'accéder à des outils logiciels pour entraîner et exécuter des modèles d'IA ainsi que des agents autonomes, la société affiche désormais un chiffre d'affaires annualisé d'environ 300 millions de dollars, soit une multiplication par cinq depuis l'automne 2025. Cette trajectoire illustre l'appétit croissant des entreprises pour des infrastructures capables d'exécuter des agents IA de façon sécurisée. La majeure partie de cette croissance provient des "sandboxes" de Modal, des environnements logiciels isolés qui permettent aux développeurs de faire tourner du code et des agents sans risquer d'affecter le reste de leur système ou de leur base de code. À mesure que les entreprises déploient des agents IA en production, ce type d'isolation devient une exigence technique non négociable. Modal s'inscrit dans une vague de startups d'infrastructure IA qui profitent de la ruée vers les agents autonomes. Alors que les grands fournisseurs cloud comme AWS, Google et Azure proposent des solutions similaires, Modal mise sur la simplicité et la rapidité de déploiement pour séduire les équipes d'ingénieurs. Une levée à 4,5 milliards de dollars lui donnerait les moyens d'accélérer son expansion et de renforcer sa capacité de calcul face à une demande qui ne montre aucun signe de ralentissement.

BusinessActu
1 source
Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC
173AWS ML Blog 

Applications de streaming vocal en temps réel avec Amazon Nova Sonic et WebRTC

Amazon a mis en ligne une solution combinant son modèle vocal Nova Sonic et le service Kinesis Video Streams WebRTC pour construire des applications de streaming vocal en temps réel. Nova Sonic repose sur une architecture dite "speech-to-speech" : contrairement aux pipelines traditionnels qui enchaînent reconnaissance vocale, traitement du langage et synthèse vocale en modules séparés, le modèle unifie ces trois étapes en un seul bloc, ce qui réduit significativement la latence. Il propose plusieurs styles de voix, une forte conscience contextuelle et des interfaces d'outils permettant de le connecter à des agents externes. Côté protocole, WebRTC est retenu comme couche de transport : il établit des connexions pair-à-pair directes sans plugin supplémentaire, gère automatiquement le débit adaptatif (ABR), la correction d'erreur en avance (FEC) et les problèmes de jitter, et reste compatible avec Chrome, Firefox, Safari, Edge, Android et iOS. AWS fournit également des exemples open source pour accélérer le démarrage des projets. L'intérêt de cette combinaison est concret : dans des environnements à connectivité instable, WebRTC ajuste dynamiquement le bitrate pour éviter les coupures et maintenir la qualité audio, tandis que Nova Sonic prend en charge la conversation multilingue naturelle, permettant aux utilisateurs d'interagir dans leur propre langue sans friction. Les deux services étant entièrement gérés par AWS, ils se dimensionnent automatiquement, sans que les équipes techniques aient à gérer l'infrastructure sous-jacente. Cela abaisse la barrière d'entrée pour les startups qui ne peuvent pas se permettre des efforts de compatibilité cross-browser ou des architectures de scalabilité complexes. Les cas d'usage visés sont variés : véhicules connectés avec traduction en temps réel pour les conducteurs, usines intelligentes avec communication vocale interculturelle, robotique de service client multilingue, objets connectés domestiques contrôlables vocalement dans plusieurs langues. Cette publication s'inscrit dans une compétition intense autour des interfaces vocales IA temps réel, où OpenAI avec sa Voice API, Google avec Gemini Live et des acteurs comme ElevenLabs se disputent le marché des agents conversationnels. Amazon positionne Nova Sonic comme une réponse intégrée dans son écosystème AWS, en s'appuyant sur l'infrastructure Kinesis Video Streams déjà utilisée par de nombreuses entreprises pour la vidéosurveillance et l'IoT. L'architecture présentée supporte également des intégrations avec des sources de données via RAG (Retrieval Augmented Generation), le protocole MCP (Model Context Protocol) et Strands Agents, ce qui laisse entrevoir des déploiements hybrides mêlant voix, données métier en temps réel et orchestration d'agents autonomes. La mise à disposition d'exemples open source suggère qu'AWS cherche à constituer rapidement une communauté de développeurs autour de Nova Sonic avant que la concurrence ne consolide ses propres standards.

OutilsOutil
1 source
Affiner un LLM avec Databricks Unity Catalog et Amazon SageMaker AI
174AWS ML Blog 

Affiner un LLM avec Databricks Unity Catalog et Amazon SageMaker AI

Amazon Web Services et Databricks ont publié un guide technique détaillant comment affiner des grands modèles de langage (LLM) en combinant Amazon SageMaker AI, Amazon EMR Serverless et Databricks Unity Catalog, le tout en maintenant une gouvernance stricte des données. L'architecture présentée repose sur un flux en quatre étapes : les données d'entraînement sont lues depuis une table gérée par Unity Catalog, prétraitées via un job EMR Serverless utilisant Apache Spark, puis utilisées pour affiner le modèle Ministral-3B-Instruct de Mistral AI via SageMaker AI Training. Les artefacts du modèle entraîné sont enfin réenregistrés dans Unity Catalog, avec traçabilité complète de la lignée des données. Les credentials OAuth sont stockés dans AWS Secrets Manager, et les données transitent exclusivement via Amazon S3 sans jamais contourner les contrôles d'autorisation d'Unity Catalog. Cette intégration répond à un problème concret qui touche les entreprises opérant dans des secteurs régulés : lorsque SageMaker accède directement aux objets S3 sans passer par Unity Catalog, la traçabilité des données disparaît. Impossible alors de savoir quelles données ont servi à entraîner quel modèle, ce qui constitue un risque de conformité majeur dans les environnements de production. En forçant tout accès à transiter par les API REST ouvertes d'Unity Catalog avec authentification OAuth, la solution préserve la visibilité complète sur la lignée des données, de la source brute jusqu'au modèle final enregistré. Cela permet aux équipes data de continuer à utiliser SageMaker AI Studio comme environnement d'orchestration et d'entraînement sans sacrifier les politiques de gouvernance centralisées imposées par les équipes de conformité. Ce guide s'inscrit dans une tendance plus large de l'industrie cloud : les hyperscalers et les éditeurs de plateformes de données cherchent à proposer des intégrations natives pour éviter que la flexibilité des services managés ne crée des angles morts réglementaires. Databricks, valorisé à 62 milliards de dollars lors de sa dernière levée de fonds en 2024, a fait de Unity Catalog le pilier central de sa stratégie de gouvernance des données et de l'IA, et multiplie les partenariats avec AWS pour que ses couches de contrôle s'appliquent même lorsque le calcul est délégué à des services tiers comme SageMaker ou EMR. Pour les entreprises qui ont standardisé sur Databricks pour la gouvernance tout en restant attachées aux services ML d'AWS, cette architecture offre un chemin viable pour affiner des LLM en production sans compromettre leurs obligations d'audit. La prochaine étape logique sera d'étendre ce patron à d'autres modèles et à des workflows d'inférence, pas seulement d'entraînement.

UELes entreprises européennes soumises au RGPD et à l'AI Act peuvent s'appuyer sur cette architecture pour garantir la traçabilité complète des données d'entraînement de leurs LLM, répondant aux exigences d'audit et de conformité imposées par les régulateurs.

LLMsTuto
1 source
Tokenmaxxing : quand les salariés d’Amazon brûlent des tokens pour se faire bien voir
175Next INpact 

Tokenmaxxing : quand les salariés d’Amazon brûlent des tokens pour se faire bien voir

Des employés d'Amazon utilisent MeshClaw, un outil interne de déploiement d'agents IA lancé il y a quelques semaines par le groupe, non pas pour travailler plus efficacement, mais pour gonfler artificiellement leurs statistiques de consommation de tokens. MeshClaw fonctionne sur le même principe qu'OpenClaw : il permet de déployer des agents capables de trier des courriels, interagir sur Slack, déployer du code ou surveiller des applications. Selon le Financial Times, certains salariés font tourner ces agents en continu non parce qu'ils en ont besoin, mais pour afficher un usage IA élevé dans des classements internes que la direction a commencé à surveiller. Amazon s'est fixé comme objectif que 80 % de ses développeurs utilisent l'IA chaque semaine. Ce phénomène a reçu un nom : le "tokenmaxxing". Un développeur médian consomme environ 51 millions de tokens par mois selon une étude Jellyfish publiée en avril 2026, tandis que les 10 % de plus gros consommateurs dépassent 380 millions de tokens mensuels, soit un coût pouvant atteindre 700 dollars par mois aux tarifs de l'API Claude. Ce détournement révèle les effets pervers d'une gouvernance par les métriques dans les entreprises tech. Quand un indicateur devient un critère d'évaluation implicite, il cesse de mesurer la réalité et devient une fin en soi. "Les managers regardent ces chiffres", confie un employé anonyme, "ça crée des effets pervers et certaines personnes deviennent très compétitives." L'étude Jellyfish sur 12 000 développeurs dans 200 entreprises au premier trimestre 2026 enfonce le clou : une consommation massive de tokens produit effectivement plus de code, mais ce code nécessite davantage d'allers-retours, de supervision humaine et de corrections, ce qui annule les gains de productivité supposés. À cela s'ajoute un risque de sécurité réel : MeshClaw dispose d'un accès large à des outils internes sensibles, ce qui peut provoquer des incidents graves en cas d'usage mal maîtrisé, comme l'ont déjà illustré de récentes pannes chez AWS attribuées à des agents IA. Ce phénomène dépasse Amazon. Meta avait développé un tableau de bord interne attribuant le statut de "Token Legend" aux plus gros consommateurs de tokens, avant de le retirer sous pression, tout en maintenant un suivi officiel de l'usage IA. La pression vient du sommet : Amazon a annoncé 200 milliards de dollars de dépenses d'investissement pour 2026, en grande partie fléchés vers l'IA et les centres de données. Pour justifier ces montants astronomiques auprès des actionnaires, les directions poussent les équipes à produire des preuves d'usage, créant une mécanique où l'apparence d'adoption compte autant que l'adoption réelle. L'enjeu, désormais, est de distinguer la valeur générée par l'IA de la valeur simulée pour complaire aux tableaux de bord.

UELes entreprises tech françaises et européennes qui adoptent des métriques de suivi de l'usage IA s'exposent aux mêmes effets pervers de gouvernance par les indicateurs documentés ici.

SociétéOpinion
1 source
OpenClaw vs Hermes Agent : Nous Research domine le classement mondial d'OpenRouter avec son agent auto-améliorant
176MarkTechPost 

OpenClaw vs Hermes Agent : Nous Research domine le classement mondial d'OpenRouter avec son agent auto-améliorant

Hermes Agent, développé par Nous Research sous licence MIT, a dépassé OpenClaw pour s'imposer à la première place du classement mondial des agents et applications sur OpenRouter au 10 mai 2026. L'agent génère désormais 224 milliards de tokens quotidiens sur la plateforme, contre 186 milliards pour OpenClaw, un écart significatif qui illustre une adoption massive en seulement quelques mois. Lancé en février 2026, Hermes a enchaîné les versions majeures à un rythme soutenu : la v0.9.0 a ajouté le support Android/Termux et 16 plateformes de messagerie, la v0.11.0 a livré une réécriture complète de l'interface en React/Ink ainsi que l'intégration d'AWS Bedrock, de NVIDIA NIM et de GPT-5.5. La v0.13.0 "Tenacity", publiée le 7 mai 2026, introduit un tableau Kanban multi-agents avec détection de tâches zombies, une commande /goal pour maintenir un objectif sur plusieurs tours de conversation, et Google Chat comme 20e plateforme supportée, le tout en 1 556 commits et 761 pull requests fusionnées depuis le lancement. Ce basculement de leadership révèle deux philosophies opposées sur ce que doit être un agent IA. OpenClaw mise sur la portée maximale via une passerelle WebSocket centrale connectant plus de 50 canaux (Telegram, Discord, Slack, WhatsApp, Signal, etc.). Hermes parie sur la valeur cumulée : après chaque tâche, l'agent analyse sa propre performance et génère automatiquement des fichiers de compétences réutilisables, stockés dans une base SQLite FTS5 combinée à des instantanés d'identité persistants. Plus l'agent tourne longtemps, plus il s'optimise pour les workflows spécifiques de son utilisateur. Ce modèle "do, learn, improve" semble résonner fortement avec les développeurs qui cherchent un agent capable d'évoluer plutôt qu'un simple routeur de messages. La comparaison sécuritaire entre les deux projets est également instructive. OpenClaw a accumulé neuf CVE en quatre jours en mars 2026, dont un à 9,9/10 selon le score CVSS ; un audit de Koi Security sur 2 857 compétences ClawHub a identifié 341 entrées malveillantes, et SecurityScorecard a signalé des dizaines de milliers d'instances publiquement exposées. Hermes n'est pas exempt de vulnérabilités, plusieurs CVE ont été publiés fin avril 2026, dont CVE-2026-7113, une absence d'authentification sur l'endpoint webhooks en version 0.8.0, mais la v0.13.0 a corrigé huit failles critiques, dont l'activation par défaut de la rédaction des données sensibles et des correctifs sur les flux OAuth. Le contexte plus large est celui d'une compétition ouverte qui s'intensifie : depuis le départ du fondateur d'OpenClaw chez OpenAI en février 2026 et la mise sous tutelle du projet via une fondation sponsorisée par OpenAI, Hermes bénéficie d'un momentum à la fois technique et symbolique dans l'écosystème open source.

💬 224 milliards de tokens par jour, c'est pas rien. Ce qui me frappe surtout dans cette histoire, c'est moins le chiffre que l'architecture : un agent qui génère ses propres fichiers de compétences après chaque tâche et s'optimise en continu, c'est le modèle qu'on attendait depuis un moment. Et bon, 9 CVE en quatre jours chez OpenClaw dont un à 9,9, ça aide à faire le tri.

OutilsOutil
1 source
9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore
177MarkTechPost 

9 meilleurs outils IA pour le développement piloté par les specs en 2026 : Kiro, BMAD, GSD et plus encore

En 2026, le développement piloté par les spécifications (SDD pour spec-driven development) s'impose comme une réponse structurelle à un problème croissant dans les équipes de développement augmentées par l'IA : générer du code rapidement ne sert à rien si ce code ne correspond pas aux besoins réels du système. Un classement des neuf outils les plus utilisés pour mettre en oeuvre cette approche met en lumière trois acteurs majeurs. AWS Kiro (kiro.dev) est un IDE agentique qui guide les développeurs en trois phases formalisées, Exigences, Design et Tâches, et produit trois artefacts structurés. Il utilise la notation EARS pour les user stories et un système de hooks événementiels qui déclenchent automatiquement des vérifications (tests, mises à jour de documentation, scans de sécurité) à chaque sauvegarde de fichier. Côté modèles, Kiro s'appuie sur un routeur automatique combinant Claude Sonnet, Qwen, DeepSeek, GLM et MiniMax. GitHub Spec Kit (93 000 étoiles, version 0.8.7 publiée le 7 mai 2026) est l'option open source la plus adoptée, compatible avec plus de 30 agents dont Claude Code, Copilot et Gemini CLI. BMAD-METHOD, lui, orchestre plus de 12 agents spécialisés couvrant l'ensemble du cycle de développement logiciel ; sa version 6.6.0, sortie le 29 avril 2026, totalise 46 700 étoiles et 5 500 forks sur GitHub. L'enjeu central de ces outils est de renverser la logique de travail habituelle : au lieu de coder d'abord et d'affiner ensuite, le développeur formalise son intention en amont, et le code devient une sortie générée à partir de cette spécification. Pour les équipes professionnelles, cela réduit significativement le risque de divergence entre ce qui est produit et ce qui était réellement attendu, un problème qui coûte cher en retours arrière et en dette technique. Kiro s'adresse aux équipes qui veulent un environnement familier (il est construit sur Code OSS), tandis que Spec Kit convient aux équipes souhaitant conserver leur IDE existant. BMAD-METHOD cible des projets plus complexes nécessitant une coordination entre rôles distincts (product management, architecture, QA, etc.). Ce mouvement vers le SDD reflète une maturité croissante dans l'usage de l'IA en développement logiciel. La première vague d'outils misait sur la vitesse brute de génération de code ; la deuxième, celle que ces neuf outils incarnent, mise sur la cohérence et la traçabilité. GitHub a résumé la philosophie de Spec Kit en une formule : le code est désormais la sortie de dernier kilomètre, l'intention est la source de vérité. BMAD introduit avec sa V6 une équipe d'agents multi-plateformes, permettant à la même configuration de fonctionner indifféremment sur Claude Code, Cursor ou Codex. La convergence de ces approches suggère que la prochaine bataille dans les outils de développement ne se jouera pas sur la qualité du code généré, mais sur la qualité des spécifications qui le précèdent.

💬 La première vague d'outils IA misait sur la vitesse brute, et on a tous couru après. Bon, résultat : du code généré en 10 minutes qu'on passe 3 heures à corriger parce que la spec était dans la tête du dev et nulle part ailleurs. Kiro et Spec Kit ne règlent pas tout, mais l'idée de formaliser l'intention avant le code, c'est le truc qu'on aurait dû faire dès le départ.

OutilsOutil
1 source
Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes
178VentureBeat AI 

Les agents IA ratent toutes les discussions de votre équipe. SageOX propose une infrastructure de contexte pour agents autonomes

SageOX, une startup de Seattle fondée par des vétérans ayant construit l'infrastructure originale d'AWS EC2 et EBS, est sortie du mode furtif en annonçant un tour de financement de 15 millions de dollars mené par Canaan, avec la participation d'A.Capital, Pioneer Square Labs et Founders' Co-op. L'entreprise, dirigée par Ajit Banerjee, ancien ingénieur chez Hugging Face, Meta, Amazon et Apple, commercialise ce qu'elle appelle une "infrastructure de contexte agentique" : un système conçu pour garder les agents IA aussi informés que les employés humains sur les décisions, discussions et objectifs d'une équipe. La suite produit repose sur deux composants principaux : l'Ox Dot, un petit appareil physique placé dans les espaces partagés qui enregistre réunions et séances de travail d'une simple pression, et l'Ox CLI, un outil en ligne de commande open source sous licence MIT qui permet aux assistants de codage comme Claude Code ou Codex d'interroger la mémoire collective de l'équipe avant d'écrire du code. Le problème que SageOX cherche à résoudre est celui du "drift" des agents, c'est-à-dire leur tendance à s'écarter des intentions réelles de l'équipe parce qu'ils démarrent chaque tâche sans historique ni contexte. Si une équipe décide en réunion d'utiliser un schéma d'authentification précis, l'agent de codage l'ignorera complètement, sauf si quelqu'un le lui précise explicitement dans chaque prompt. L'Ox Dot capture audio, transcrit et identifie les intervenants, puis distille ces échanges en une mémoire d'équipe accessible aux humains et aux agents. Sa fonctionnalité "Auto Rewind" permet même de capturer rétrospectivement une conversation informelle qui s'est tenue sans enregistrement, évitant la perte de décisions prises lors d'échanges spontanés. La commande ox agent prime intègre ensuite cet historique directement dans le contexte de travail des agents. Le problème de l'"ingénierie du contexte" est l'un des défis majeurs non résolus de l'ère agentique. À mesure que les grands fournisseurs de modèles comme OpenAI, Anthropic ou Google descendent dans la chaîne de valeur en proposant leurs propres agents métier, la question de comment équiper ces agents d'un contexte riche et fidèle à la réalité d'une organisation reste entière. SageOX parie que la réponse n'est pas dans le prompt engineering ou la documentation statique, mais dans une couche d'infrastructure dédiée qui capte le contexte là où il se forme naturellement : conversations, tableaux blancs, standups. Ryan Snodgrass, CTO et ancien d'Amazon, pousse même plus loin en remettant en question les principes classiques de gestion de code source, estimant que les historiques "propres" de commits sont souvent contre-productifs pour les agents. La startup s'attaque ainsi à un marché encore peu balisé, à l'intersection de la collaboration d'équipe et de l'orchestration agentique.

OutilsOutil
1 source
Nemotron Labs : les enjeux des agents OpenClaw pour toutes les entreprises
179NVIDIA AI Blog 

Nemotron Labs : les enjeux des agents OpenClaw pour toutes les entreprises

En janvier 2026, le projet open source OpenClaw a franchi la barre des 100 000 étoiles sur GitHub, enregistrant plus de 2 millions de visiteurs en une seule semaine. En mars, il atteignait 250 000 étoiles, dépassant React pour devenir le projet le plus étoilé de l'histoire de GitHub en seulement 60 jours. Créé par Peter Steinberger, OpenClaw est un assistant IA autonome et persistant conçu pour fonctionner localement ou sur des serveurs privés, sans dépendre d'APIs ou d'infrastructures cloud tierces. Sa particularité réside dans son mode de fonctionnement : contrairement aux agents classiques qui s'exécutent à la demande et s'arrêtent, les "claws" tournent en continu en arrière-plan, consultent régulièrement une liste de tâches, agissent de façon autonome et n'alertent l'humain que lorsqu'une décision s'impose. Cette popularité fulgurante s'accompagne d'enjeux concrets pour les entreprises et les développeurs. Les chercheurs en sécurité ont rapidement soulevé des questions sur la gestion des données sensibles, l'authentification et les mises à jour de modèles dans des déploiements auto-hébergés. Des risques supplémentaires ont été identifiés, liés aux instances serveur non patchées ou aux contributions malveillantes dans les forks communautaires. C'est dans ce contexte que NVIDIA est entré en jeu, collaborant avec Steinberger pour renforcer la sécurité du projet : isolation des modèles, contrôle des accès aux données locales et vérification des contributions communautaires. NVIDIA a également lancé NemoClaw, une implémentation de référence qui installe en une seule commande OpenClaw, le runtime sécurisé NVIDIA OpenShell et les modèles ouverts Nemotron, avec des paramètres durcis pour le réseau, l'accès aux données et la sécurité globale. La montée en puissance d'OpenClaw illustre une tendance de fond dans l'évolution de l'IA. Après les phases prédictive, générative et de raisonnement, l'IA autonome constitue une quatrième vague qui s'installe à un rythme encore plus soutenu que les précédentes. Chaque phase a multiplié les besoins en inférence : l'IA générative a surpassé le prédictif, l'IA de raisonnement a encore multiplié les besoins par 100, et les agents autonomes à longue durée d'exécution pourraient les multiplier par 1 000 supplémentaires. Cette explosion de la demande de calcul ouvre des perspectives industrielles considérables : des chercheurs capables de travailler sur un problème toute la nuit sans supervision, des systèmes itérant sur des milliers de configurations de conception, ou des outils de monitoring capables de détecter et escalader des anomalies en temps réel. Le déploiement sécurisé de ces agents en entreprise reste cependant un chantier ouvert, que NemoClaw ambitionne de baliser.

OutilsOutil
1 source
Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées
180AWS ML Blog 

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

Amazon a dévoilé une nouvelle fonctionnalité pour son service Bedrock AgentCore Gateway : la connectivité VPC gérée, qui permet aux agents d'intelligence artificielle d'accéder à des ressources privées hébergées derrière des réseaux Amazon Virtual Private Cloud (VPC) sans exposer le trafic sur l'internet public. Concrètement, ce mécanisme repose sur un composant appelé Resource Gateway, qui provisionne automatiquement des interfaces réseau élastiques (ENI) directement à l'intérieur du VPC cible, à raison d'une interface par sous-réseau. Deux modes de fonctionnement sont proposés : le mode managé, où AgentCore prend en charge l'intégralité de l'infrastructure réseau à partir des identifiants VPC, de sous-réseau et des groupes de sécurité fournis par l'utilisateur ; et le mode auto-géré, qui laisse davantage de contrôle à l'équipe technique. Trois scénarios pratiques illustrent ces cas d'usage : la connexion à un endpoint privé Amazon API Gateway, l'intégration avec un serveur MCP (Model Context Protocol) hébergé sur Amazon Elastic Kubernetes Service (EKS), et l'accès à une API REST privée dans un réseau isolé. Pour les équipes qui déploient des agents IA en production, cette capacité représente un gain opérationnel significatif. Jusqu'ici, chaque chemin de connexion entre un agent et un outil interne (base de données, API métier, microservice) nécessitait une configuration réseau manuelle, ralentissant les déploiements et multipliant les risques de mauvais paramétrage. Avec AgentCore Gateway VPC egress, une Resource Configuration délimite précisément l'endpoint accessible, un nom de domaine ou une adresse IP, plutôt que d'ouvrir l'accès à l'ensemble du VPC. La Service Network Resource Association, créée et gérée automatiquement par AgentCore, connecte ensuite cette configuration au réseau de service, ce qui permet à l'agent d'invoquer l'endpoint privé de façon sécurisée et traçable. Pour les organisations avec des architectures multi-VPC ou hybrides, le service s'intègre nativement avec AWS Transit Gateway et le VPC peering inter-régions. Cette annonce s'inscrit dans la stratégie plus large d'Amazon pour rendre ses agents IA exploitables dans des environnements d'entreprise contraints, où la sécurité réseau et la conformité interdisent tout transit par l'internet public. Bedrock AgentCore est la couche d'infrastructure d'Amazon dédiée à l'orchestration et au déploiement d'agents autonomes en production, concurrençant directement les offres de Microsoft Azure AI Foundry et Google Vertex AI Agent Builder. La prise en charge du protocole MCP, standard ouvert porté par Anthropic pour connecter les agents à des outils externes, signale une convergence de l'écosystème autour d'interfaces interopérables. À mesure que les agents IA migrent du prototype vers le système critique, la capacité à les brancher sur des ressources internes sans compromettre le périmètre de sécurité devient un prérequis incontournable pour les DSI, ce qu'Amazon positionne désormais comme une fonctionnalité de première classe.

UELes organisations européennes soumises au RGPD déployant des agents IA peuvent exploiter cette connectivité VPC privée pour maintenir leurs données internes hors de l'internet public, facilitant ainsi la conformité réglementaire.

InfrastructureTuto
1 source
Amazon Quick Flows automatise les tâches répétitives
181AWS ML Blog 

Amazon Quick Flows automatise les tâches répétitives

Amazon a lancé Quick Flows, une fonctionnalité d'automatisation des flux de travail intégrée à sa suite Amazon Quick, qui permet de créer des automatisations intelligentes en langage naturel, sans écrire une seule ligne de code ni posséder la moindre expertise en machine learning. Le principe est simple : l'utilisateur décrit en quelques phrases ce qu'il souhaite automatiser, et le système génère automatiquement le flux correspondant. Amazon illustre l'outil avec deux cas d'usage concrets : un analyseur de performance financière, capable de collecter en temps réel des cours boursiers, des ratios clés (PER, capitalisation boursière, revenus), des titres d'actualité financière et des recommandations d'analystes à partir d'un simple nom d'entreprise ou d'un ticker symbol, ainsi qu'un système d'automatisation de l'onboarding des employés. Quick Flows s'inscrit dans la suite Amazon Quick, un ensemble de fonctionnalités d'IA permettant d'analyser des données et d'obtenir des insights via des conversations en langage naturel. La seule condition d'accès est de disposer d'un compte AWS actif avec Amazon Quick activé. L'enjeu de productivité est considérable. Une tâche aussi banale que la compilation d'un rapport hebdomadaire, qui exige de copier manuellement des données depuis plusieurs systèmes puis de les reformater pour différents interlocuteurs, peut absorber plusieurs heures chaque lundi. Multipliée sur l'ensemble d'une équipe, la perte de temps devient structurelle. Quick Flows vise à libérer ces heures au profit de travaux à plus forte valeur ajoutée. En rendant l'automatisation accessible à des profils non techniques, c'est potentiellement l'ensemble des fonctions support, finance, RH ou opérations qui peuvent reconfigurer leurs processus sans dépendre d'une équipe d'ingénieurs. La capacité à partager des flux créés avec d'autres membres d'une équipe renforce encore la dimension collaborative et l'impact organisationnel de l'outil. Cette annonce s'inscrit dans la compétition intense que se livrent les grands acteurs du cloud pour proposer des couches d'automatisation basées sur l'IA générative. Microsoft, avec Power Automate et Copilot Studio, et Google, avec ses Workspace Flows, ont déjà pris position sur ce segment. Amazon répond avec une approche centrée sur l'interface conversationnelle et l'intégration native à l'écosystème AWS. Quick Flows permet également de convertir une conversation existante avec un agent de chat en flux automatisé, ce qui réduit encore la friction à l'adoption. La génération de contenu par l'IA restant par nature variable, Amazon prévient explicitement que les résultats peuvent différer d'une exécution à l'autre. La prochaine étape annoncée consiste à passer de l'analyse financière à des automatisations plus complexes comme l'onboarding RH, signal que la plateforme vise des cas d'usage à fort volume de données et d'interactions humaines.

UELes entreprises européennes utilisant AWS peuvent désormais automatiser leurs flux de travail en langage naturel sans compétences techniques, dans un segment où Microsoft et Google proposent déjà des offres concurrentes.

OutilsOutil
1 source
Que cache le grand partenariat entre Meta et Amazon autour des puces CPU ?
182Le Big Data 

Que cache le grand partenariat entre Meta et Amazon autour des puces CPU ?

Le 24 avril 2026, Meta Platforms a officialisé un accord de plusieurs milliards de dollars avec Amazon Web Services portant sur l'accès à des dizaines de millions de cœurs de puces Graviton sur une durée estimée entre trois et cinq ans. Les puces concernées sont les Graviton5, gravées en 3 nanomètres, conçues en interne par Amazon via Annapurna Labs sur architecture Arm. Meta devient ainsi l'un des cinq plus grands clients de cette gamme de processeurs. Selon Nafea Bshara, vice-présidente d'AWS, le critère décisif pour Meta a été le rapport performance/prix, dans un contexte où les coûts d'infrastructure liés à l'IA atteignent des niveaux inédits. L'accord marque une rupture avec la logique purement GPU qui dominait les décisions d'infrastructure depuis deux ans et confirme un rééquilibrage profond des architectures de calcul à grande échelle. Ce retour des CPU au premier plan n'est pas un hasard. L'essor des agents IA, ces systèmes capables d'exécuter des tâches complexes de manière autonome, génère des besoins de calcul différents de ceux de l'entraînement des grands modèles. Les CPU jouent un rôle central dans les phases dites de post-entraînement, où les modèles sont ajustés pour des usages spécifiques, ainsi que dans la gestion de l'orchestration en amont et en aval des GPU. Loin de les remplacer, ils les complètent en optimisant l'ensemble de la chaîne de traitement. Pour Meta, qui déploie Meta AI à des centaines de millions d'utilisateurs et développe activement des expériences agentiques, la capacité à absorber des volumes massifs d'inférences à coût maîtrisé est devenue un avantage compétitif direct. Cet accord s'inscrit dans une stratégie d'infrastructure délibérément diversifiée. Meta multiplie les partenariats avec Nvidia, AMD et Arm Holdings, refusant toute dépendance à une architecture unique. La collaboration avec Amazon remonte à 2016, mais bascule ici vers un engagement sur une technologie CPU spécifique, ce qui est inédit dans leur relation. Sur le plan géographique, la majorité des déploiements sera réalisée aux États-Unis, dans un contexte de souveraineté technologique et de sécurisation des chaînes d'approvisionnement devenues des enjeux stratégiques. Du côté d'Amazon, valider Meta comme client de référence renforce la crédibilité des Graviton face aux solutions concurrentes et soutient une intégration verticale plus large : AWS vient d'annoncer 5 milliards de dollars supplémentaires investis dans Anthropic, qui utilisera elle aussi ces mêmes puces maison.

InfrastructureOpinion
1 source
Google Cloud propose un nouvel outil pour organiser les données de votre entreprise
183Le Big Data 

Google Cloud propose un nouvel outil pour organiser les données de votre entreprise

Google Cloud a annoncé le 22 avril 2026, lors de son événement Google Cloud Next, le lancement de Knowledge Catalog, un moteur de contexte unifié intégré à sa plateforme Dataplex. L'outil agrège les métadonnées issues de multiples systèmes, aussi bien natifs comme BigQuery que des plateformes tierces, pour créer une source unique de vérité accessible en temps réel. Au-delà du simple inventaire technique, Knowledge Catalog automatise l'enrichissement des données en analysant schémas, requêtes et contenus non structurés pour générer des descriptions en langage naturel, construire des glossaires métiers et cartographier les relations entre entités. Des agents spécialisés, dont un basé sur LookML, permettent de générer et harmoniser automatiquement les règles métier. Des entreprises comme Bloomberg Media exploitent déjà cette approche pour permettre à des utilisateurs non techniques d'interroger des lacs de données complexes via des requêtes en langage courant. Le problème que Google Cloud cherche à résoudre est structurel : les agents d'IA en entreprise produisent des résultats médiocres non pas par manque de puissance de calcul, mais par manque de contexte fiable. Lorsque les mêmes indicateurs coexistent sous plusieurs définitions selon les équipes, l'automatisation devient fragile et l'analyse peu fiable. En unifiant ce socle sémantique, Knowledge Catalog permet aux agents de raisonner sur des bases cohérentes et partagées, réduisant les erreurs d'interprétation et accélérant l'accès à l'information. L'intégration avec Gemini renforce encore ce dispositif : même des fichiers bruts non structurés deviennent exploitables directement dans l'écosystème data. Google introduit également la notion de "produits de données", des ensembles packagés conçus pour être consommés directement par des agents ou des équipes métier, ce qui marque un changement de paradigme dans la façon dont les organisations distribuent l'accès à la donnée. La sortie de Knowledge Catalog s'inscrit dans une course que se livrent les grands fournisseurs cloud pour devenir la couche d'infrastructure de référence des entreprises qui déploient des agents d'IA à grande échelle. Microsoft, avec son écosystème Fabric et ses connecteurs Copilot, et AWS, avec son offre autour de Bedrock et des catalogues de données Lake Formation, avancent sur le même terrain. Le défi commun est de dépasser la promesse technique pour s'imposer comme le standard de gouvernance des données en contexte agentique. Pour Google Cloud, qui dispose d'un avantage compétitif avec Gemini et BigQuery, ce catalogue universel représente un levier pour verrouiller les grands comptes dans son écosystème. La prochaine étape sera d'observer si l'enrichissement automatique tient ses promesses à l'échelle, là où la curation manuelle a toujours montré ses limites.

UELes entreprises européennes déployant des agents IA sur Google Cloud peuvent améliorer la gouvernance de leurs données métier, sans impact réglementaire ou institutionnel spécifique pour la France ou l'UE.

OutilsOutil
1 source
Des modèles biologiques multimodaux appliqués aux traitements et aux soins aux patients
184AWS ML Blog 

Des modèles biologiques multimodaux appliqués aux traitements et aux soins aux patients

Amazon Web Services présente un environnement unifié pour les modèles de fondation biologiques multimodaux (BioFMs), une nouvelle catégorie d'intelligences artificielles entraînées sur des données hétérogènes issues du vivant. Selon une analyse de Delile et al. publiée en 2025, les BioFMs actuellement déployés se répartissent entre la documentation clinique (35 %), l'analyse de données omiques incluant ADN, épigénétique et ARN (30 %), la conception de protéines et de molécules (20 %), et l'imagerie médicale (15 %). Parmi les modèles multimodaux les plus avancés figurent Latent-X1 et Latent-X2 de Latent Labs, capables de prédire des structures protéiques en 3D et de générer des molécules liant les cibles thérapeutiques comme des anticorps ou des miniprotéines. Arc Institute a développé Evo 2, qui modélise l'intégralité du dogme central de la biologie pour interpréter et prédire la structure et la fonction de l'ADN, de l'ARN et des protéines. Harvard et AstraZeneca ont co-développé MADRIGAL, qui prédit les résultats cliniques de combinaisons médicamenteuses en intégrant des données structurelles, transcriptomiques et de viabilité cellulaire. John Snow Labs propose Medical VLM-24B, un modèle à 24 milliards de paramètres qui traite simultanément des notes cliniques, des résultats biologiques et des images radiologiques (radiographie, IRM, scanner). L'enjeu de ces modèles multimodaux est de combler une lacune critique dans la prise de décision médicale et pharmaceutique : aujourd'hui, les données biologiques restent fragmentées entre silos. Un chercheur en oncologie analyse séparément les données génomiques, les images histologiques et les dossiers patients, alors que les insights décisifs se cachent précisément dans les corrélations entre ces flux. En fusionnant ces modalités dans un seul modèle, les BioFMs permettent une médecine personnalisée plus précise, accélèrent la découverte de médicaments et réduisent les effets indésirables liés aux polythérapies. Bioptimus avec M-Optimus décode ainsi conjointement histologie et données cliniques pour soutenir la recherche jusqu'au suivi patient, tandis que le modèle IRM 3D de GE Healthcare ouvre la voie à des applications de segmentation et de génération de comptes rendus radiologiques automatisés. Le tournant décisif pour les modèles unimodaux a été la prédiction de la structure des protéines par AlphaFold, récompensée par le prix Nobel de chimie 2024. Ce succès a légitimé les BioFMs comme infrastructure sérieuse et attiré des investissements massifs d'acteurs académiques et industriels. La convergence vers le multimodal suit la même trajectoire que les modèles généralistes comme Amazon Nova 2 Omni, capable de traiter texte, images, vidéo et voix au sein d'un seul système. AWS se positionne comme infrastructure centrale de ce marché en offrant compute scalable, outils de développement et intégrations partenaires. L'intégration de Nach01 d'Insilico Medicine, qui combine langage naturel, chimie computationnelle et structure moléculaire 3D, illustre comment le multimodal devient le nouveau standard pour l'ensemble du cycle de développement du médicament.

UELa startup française Bioptimus, avec son modèle M-Optimus combinant histologie et données cliniques, est directement impliquée dans cette dynamique des modèles biologiques multimodaux qui redessine la recherche médicale et pharmaceutique en Europe.

RecherchePaper
1 source
Créez votre premier agent en quelques minutes : nouvelles fonctionnalités d'Amazon Bedrock AgentCore
185AWS ML Blog 

Créez votre premier agent en quelques minutes : nouvelles fonctionnalités d'Amazon Bedrock AgentCore

Amazon a annoncé de nouvelles fonctionnalités pour Bedrock AgentCore, sa plateforme de développement d'agents IA, qui promettent de réduire drastiquement le temps nécessaire pour passer d'une idée à un agent fonctionnel. La pièce maîtresse de cette mise à jour est le "managed agent harness", une couche d'infrastructure gérée qui permet de déclarer et lancer un agent en trois appels d'API seulement, sans écrire de code d'orchestration. Le développeur n'a qu'à définir quel modèle utiliser, quels outils appeler et quelles instructions suivre : AgentCore assemble automatiquement le calcul, la mémoire, les identités et la sécurité. La plateforme est compatible avec les frameworks déjà en usage dans l'industrie : LangGraph, LlamaIndex, CrewAI et Strands Agents, le framework open source d'AWS qui propulse le harness. AgentCore gère également la persistance de l'état de session sur un système de fichiers durable, ce qui permet à un agent de suspendre une tâche en cours et de la reprendre exactement là où il s'était arrêté. Jusqu'ici, construire l'infrastructure sous-jacente d'un agent, compute, sandbox d'exécution de code, connexions sécurisées aux outils, stockage persistant, gestion des erreurs, représentait plusieurs jours de travail avant de pouvoir tester la moindre logique métier. Avec AgentCore, tester une variante d'agent, changer de modèle ou ajouter un outil devient une modification de configuration et non une réécriture de code. Rodrigo Moreira, VP Engineering chez VTEX, l'un des premiers utilisateurs, confirme que ce qui prenait auparavant des jours de mise en place peut désormais être validé en quelques minutes. Cette accélération du cycle de prototypage est particulièrement significative pour les équipes produit qui veulent itérer rapidement sur la logique agent sans s'embourber dans la plomberie backend. Les patterns "human-in-the-loop", souvent coûteux à implémenter, deviennent pratiques grâce à la persistance native de session, sans nécessiter de refonte architecturale ultérieure. La sortie de ces fonctionnalités s'inscrit dans une concurrence féroce entre les grands fournisseurs cloud pour capter les équipes qui industrialisent l'IA agentique. AWS fait le pari que les développeurs adoptent plus facilement un service géré s'il supprime la friction initiale tout en restant extensible : lorsque les besoins d'orchestration personnalisée ou de coordination multi-agents se précisent, il suffit de basculer d'une configuration déclarative vers du code, sur la même plateforme, avec la même pipeline de déploiement et le même isolement microVM. La prochaine étape annoncée, déployer et opérer les agents depuis le même terminal, vise à unifier le cycle complet de développement, de la première idée jusqu'à la production, dans un seul environnement sans rupture d'outil.

UELes équipes de développement françaises et européennes peuvent réduire leur temps de prototypage d'agents IA, accélérant l'industrialisation de l'IA agentique pour les entreprises du continent.

OutilsOutil
1 source
186AWS ML Blog 

Recherche sémantique vidéo avec Amazon Nova Multimodal Embeddings

Amazon a lancé Nova Multimodal Embeddings, un modèle d'embedding unifié disponible sur Amazon Bedrock, capable de traiter simultanément du texte, des images, de la vidéo et de l'audio dans un espace vectoriel sémantique commun. L'objectif est de résoudre un problème concret qui freine l'industrie audiovisuelle : permettre de rechercher dans des vidéos par le sens, et non par des mots-clés exacts. Concrètement, le modèle génère des vecteurs de 1 024 dimensions qui encodent à la fois les signaux visuels et audio d'un segment vidéo, stockés ensuite dans Amazon S3. L'architecture de référence publiée par Amazon combine une phase d'ingestion en six étapes, upload dans S3, découpage en plans via FFmpeg sur AWS Fargate, traitement parallèle avec embeddings visuels/audio, transcription via Amazon Transcribe, et détection de célébrités via Amazon Rekognition, et une phase de recherche hybride qui fusionne recherche sémantique et lexicale pour produire une liste de résultats classés. L'enjeu est majeur pour tous les secteurs qui gèrent des bibliothèques vidéo volumineuses. Une chaîne sportive peut désormais retrouver instantanément le moment précis où un joueur marque, un studio peut identifier chaque scène d'un acteur dans des milliers d'heures d'archives, et une rédaction peut extraire des images par ambiance, lieu ou événement pour publier plus vite que ses concurrents. Ce qui change fondamentalement, c'est que la recherche n'est plus limitée au dialogue ou aux métadonnées textuelles : une requête comme "une course-poursuite tendue avec des sirènes" retrouve à la fois l'événement visuel et l'événement sonore sans que l'un ou l'autre ait besoin d'être transcrit. La précision de recherche s'améliore donc sur les contenus riches en action, en musique ou en sons d'ambiance, là où les approches textuelles échouaient systématiquement. L'approche dominante jusqu'ici consistait à convertir toute la vidéo en texte, transcription automatique, sous-titrage, tags manuels, puis à appliquer des embeddings textuels classiques. Cette méthode souffre de deux limites structurelles : la dimension temporelle disparaît dans la conversion, et les erreurs de transcription se propagent dès que la qualité audio ou visuelle est insuffisante. Amazon positionne Nova Multimodal Embeddings comme une rupture avec ce paradigme, en traitant nativement toutes les modalités sans passer par le texte comme pivot. Le modèle s'inscrit dans une compétition directe avec les offres multimodales de Google et OpenAI sur le segment des embeddings haute précision. Amazon met à disposition une implémentation de référence déployable, signalant une volonté de s'imposer rapidement comme infrastructure de référence pour la recherche vidéo à grande échelle.

UELes entreprises et médias européens gérant de grandes bibliothèques vidéo sur AWS peuvent désormais implémenter une recherche sémantique multimodale native sans infrastructure supplémentaire.

OutilsOpinion
1 source
187AWS ML Blog 

Génération SQL à partir de texte : une approche économique avec Amazon Nova Micro et Bedrock

Amazon Web Services propose une nouvelle approche pour déployer des modèles de langage spécialisés dans la génération de requêtes SQL à partir du langage naturel, en combinant l'optimisation LoRA (Low-Rank Adaptation) avec l'inférence serverless d'Amazon Bedrock. Le modèle ciblé est Amazon Nova Micro, un modèle fondation léger disponible sur Bedrock. La solution a été testée sur un volume de 22 000 requêtes mensuelles pour un coût de seulement 0,80 dollar par mois, contre des dépenses bien supérieures avec une infrastructure hébergée en permanence. Deux chemins d'implémentation distincts sont proposés : l'un via la personnalisation gérée d'Amazon Bedrock, l'autre via des jobs d'entraînement Amazon SageMaker AI pour un contrôle plus fin des hyperparamètres. Les deux options convergent vers le même pipeline de déploiement sur Bedrock en inférence à la demande. Le jeu de données utilisé pour la démonstration est sql-create-context, une combinaison des datasets WikiSQL et Spider comprenant plus de 78 000 exemples de questions en langage naturel associées à des requêtes SQL de complexité variable. L'enjeu principal est économique : les modèles fine-tunés nécessitent traditionnellement une infrastructure dédiée tournant en continu, même en l'absence de trafic, ce qui génère des coûts fixes importants. Le modèle pay-per-token d'Amazon Bedrock élimine ce gaspillage en ne facturant que les tokens réellement traités. Pour les entreprises avec des dialectes SQL maison ou des schémas métier très spécifiques, cette combinaison rend accessible la personnalisation des LLMs sans engager de budget infrastructure significatif. Les équipes techniques gagnent également en simplicité opérationnelle : pas de gestion de serveurs, pas de scaling manuel, pas de surveillance d'infrastructure GPU. La génération SQL par IA est un cas d'usage critique en entreprise, car elle permet à des utilisateurs non-techniques d'interroger des bases de données en langage naturel. Les modèles généralistes gèrent bien le SQL standard, mais échouent sur les dialectes propriétaires ou les schémas complexes propres à chaque organisation. Le fine-tuning résout ce problème, mais introduisait jusqu'ici un compromis coûteux. AWS positionne ici Bedrock comme une infrastructure mutualisée capable d'héberger des adaptateurs LoRA à la demande, une approche qui pourrait devenir un standard pour les déploiements d'IA spécialisée à faible volume. La maturité croissante des outils de personnalisation cloud laisse entrevoir une généralisation de ce modèle économique à d'autres tâches NLP d'entreprise.

UELes entreprises européennes hébergées sur AWS peuvent adopter cette architecture serverless pour réduire leurs coûts de déploiement de modèles SQL spécialisés, Bedrock étant disponible dans les régions EU.

OutilsOutil
1 source
L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox
188AI News 

L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox

OpenAI vient d'annoncer de nouvelles fonctionnalités pour son Agents SDK, avec notamment l'introduction de l'exécution en sandbox et d'un environnement d'exécution natif au modèle. Ces ajouts visent à permettre aux équipes de gouvernance en entreprise de déployer des workflows automatisés avec un contrôle accru des risques. Concrètement, le SDK intègre désormais une mémoire configurable, une orchestration adaptée aux environnements sandbox, et des outils de gestion de fichiers similaires à ceux de Codex. Les développeurs peuvent également utiliser des primitives standardisées comme l'appel d'outils via MCP, des instructions personnalisées via un fichier AGENTS.md, et un outil d'application de correctifs pour les modifications de fichiers. Une abstraction baptisée "Manifest" permet de décrire l'espace de travail de manière normalisée, avec la possibilité de connecter directement des environnements à des fournisseurs de stockage majeurs : AWS S3, Azure Blob Storage, Google Cloud Storage et Cloudflare R2. Ces évolutions répondent à un problème concret rencontré lors du passage des prototypes en production : les équipes devaient jusqu'ici choisir entre des frameworks agnostiques offrant de la flexibilité mais ne tirant pas pleinement parti des modèles frontier, ou des SDK propriétaires proches du modèle mais manquant de visibilité sur la couche de contrôle. Le résultat était souvent la construction de connecteurs maison fragiles. Le cas d'Oscar Health illustre bien l'impact potentiel : ce prestataire de santé américain a utilisé le nouveau SDK pour automatiser un workflow de traitement de dossiers cliniques que les approches précédentes ne pouvaient pas gérer de façon fiable. Rachael Burns, Staff Engineer et AI Tech Lead chez Oscar Health, précise que la différence n'était pas seulement d'extraire les bonnes métadonnées, mais de comprendre correctement les limites de chaque consultation au sein de longs dossiers médicaux complexes, permettant ainsi d'accélérer la coordination des soins et d'améliorer l'expérience patient. Ces avancées s'inscrivent dans une tendance plus large : la course à la standardisation des infrastructures pour agents IA en entreprise. OpenAI, face à la concurrence de frameworks comme LangChain, LlamaIndex ou les offres cloud de Google et Microsoft, cherche à imposer son SDK comme la référence native pour les équipes qui utilisent ses modèles. L'introduction du Manifest et de l'exécution en sandbox signale une ambition claire : capter les déploiements en production, segment où les enjeux de sécurité, de traçabilité et de gouvernance sont déterminants. En standardisant la couche d'infrastructure, OpenAI libère les équipes techniques de la maintenance des "plomberies" et les oriente vers la logique métier à valeur ajoutée. La prochaine étape sera de voir dans quelle mesure ces outils s'intègrent avec les systèmes legacy et si l'abstraction Manifest tient ses promesses à grande échelle.

189AWS ML Blog 

Amazon Bedrock : comprendre le cycle de vie des modèles

Amazon Web Services a formalisé le cycle de vie des modèles de fondation (FM) disponibles sur sa plateforme Bedrock, en introduisant un cadre structuré en trois états distincts : Actif, Hérité (Legacy) et Fin de vie (EOL). Ce système vise à donner aux entreprises une visibilité suffisante pour planifier leurs migrations sans interruption de service. Concrètement, un modèle reste disponible au minimum 12 mois après son lancement, puis passe en état Legacy avec un préavis d'au moins 6 mois avant sa date de fin de vie. AWS a également introduit une nouvelle phase intermédiaire appelée "extended access" pour les modèles dont la fin de vie est postérieure au 1er février 2026 : après 3 mois en état Legacy, le modèle entre dans cette période d'accès étendu pendant laquelle les utilisateurs actifs peuvent continuer à l'utiliser au moins 3 mois supplémentaires. Durant cette fenêtre, les demandes d'augmentation de quota ne seront plus approuvées et les tarifs peuvent être ajustés par le fournisseur du modèle, avec notification préalable. Cet encadrement change concrètement la manière dont les équipes techniques doivent gérer leurs applications IA en production. Jusqu'ici, une fin de vie pouvait surprendre des équipes insuffisamment préparées, entraînant des pannes ou des migrations précipitées. Avec ce calendrier prévisible, les développeurs peuvent anticiper les transitions, tester les modèles de remplacement via la console Bedrock ou l'API, et adapter leur code sans urgence. L'état d'un modèle est désormais exposé directement dans les réponses API via le champ modelLifecycle, accessible lors d'appels GetFoundationModel ou ListFoundationModels. Il faut toutefois noter que les comptes inactifs en phase Legacy, c'est-à-dire n'ayant pas appelé le modèle pendant 15 jours ou plus, peuvent perdre l'accès prématurément. La migration vers un nouveau modèle reste une action manuelle : rien ne se fait automatiquement lorsqu'un modèle atteint sa date EOL. Cette politique s'inscrit dans un contexte où Amazon Bedrock multiplie les modèles disponibles, provenant de fournisseurs comme Anthropic, Meta, Mistral ou Cohere, chacun avec ses propres cycles de mise à jour. À mesure que ces modèles évoluent rapidement, l'accumulation de versions obsolètes pose des problèmes de maintenance et de sécurité pour AWS comme pour ses clients. En clarifiant les règles du jeu, AWS cherche à professionnaliser la gestion du cycle de vie des IA en entreprise, sur le modèle de ce que font déjà les plateformes cloud pour leurs APIs et services logiciels. La prochaine étape pour les équipes utilisant Bedrock sera d'intégrer ces états dans leurs processus de surveillance et d'alerte, afin de ne jamais être pris de court lors d'une transition de modèle.

UELes entreprises européennes utilisant Amazon Bedrock doivent intégrer ce nouveau cadre de cycle de vie dans leurs processus de gestion des applications IA en production pour éviter des interruptions de service.

OutilsOpinion
1 source
190AWS ML Blog 

Amazon Bedrock AgentCore permet d'intégrer un agent IA de navigation en direct dans une application React

Amazon a lancé le composant BrowserLiveView dans son SDK TypeScript Bedrock AgentCore, permettant aux développeurs d'intégrer un flux vidéo en temps réel d'une session de navigation autonome directement dans leurs applications React. Concrètement, trois lignes de JSX suffisent pour embarquer ce flux live : le composant reçoit une URL présignée SigV4 générée côté serveur, établit une connexion WebSocket persistante, et diffuse la session du navigateur distant via le protocole Amazon DCV. L'architecture repose sur trois couches : le navigateur React de l'utilisateur qui affiche le flux, un serveur applicatif qui orchestre les sessions via l'API Bedrock AgentCore, et l'infrastructure AWS Cloud qui héberge les sessions navigateur isolées. Les sessions peuvent également être enregistrées sur Amazon S3 pour un visionnage différé depuis la console AWS. Cette visibilité en temps réel répond à un problème concret de confiance dans les agents IA autonomes. Lorsqu'un agent navigue sur le web, remplit des formulaires ou traite des données sensibles au nom d'un utilisateur, celui-ci n'a jusqu'ici aucune fenêtre sur ces actions. Avec BrowserLiveView, l'utilisateur suit chaque navigation, chaque soumission de formulaire et chaque interaction au moment où elle se produit, ce qui est nettement plus rassurant que recevoir une simple confirmation textuelle après coup. Pour les workflows supervisés, notamment dans les secteurs régulés comme la finance ou la santé, un superviseur peut observer l'agent en direct et intervenir sans quitter l'application. L'outil répond aussi aux exigences d'audit : la preuve visuelle des actions de l'agent constitue une traçabilité exploitable pour la conformité réglementaire et le débogage. Amazon Bedrock AgentCore s'inscrit dans la stratégie plus large d'AWS pour industrialiser les agents IA fiables en entreprise. La question de la transparence des agents autonomes est devenue centrale alors que les grandes organisations cherchent à déléguer des tâches complexes à des systèmes IA tout en conservant un contrôle humain. Plusieurs acteurs, dont Google avec ses agents Gemini et Microsoft avec Copilot Studio, développent des approches similaires de supervision d'agents web. AWS positionne ici son offre sur la simplicité d'intégration et la sécurité native, avec une authentification déléguée sans infrastructure streaming à maintenir côté développeur. La prochaine étape logique sera l'extension de cette visibilité à d'autres types d'agents au-delà de la navigation web, et probablement des mécanismes d'intervention manuelle directement depuis le flux live pour renforcer encore le contrôle humain dans la boucle.

UELes entreprises françaises et européennes utilisant AWS Bedrock pour des agents autonomes dans des secteurs régulés (finance, santé) disposent d'un mécanisme de traçabilité visuelle directement exploitable pour répondre aux exigences d'audit et de conformité imposées par le droit européen.

OutilsOutil
1 source
Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés
191Siècle Digital 

Une IA soutenue par Apple et Google révèle des milliers de failles dans des logiciels très utilisés

Project Glasswing, une initiative de cybersécurité soutenue par douze géants technologiques dont Apple, Google, Microsoft, AWS, Cisco, NVIDIA et JPMorgan Chase, a été lancée pour détecter automatiquement des failles dans les logiciels les plus critiques au monde. Le projet s'appuie sur un système d'intelligence artificielle baptisé Mythos, capable d'analyser en profondeur des bases de code massives pour y repérer des vulnérabilités jusqu'alors inconnues. Plus de quarante organisations gérant des infrastructures logicielles mondiales participent également à l'initiative, coordonnée sous l'égide de la Linux Foundation. Aucun accès public, abonnement commercial ou lancement grand public n'est prévu : le projet fonctionne exclusivement en consortium fermé. L'enjeu est considérable. Les logiciels open source constituent la colonne vertébrale de l'infrastructure numérique mondiale, des serveurs bancaires aux systèmes industriels en passant par les plateformes cloud. Des failles non détectées dans ces composants peuvent exposer des millions d'organisations simultanément, comme l'avait illustré la vulnérabilité Log4Shell en 2021. En automatisant la détection à grande échelle, Mythos promet de réduire drastiquement la fenêtre d'exposition entre l'introduction d'une faille et sa correction, un délai qui se compte aujourd'hui souvent en mois, voire en années. Ce projet s'inscrit dans une tendance de fond : après des années à construire des IA génératives grand public, les grandes entreprises technologiques réorientent une partie de leurs investissements vers des usages à fort impact systémique. La sécurité logicielle, longtemps sous-financée malgré sa criticité, attire désormais des coalitions inédites. Project Glasswing illustre aussi une réponse collective aux pressions réglementaires croissantes en Europe et aux États-Unis, qui imposent aux éditeurs une responsabilité accrue sur la sécurité de leurs chaînes d'approvisionnement logicielles.

UELes pressions réglementaires européennes sur la sécurité des chaînes d'approvisionnement logicielles (Cyber Resilience Act) sont citées comme moteur explicite du projet, qui vise à réduire les risques systémiques pesant sur les infrastructures numériques utilisées en Europe.

SécuritéOpinion
1 source
Amazon S3 Files offre aux agents IA un espace de travail fichier natif, mettant fin à la séparation objet/fichier
192VentureBeat AI 

Amazon S3 Files offre aux agents IA un espace de travail fichier natif, mettant fin à la séparation objet/fichier

Amazon Web Services a lancé S3 Files, une nouvelle fonctionnalité qui permet de monter directement un bucket S3 dans l'environnement local d'un agent IA ou d'un développeur, comme s'il s'agissait d'un répertoire ordinaire. Disponible dès maintenant dans la plupart des régions AWS, cette solution repose sur la technologie Elastic File System (EFS) d'Amazon, connectée directement à S3 pour offrir une sémantique de fichiers complète et native. Aucune migration de données n'est nécessaire : les fichiers restent dans S3, accessibles simultanément via l'API objet classique et via le système de fichiers monté. Andy Warfield, vice-président et ingénieur distingué chez AWS, a expliqué à VentureBeat que cette approche a produit "une accélération considérable" pour des outils comme Kiro et Claude Code lors de tests internes. Le problème que S3 Files résout est fondamental pour les pipelines d'IA agentique. Les agents IA fonctionnent naturellement avec des chemins de fichiers et des outils de navigation de répertoires, mais l'essentiel des données d'entreprise réside dans des systèmes de stockage objet comme S3, accessibles uniquement via des appels API. Jusqu'ici, les équipes devaient télécharger les données localement avant que l'agent puisse les traiter, ce qui créait un problème critique de persistance d'état : lorsque l'agent compressait sa fenêtre de contexte, il "oubliait" ce qu'il avait déjà téléchargé, forçant l'utilisateur à répéter les instructions. Dans des pipelines multi-agents, où plusieurs agents doivent accéder simultanément aux mêmes données, la situation devenait ingérable. Avec S3 Files, un développeur peut simplement indiquer le chemin d'un répertoire de logs, et l'agent y accède directement sans étape intermédiaire. AWS annonce que des milliers de ressources de calcul peuvent se connecter simultanément à un même système de fichiers S3. Les tentatives précédentes de combler le fossé entre stockage objet et système de fichiers reposaient sur des couches logicielles dites FUSE (Filesystems in USErspace), comme Mount Point d'AWS, gcsfuse de Google ou blobfuse2 de Microsoft. Ces outils simulaient un système de fichiers en surface, mais butaient sur des limitations profondes : S3 ne supporte pas le déplacement atomique d'objets et ne possède pas de répertoires au sens strict. Ces pilotes bricolaient des métadonnées supplémentaires dans les buckets, cassant la vue API objet, ou refusaient les opérations fichier que le stockage ne pouvait pas exécuter. S3 Files rompt avec cette approche en intégrant directement EFS à S3, sans compromis entre les deux interfaces. Cette évolution s'inscrit dans la course des grands fournisseurs cloud à rendre leurs infrastructures compatibles avec les nouveaux usages de l'IA agentique, où la fluidité d'accès aux données devient un avantage concurrentiel direct.

UEDisponible dès maintenant dans la plupart des régions AWS, cette fonctionnalité est accessible aux développeurs et entreprises européens utilisant S3 pour leurs pipelines d'IA agentique.

InfrastructureActu
1 source
Des agents en essaim : présentation d'une approche ludique et rentable
193InfoQ AI 

Des agents en essaim : présentation d'une approche ludique et rentable

Adrian Cockcroft, ancien architecte en chef d'Amazon Web Services et figure reconnue de l'ingénierie cloud, a présenté une conférence intitulée « Diriger un essaim d'agents pour le plaisir et le profit », dans laquelle il expose sa vision de ce qu'il appelle le développement « AI-native ». S'appuyant sur des expériences concrètes menées avec des outils comme Cursor et Claude Flow, il décrit une approche de niveau « directeur » : plutôt que d'écrire du code ligne par ligne, l'ingénieur orchestre des essaims d'agents autonomes qui exécutent les tâches en parallèle. Ses expérimentations couvrent notamment le BDD (développement piloté par le comportement), les serveurs MCP et le portage de code entre langages de programmation. Cette transition du cloud-native vers l'AI-native représente un changement de paradigme majeur pour l'industrie du logiciel. Elle implique que la valeur ajoutée de l'ingénieur se déplace de l'écriture du code vers la conception de plateformes capables de coordonner des agents IA. Pour les équipes de développement, cela signifie repenser les workflows, les outils de revue et la façon dont on mesure la productivité. Cockcroft est l'une des voix les plus influentes à théoriser ce basculement, après avoir contribué à populariser les microservices et l'architecture cloud à grande échelle chez Netflix puis AWS. L'émergence d'outils comme Claude Flow ou les serveurs MCP d'Anthropic crée l'infrastructure nécessaire à cette orchestration multi-agents. La question qui s'ouvre désormais est de savoir quelles compétences humaines resteront irremplaçables dans un pipeline où les agents gèrent l'essentiel de l'exécution technique.

OutilsOutil
1 source
La gouvernance peut-elle suivre vos ambitions en IA ? Gestion du risque à l'ère des agents autonomes
194AWS ML Blog 

La gouvernance peut-elle suivre vos ambitions en IA ? Gestion du risque à l'ère des agents autonomes

L'ère de l'IA agentique bouleverse les fondements de la gouvernance informatique traditionnelle. Là où les systèmes DevOps classiques produisaient des résultats déterministes — même entrée, même sortie, dépendances connues — les agents IA opèrent de façon non déterministe : posez la même question deux fois, vous obtenez deux réponses différentes. Ces agents sélectionnent eux-mêmes leurs outils, adaptent leurs raisonnements et agissent de manière autonome. Face à ce constat, AWS Generative AI Innovation Center a développé une solution appelée AI Risk Intelligence (AIRI), un système de gouvernance automatisée qui centralise les évaluations de sécurité, d'opérations et de conformité en un seul tableau de bord couvrant l'ensemble du cycle de vie agentique. La solution s'appuie sur le cadre AWS Responsible AI Best Practices, construit à partir de l'expérience acquise sur des centaines de milliers de déploiements IA. L'enjeu est concret : les cadres de gouvernance IT conçus pour des déploiements statiques sont incapables de gérer les interactions complexes des systèmes multi-agents. Un scénario illustratif le démontre clairement — et figure dans le Top 10 OWASP des vulnérabilités agentiques pour 2026. Un assistant IA d'entreprise, légitimement autorisé à accéder aux e-mails, au calendrier et au CRM, reçoit via un e-mail des instructions malveillantes dissimulées. Lorsqu'un utilisateur demande un résumé anodin, l'agent compromis suit ces directives cachées : il fouille des données sensibles et les exfiltre via des invitations calendrier, tout en affichant une réponse bénigne. Les outils classiques de prévention des fuites de données et de surveillance réseau ne détectent rien — car l'agent agit dans le strict périmètre de ses permissions légitimes. La violation est invisible aux yeux des systèmes traditionnels. Ce cas révèle la nature systémique du risque agentique : une faille de sécurité se propage simultanément à travers plusieurs dimensions. L'action d'un agent en déclenche d'autres, les contrôles d'accès ne sont pas réévalués en continu pendant l'exécution, aucun point de contrôle humain ne s'interpose avant une action à haut risque, et les responsables de la conformité ne peuvent pas interpréter les données de monitoring pour détecter l'anomalie à temps. C'est pourquoi AIRI entend fusionner sécurité, opérations et gouvernance en un dispositif intégré plutôt qu'en silos séparés. Dans un contexte où les entreprises accélèrent leurs déploiements d'agents autonomes — pour automatiser des workflows, piloter des décisions, interagir avec des systèmes critiques — la question n'est plus seulement de savoir si l'IA fonctionne, mais si l'organisation peut réellement maîtriser ce qu'elle fait.

UELes entreprises européennes déployant des agents IA autonomes doivent adapter leurs cadres de gouvernance pour satisfaire aux exigences de l'AI Act, notamment en matière de supervision humaine, de traçabilité et de contrôle continu des systèmes à haut risque.

SécuritéActu
1 source
Le groupe Volkswagen réinvente son marketing avec l'IA générative
195AWS ML Blog 

Le groupe Volkswagen réinvente son marketing avec l'IA générative

Le groupe Volkswagen a déployé en 2025 un pipeline de génération d'images marketing basé sur l'intelligence artificielle générative, développé en collaboration avec l'AWS Generative AI Innovation Center. Le système produit des visuels photoréalistes de véhicules à partir de modèles hébergés sur Amazon SageMaker AI, tandis que l'évaluation de conformité est assurée par Amazon Bedrock. Ce projet concerne l'ensemble du portefeuille du groupe — dix marques réparties dans cinq pays européens : Volkswagen, Škoda, SEAT, Cupra, Audi, Lamborghini, Bentley, Porsche, Ducati et Volkswagen Véhicules Utilitaires —, qui a livré 6,6 millions de véhicules sur les neuf premiers mois de 2025. Le pipeline couvre l'intégralité du processus : génération, validation technique au niveau des composants, et vérification du respect des chartes graphiques propres à chaque marque. L'enjeu économique est considérable. Un seul lancement de modèle peut nécessiter des centaines de variantes — angles, environnements, conditions d'éclairage, adaptations régionales —, chacune exigeant traditionnellement des semaines de production et des prises de vue sur site à six chiffres de coût. Le vrai goulot d'étranglement n'était pas la production elle-même, mais la validation : s'assurer que chaque visuel respecte le langage visuel spécifique de sa marque avant toute diffusion commerciale. L'élégance discrète de Bentley n'admet pas les mêmes codes de mise en scène que l'esthétique performance de Porsche ou la modernité accessible de Škoda. En remplaçant des semaines de travail par quelques minutes de génération, le groupe vise une réduction drastique des coûts et une capacité inédite à personnaliser le contenu à grande échelle. Les premières expérimentations avec des modèles de diffusion génériques ont immédiatement révélé deux limites structurelles : ces modèles produisaient bien des images automobiles convaincantes, mais ignoraient les détails propres au design Volkswagen — texture exacte d'une calandre, géométrie précise des blocs optiques, motifs des jantes selon les lignes de modèles. Ils étaient également incapables de représenter des véhicules non encore commercialisés, ce qui bloquait toute utilisation en amont des lancements. Le groupe a donc dû affiner ses modèles sur sa propre bibliothèque visuelle et construire un système d'évaluation automatisé capable de détecter les écarts par rapport aux chartes de chacune des dix marques. Ce chantier s'inscrit dans une tendance plus large : les grands constructeurs automobiles cherchent à industrialiser la production de contenu marketing au même titre qu'ils industrialisent la fabrication — avec, à la clé, une pression accrue sur les agences de production traditionnelles et les studios photo spécialisés dans le secteur automobile.

UELe groupe Volkswagen, premier constructeur européen, déploie ce pipeline dans cinq pays de l'UE, menaçant directement les agences photo et studios de production spécialisés dans l'automobile en Europe.

OutilsOutil
1 source
Microsoft lance un agent Azure Copilot pour accélérer la planification des migrations cloud
196InfoQ AI 

Microsoft lance un agent Azure Copilot pour accélérer la planification des migrations cloud

Microsoft a lancé l'Azure Copilot Migration Agent, un assistant IA intégré directement au portail Azure, destiné à accélérer la planification des migrations vers le cloud. L'outil automatise trois tâches clés : la découverte sans agent des environnements VMware, la planification de migration et la création de zones d'atterrissage (landing zones). Présenté comme disponible en général (GA), le service est en réalité toujours en préversion publique — une nuance importante que Microsoft n'a pas mise en avant. La promesse est de réduire significativement le temps consacré à la phase d'évaluation et de préparation, souvent la plus fastidieuse des projets de migration cloud. Pour les équipes IT gérant des parcs VMware importants, la découverte automatique des machines virtuelles sans installation d'agent représente un gain opérationnel réel. Cependant, l'outil ne peut pas exécuter les migrations lui-même : la réplication des données et le basculement (cutover) restent des opérations manuelles dans Azure Migrate, ce qui limite son périmètre à la planification seule. Ce lancement s'inscrit dans un contexte favorable à Microsoft : depuis le rachat de VMware par Broadcom en 2023 et la hausse brutale des licences qui a suivi, de nombreuses entreprises cherchent à migrer leurs workloads vers des alternatives cloud. Azure est l'un des principaux bénéficiaires de cet exode, aux côtés d'AWS et Google Cloud. En automatisant la phase de planification, Microsoft cherche à abaisser la barrière d'entrée et à accélérer les décisions de migration — tout en restant prudent sur ce qu'il promet réellement livrer à ce stade.

UELes entreprises françaises et européennes contraintes de quitter VMware suite aux hausses de licences Broadcom peuvent utiliser cet outil pour accélérer leur planification de migration vers Azure.

OutilsActu
1 source
Google négocierait le financement d'un data center de plusieurs milliards pour Anthropic
197The Information AI 

Google négocierait le financement d'un data center de plusieurs milliards pour Anthropic

Google serait en négociation pour financer partiellement la construction d'un datacenter de plusieurs milliards de dollars au Texas, destiné à être loué par Anthropic, selon des informations du Financial Times. Le montage financier envisagé passerait par des prêts à la construction accordés à Nexus Data Centers, l'opérateur du site qui détient le bail avec Anthropic. Le montant exact n'a pas été divulgué, mais l'expression « multibillion-dollar » laisse entrevoir une infrastructure d'envergure. Ce projet illustre la dépendance croissante des laboratoires d'IA aux investissements massifs en infrastructure de calcul. Pour Anthropic, accéder à une capacité de calcul dédiée et à grande échelle est indispensable pour entraîner et déployer ses modèles Claude à un niveau compétitif face à OpenAI et Google DeepMind. Pour Google, financer l'infrastructure de son partenaire stratégique — dans lequel il a déjà investi plus de 2 milliards de dollars — renforce un écosystème dans lequel ses propres intérêts sont engagés. Ce mouvement s'inscrit dans une course mondiale aux datacenters alimentée par l'explosion de la demande en IA générative. Microsoft construit des infrastructures pour OpenAI, Amazon pour ses propres services et Anthropic via AWS. Le fait que Google joue désormais aussi le rôle de bailleur de fonds pour Anthropic, en plus de partenaire cloud, témoigne de l'intrication croissante entre financement, infrastructure et développement des modèles dans l'industrie de l'IA.

InfrastructureOpinion
1 source
Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel
198AWS ML Blog 

Amazon Polly introduit le streaming bidirectionnel pour la synthèse vocale en temps réel

Amazon vient d'annoncer une nouvelle API de streaming bidirectionnel pour son service de synthèse vocale Amazon Polly, baptisée StartSpeechSynthesisStream. Contrairement aux approches traditionnelles, cette API permet d'envoyer du texte et de recevoir de l'audio simultanément, en flux continu sur une connexion HTTP/2 unique. Les tests de performance réalisés par Amazon portaient sur 7 045 caractères (970 mots) avec la voix Matthew et le moteur Generative en MP3 24 kHz, en simulant une génération de tokens à environ 30 ms par mot — soit les conditions réelles d'un grand modèle de langage en production. L'API accepte des fragments de texte au fil de l'eau via des TextEvent, retourne des chunks audio via des AudioEvent, et confirme la fin du flux avec un StreamClosedEvent. Pour les applications d'IA conversationnelle, cette avancée supprime un goulot d'étranglement fondamental. Jusqu'ici, il fallait attendre que le LLM ait terminé de générer l'intégralité de sa réponse, puis envoyer ce texte complet au service TTS, puis attendre l'audio avant de lancer la lecture — trois étapes séquentielles qui s'ajoutaient les unes aux autres. Avec le streaming bidirectionnel, la synthèse vocale démarre dès les premiers tokens générés, ce qui réduit drastiquement la latence perçue par l'utilisateur final. Pour les assistants virtuels, les agents téléphoniques automatisés ou les interfaces vocales en temps réel, cela se traduit par des conversations nettement plus naturelles, sans les silences artificiels qui trahissent une architecture en pipeline. Le lancement s'inscrit dans une course plus large à la latence dans l'écosystème de l'IA générative vocale, où des acteurs comme ElevenLabs, OpenAI (avec son API audio temps réel) et Google se disputent le marché des applications conversationnelles. AWS avait déjà un avantage avec Polly grâce au streaming audio sortant, mais l'entrée simultanée était jusqu'ici absente. La nouvelle API élimine également la complexité côté serveur : les développeurs n'ont plus besoin d'implémenter leur propre logique de découpage de texte en phrases, ni de gérer plusieurs appels API parallèles et le réassemblage audio qui en découlait. Une seule connexion persistante remplace cette infrastructure maison. Les prochaines étapes logiques concerneront probablement l'extension à davantage de voix et de langues avec le moteur Generative, ainsi que l'intégration native dans les frameworks d'agents AWS comme Bedrock.

OutilsOutil
1 source
Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage
199Apple Machine Learning 

Les propriétés de mise à l'échelle des métriques aval dans l'entraînement des grands modèles de langage

Une équipe de chercheurs vient de publier un article remettant en question une idée bien établie dans le domaine des grands modèles de langage (LLM) : la difficulté à prédire les performances réelles des modèles à partir de leur budget d'entraînement. Jusqu'ici, les lois d'échelle (scaling laws) se concentraient principalement sur des métriques intermédiaires comme la perte lors du pré-entraînement (pretraining loss), considérées comme des proxies fiables mais éloignées des usages concrets. Les chercheurs proposent un cadre direct pour modéliser comment les performances sur des benchmarks évoluent en fonction du budget de calcul alloué à l'entraînement. Le résultat central est qu'en maintenant un ratio fixe entre le nombre de tokens et le nombre de paramètres, une simple loi de puissance (power law) suffit à décrire avec précision l'évolution de la précision logarithmique sur plusieurs tâches de référence populaires. Plus significatif encore, cette approche directe extrapole mieux que la procédure en deux étapes proposée précédemment dans la littérature, ce qui ouvre la voie à des prédictions de performances plus fiables avant même d'entraîner un modèle de grande taille. Ce travail s'inscrit dans un effort plus large de l'industrie pour optimiser les coûts d'entraînement, qui atteignent des dizaines à centaines de millions de dollars pour les modèles frontier. Pouvoir anticiper directement les performances sur des tâches concrètes — plutôt que sur des métriques abstraites — permettrait aux laboratoires comme OpenAI, Google DeepMind ou Anthropic de mieux planifier leurs investissements en calcul et d'identifier plus tôt les architectures prometteuses.

RecherchePaper
1 source
Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1
200AWS ML Blog 

Déployer des agents vocaux avec Pipecat et Amazon Bedrock AgentCore Runtime – Partie 1

Amazon Web Services et Pipecat ont publié un guide détaillé sur le déploiement d'agents vocaux intelligents en production, s'appuyant sur la nouvelle infrastructure Amazon Bedrock AgentCore Runtime. La solution combine Pipecat, un framework open source spécialisé dans les pipelines audio temps réel, avec l'environnement serverless d'AWS pour permettre des conversations vocales naturelles sur le web, le mobile et la téléphonie. L'architecture prend en charge trois protocoles de transport réseau : WebSockets, WebRTC et l'intégration téléphonique classique. Chaque session de conversation tourne dans des microVMs isolées, avec une capacité de session continue allant jusqu'à 8 heures, et une mise à l'échelle automatique face aux pics de trafic. Le runtime impose l'usage de conteneurs ARM64 (Graviton), ce qui nécessite que les images Docker soient compilées spécifiquement pour l'architecture linux/arm64. Ce que change cette combinaison est significatif pour les équipes qui déploient des agents en production : elle élimine plusieurs problèmes récurrents liés aux architectures vocales temps réel, notamment la gigue audio, les contraintes de montée en charge, et les coûts liés au sur-provisionnement. La facturation à l'usage actif — et non à la capacité réservée — réduit directement les coûts d'infrastructure inactive. Sur le plan technique, la latence reste le défi central : une conversation naturelle exige une réponse inférieure à une seconde de bout en bout. Pour y parvenir, le système mise sur le streaming bidirectionnel à deux niveaux — entre le client et l'agent d'une part, et entre l'agent et les modèles de langage d'autre part. Le choix du modèle est déterminant : AWS recommande Amazon Nova Sonic pour les pipelines speech-to-speech, ou Nova Lite dans une approche en cascade (STT → LLM → TTS), tous deux optimisés pour minimiser le Time-to-First-Token. La plateforme intègre également de l'observabilité native pour tracer le raisonnement de l'agent et ses appels d'outils. Ce premier volet d'une série de publications s'adresse aux développeurs déjà familiers des architectures vocales en cascade et speech-to-speech. Il fait suite à un article précédent d'AWS comparant Amazon Nova Sonic aux approches en cascade, et pose les bases techniques pour les déploiements Pipecat sur AgentCore Runtime.

OutilsTuto
1 source