Aller au contenu principal

Dossier Agents IA — page 13

1550 articles · page 13 sur 31

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

HPE AI Factory avec NVIDIA s'étend à l'ère des agents autonomes
601NVIDIA AI Blog InfrastructureActu

HPE AI Factory avec NVIDIA s'étend à l'ère des agents autonomes

HPE et NVIDIA ont annoncé lors de la conférence HPE Discover à Las Vegas, qui se tient jusqu'au 18 juin 2026, une expansion majeure de leur plateforme conjointe HPE AI Factory with NVIDIA. Les deux groupes y introduisent plusieurs nouveautés : le processeur NVIDIA Vera CPU intégré au serveur HPE ProLiant Compute DL394 Gen12, disponible en 2027, ainsi que le NVIDIA Agent Toolkit désormais inclus dans HPE Private Cloud AI. La plateforme s'enrichit également du calcul confidentiel NVIDIA (Confidential Computing) sur l'ensemble de la gamme, et d'un nouveau système HPE Compute XD700 fondé sur l'architecture NVIDIA HGX Rubin NVL8, capable d'accueillir jusqu'à 128 GPU Rubin par rack. La Bourse de New York (NYSE), en partenariat avec Redpanda et HPE, fait partie des premiers clients entreprises à explorer le Vera CPU sur ce serveur. Ces annonces marquent un tournant dans l'industrialisation de l'IA agentique : les entreprises ne testent plus des preuves de concept, elles déploient des systèmes autonomes en production. Le Vera CPU est conçu spécifiquement pour les boucles agentiques, c'est-à-dire les appels d'outils, l'orchestration de tâches et le traitement de données en temps réel que requièrent les agents IA modernes. Le NVIDIA Agent Toolkit apporte un système d'exploitation agentique complet incluant les modèles ouverts Nemotron, un environnement d'exécution sécurisé (OpenShell) et des blueprints NemoClaw. HPE y ajoute un registre local d'agents permettant aux entreprises de valider modèles, compétences et outils avant leur déploiement, tandis que le logiciel HPE Zerto détecte les comportements aberrants et peut revenir à un état sain grâce à une protection continue des données. La sécurité des charges de travail IA constitue l'autre axe structurant de cette expansion. Le calcul confidentiel NVIDIA, désormais disponible sur toute la gamme HPE AI Factory via HPE Services, protège les modèles et les données sensibles pendant leur exécution, notamment pour les déploiements souverains ou sur site où la confidentialité est une contrainte réglementaire. Les cartes réseau NVIDIA BlueField et la pile logicielle NVIDIA DOCA assurent une politique de zéro confiance appliquée directement dans le silicium, avec chiffrement réseau et détection des menaces sans pénalité de performance. Cette orientation répond à une pression croissante des secteurs réglementés, finance, santé, défense, qui cherchent à exploiter des agents autonomes sans exposer leurs données propriétaires. La plateforme Vera Rubin, qui sous-tend ces systèmes, est elle-même calibrée pour des modèles de plus d'un trillion de paramètres, positionnant HPE et NVIDIA au cœur de la prochaine vague d'infrastructure IA à l'échelle frontier.

UELe calcul confidentiel NVIDIA et les options de déploiement souverain on-premise répondent directement aux contraintes réglementaires européennes (RGPD, AI Act) pesant sur les secteurs finance, santé et défense.

1 source
Les plateformes CMS dopées à l'IA transforment la gestion de contenu en entreprise
602AI News 

Les plateformes CMS dopées à l'IA transforment la gestion de contenu en entreprise

Les grandes entreprises et les éditeurs de plateformes de gestion de contenu (CMS) opèrent une mutation structurelle : les outils qui servaient historiquement à publier du contenu deviennent des plateformes d'orchestration intelligente. Selon une enquête Deloitte publiée en 2025 auprès de plus de 1 800 cadres dirigeants, les investissements en intelligence artificielle dépassent désormais le stade des projets pilotes isolés pour s'intégrer à grande échelle dans les flux de création de contenu, le service client et les opérations informatiques. Près de la moitié des organisations interrogées utilisent déjà l'IA pour automatiser des processus internes. Concrètement, un CMS intelligent ne se contente plus de stocker et de publier : il suggère des améliorations de texte, détecte les incohérences de localisation, prédit quelles variantes de contenu sont susceptibles de mieux performer et achemine automatiquement les approbations aux bons interlocuteurs. Dans une marque multinationale gérant des campagnes sur 20 marchés, 12 langues et quatre lignes de produits, cela représente des centaines de variantes à maintenir cohérentes et actualisées simultanément. L'enjeu dépasse la simple productivité interne. Les outils de recherche alimentés par l'IA et les agents d'achat automatisés s'appuient désormais directement sur les contenus des marques pour décider ce qu'ils affichent, citent ou recommandent à un acheteur potentiel. Une infrastructure de contenu fragmentée, avec des données incohérentes ou périmées, ne ralentit plus seulement les équipes éditoriales : elle rend la marque invisible ou peu fiable au moment précis où une décision d'achat se prend. Chaque outil en aval, moteur de personnalisation, assistant conversationnel ou moteur de recherche IA, reproduit et amplifie les erreurs du contenu source. Ce n'est plus un problème de qualité éditoriale, c'est un problème de distribution commerciale. Pendant des années, la réponse des entreprises à cette complexité croissante a été d'empiler des processus manuels, des systèmes cloisonnés et des équipes de coordination de plus en plus larges. Ce modèle atteignait ses limites face à l'accélération des attentes clients, qui réclament des expériences personnalisées et instantanées à chaque point de contact. La nouvelle génération de CMS entend changer la nature même de l'outil : non plus un simple outil de publication au centre d'un écosystème fragmenté, mais une fondation de contenu gouvernée à partir de laquelle tous les canaux, systèmes et agents IA tirent des informations fiables. Le défi identifié par les éditeurs n'est pas l'intention d'adopter l'IA, largement présente dans les organisations, mais la capacité à intégrer ces fonctionnalités au coeur des systèmes où le contenu est réellement créé, validé et diffusé, et non dans des outils annexes déconnectés du flux de travail principal.

UELes entreprises françaises et européennes gérant des contenus multilingues sont directement concernées par cette mutation des CMS, qui conditionne leur visibilité dans les moteurs de recherche IA et les agents d'achat automatisés.

OutilsOutil
1 source
HarmonyOS 7 s'engouffre dans le vide laissé par Apple en Chine sur l'IA
603AI News 

HarmonyOS 7 s'engouffre dans le vide laissé par Apple en Chine sur l'IA

Quatre jours après qu'Apple a officiellement confirmé que ses fonctionnalités Siri IA ne seraient pas disponibles en Chine, Huawei a présenté HarmonyOS 7 le 11 juin 2026 lors de sa conférence HDC 2026 à Dongguan. Le cœur du système repose sur le HarmonyOS Intelligent Agent Framework 2.0, qui restructure l'OS autour d'un modèle dit "intent-as-service" : l'utilisateur émet une commande en langage naturel, et le système exécute ce qui nécessitait auparavant plusieurs étapes dans plusieurs applications. L'assistant Xiaoyi, entièrement refondu, contrôle désormais plus de 2 100 fonctionnalités système et coordonne plus de 2 000 agents IA tiers, dont Ctrip pour la planification de voyages et Ant Medical pour l'analyse de données de santé. Sous le capot tourne openPangu 2.0, le modèle fondation de Huawei, disponible en version Pro à 505 milliards de paramètres et en version Flash à 92 milliards, les deux supportant des fenêtres de contexte de 512 000 tokens. Des modèles embarqués à 30 milliards de paramètres sont prévus sur puces Kirin d'ici l'automne 2026, accompagnés de la version stable du système pour le grand public. Selon les propres benchmarks de Huawei, HarmonyOS 7 offre plus de 15 % de performances supplémentaires par rapport à HarmonyOS 6.1. L'impact dépasse le seul lancement produit : HarmonyOS détient désormais 19 % du marché des OS smartphones en Chine au premier trimestre 2026, contre 16 % pour iOS d'Apple et 65 % pour Android, selon les données de Counterpoint Research. HarmonyOS avait dépassé iOS pour la première fois en Chine au deuxième trimestre 2025. Ce rééquilibrage survient au moment précis où Apple est incapable de déployer sa fonctionnalité IA phare sur ce marché, faute d'accord avec les régulateurs chinois sur le traitement des données. Huawei comble donc une attente concrète chez les utilisateurs et dans l'écosystème des développeurs chinois, avec une plateforme comptant plus de 400 000 applications et services intégrés au quotidien des consommateurs locaux. HarmonyOS existe par nécessité géopolitique : lorsque les sanctions américaines de 2019 ont coupé Huawei de l'Android de Google, l'entreprise a développé son propre OS. En janvier 2026, plus de 90 % des appareils Huawei tournaient sur la version entièrement maison du système. Ce qui était une contrainte forcée est devenu un avantage structurel au moment où Apple bute sur les exigences réglementaires chinoises en matière d'intelligence artificielle. La dynamique illustre une divergence plus large entre les écosystèmes technologiques occidentaux et chinois : les mêmes sanctions qui avaient fragilisé Huawei ont finalement accéléré la construction d'une alternative crédible, calibrée pour un marché de plus d'un milliard d'utilisateurs qu'Apple ne peut plus servir pleinement.

OutilsOpinion
1 source
Ce fou furieux tente de recréer GTA 6 de A à Z… uniquement avec une IA
604Le Big Data 

Ce fou furieux tente de recréer GTA 6 de A à Z… uniquement avec une IA

Ziwen Xu, fondateur de la startup Hypercho, a lancé le 10 juin 2026 un défi aussi spectaculaire qu'improbable : recréer GTA 6 from scratch, avant même que Rockstar ne sorte l'original, prévu pour novembre prochain. Pour y parvenir, il utilise un abonnement Claude Max (formule 20x) d'Anthropic combiné au moteur 3D open source Godot, l'ensemble du développement étant documenté publiquement sur GitHub. Des agents IA tournent en continu, 24h sur 24, générant le code, les assets et l'architecture du jeu. Dès le deuxième jour, environ un tiers du quota mensuel de son abonnement avait déjà été consommé. Xu lui-même qualifie son projet d'« ambitieux, voire probablement stupide », mais assume le défi : créer un jeu capable, selon ses propres mots, de « dépasser les ambitions et la qualité » visibles dans les bandes-annonces de Rockstar. Le projet illustre concrètement jusqu'où l'IA générative peut pousser un développeur solo en 2026, mais aussi ses limites immédiates. Les modèles hallucinent : ils ont généré des gratte-ciels typiques de Los Angeles pour un jeu censé se dérouler en Floride. Anthropic a par ailleurs retiré l'accès à son modèle Fable 5 en cours de route, forçant Xu à s'adapter. Ces frictions mises à part, l'expérience démontre qu'un développeur individuel peut désormais s'attaquer à des projets d'une complexité autrefois réservée aux grands studios, en s'appuyant sur des agents capables d'accélérer massivement la production. Pour l'industrie du jeu vidéo, c'est un signal : la barrière entre "indé" et "AAA" commence à se déplacer, même si l'écart reste immense. L'initiative s'inscrit dans un débat plus large sur le rôle créatif de l'IA dans les jeux vidéo. Strauss Zelnick, PDG de Take-Two Interactive, maison mère de Rockstar, a récemment affirmé que l'IA regarde essentiellement vers le passé, en s'appuyant sur des œuvres existantes, là où la créativité humaine invente ce qui n'existe pas encore. Selon lui, un clone IA de GTA ne serait jamais GTA, faute de la vision originale qui a fait le succès de la franchise. Sur le fond, la critique est solide. Sur le plan marketing, le projet de Xu est en revanche particulièrement habile : Hypercho commercialise justement des "employés IA" pour accélérer la productivité des équipes de développement, et un tel défi viral attire exactement les projecteurs dont une jeune startup a besoin pour se faire connaître.

CréationOutil
1 source
Moonshot AI lance Kimi Work, un agent de bureau qui exploiterait Kimi K2.6 et un essaim de 300 sous-agents
605MarkTechPost 

Moonshot AI lance Kimi Work, un agent de bureau qui exploiterait Kimi K2.6 et un essaim de 300 sous-agents

Moonshot AI, la startup pékinoise connue pour son modèle Kimi, a lancé cette semaine Kimi Work, un agent IA qui s'installe directement sur l'ordinateur de l'utilisateur. Compatible macOS et Windows, l'application permet de confier des objectifs en langage naturel à un agent capable de lire des fichiers locaux, de piloter le navigateur réel de la machine et d'exécuter des tâches planifiées. Selon des retours de la communauté, Kimi Work tourne sur Kimi K2.6, le modèle phare de Moonshot publié le 20 avril 2026 : un modèle Mixture-of-Experts en accès libre qui active environ 32 milliards de paramètres par token et dispose d'une fenêtre de contexte de 256 000 tokens. L'agent peut orchestrer jusqu'à 300 sous-agents en parallèle pour décomposer des tâches complexes, le modèle K2.6 supportant jusqu'à 4 000 étapes coordonnées. Une extension navigateur appelée WebBridge lui permet d'agir comme un humain sur le web, en héritant des sessions et cookies déjà ouverts. Un moteur de planification intégré (type cron) permet de déclencher des jobs à heure fixe, de manière conditionnelle ou via des scripts Python et shell, avec une option "Keep Computer Awake" pour les tâches nocturnes. Ce positionnement local tranche avec la quasi-totalité des agents IA des deux dernières années, qui s'exécutent dans le cloud sur des serveurs distants avec des navigateurs virtuels isolés. Ici, l'agent accède aux vrais fichiers de l'utilisateur, à ses sessions bancaires ou professionnelles actives, sans avoir à téléverser quoi que ce soit. Moonshot a aussi intégré des données de marché financier en natif, couvrant les actions chinoises A-shares, la Bourse de Hong Kong et les marchés américains, ce qui évite toute configuration d'API personnalisée. Les résultats peuvent être exportés directement en fichiers PowerPoint ou Excel. Pour un analyste ou un cadre qui jongle avec des dizaines de PDF trimestriels, des tableaux de prix boursiers ou des briefings quotidiens, l'outil promet un gain de temps concret sans friction d'intégration. Moonshot AI s'inscrit dans une vague de startups chinoises qui cherchent à rivaliser avec OpenAI et Anthropic sur le segment des agents autonomes, après avoir déjà marqué des points sur les LLMs longue-contexte. Le lancement de K2.6 en open-weight en avril 2026 reflète une stratégie de dissémination rapide pour capter la communauté développeur. L'approche locale soulève néanmoins une question centrale : la sécurité repose entièrement sur l'utilisateur, contrairement aux agents cloud où le vendeur prend en charge l'isolation. À mesure que les agents gagnent en autonomie et en accès aux données sensibles, ce choix d'architecture deviendra un critère de différenciation majeur, aussi bien pour les particuliers que pour les entreprises qui hésitent encore à confier leur environnement de travail réel à un modèle tiers.

OutilsOutil
1 source
Minerva mise sur OpenAI et lève 20 millions de dollars pour sa plateforme de marketing IA
606Le Big Data 

Minerva mise sur OpenAI et lève 20 millions de dollars pour sa plateforme de marketing IA

Minerva, une startup spécialisée dans le marketing IA, a annoncé le 9 juin 2026 son lancement public accompagné d'une levée de fonds de 20 millions de dollars en Série A, menée par 8VC et Lingotto Innovation, avec la participation de The General Partnership, Topology Ventures et NBA Investments. L'entreprise révèle également un partenariat technologique avec OpenAI, s'appuyant notamment sur GPT-5.5 pour alimenter ses agents IA. La plateforme promet aux équipes marketing d'unifier leurs données propriétaires en moins de 24 heures, puis d'automatiser l'analyse, la segmentation client et l'optimisation des campagnes sans intervention manuelle significative. Deux agents ont été co-développés avec OpenAI : l'Agentic Data Engineer, qui génère automatiquement les requêtes SQL et transforme les données en quelques heures contre plusieurs semaines habituellement, et l'Agentic Data Scientist, qui permet à un responsable marketing d'interroger la plateforme en langage naturel pour construire des modèles prédictifs sans expertise en machine learning. L'enjeu concret est de résoudre un problème persistant dans l'industrie : la plupart des grandes marques ont investi massivement dans des CRM, des outils d'analyse et des plateformes publicitaires, sans jamais parvenir à exploiter efficacement leurs données clients, dispersées entre de multiples systèmes. Minerva unifie ces données internes et les enrichit via son propre graphe d'identité couplé à plus de 1 000 attributs consommateurs externes, avant de les rendre directement actionnables par des agents IA. Un responsable marketing peut ainsi demander à la plateforme d'identifier les consommateurs susceptibles de réserver un séjour haut de gamme dans les trente prochains jours, et l'agent construit, valide et déploie le modèle prédictif de façon autonome. Pour les entreprises qui cherchent à raccourcir le cycle entre la donnée brute et la décision marketing, c'est un changement de paradigme opérationnel potentiellement majeur. Le lancement de Minerva s'inscrit dans une accélération plus large des investissements dans l'IA appliquée au marketing, un secteur où plusieurs startups tentent de capter la valeur générée par les modèles de langage avancés. La collaboration avec OpenAI, au-delà de l'accès aux modèles, positionne Minerva comme un partenaire de référence dans l'écosystème, à l'heure où OpenAI cherche à multiplier les intégrations verticales dans des secteurs à forte valeur de données. Les fonds levés seront alloués au renforcement des équipes d'ingénierie, de recherche et de commercialisation, ainsi qu'au développement d'une offre libre-service. L'entreprise prévoit également d'élargir sa présence à de nouveaux secteurs, après avoir jusqu'ici opéré dans un périmètre limité. La question qui se posera à moyen terme est celle de la confiance des marques à confier leurs données propriétaires les plus sensibles à une plateforme tierce, aussi sophistiquée soit-elle.

BusinessActu
1 source
Comment les équipes de pointe réinventent le développement natif IA
607AWS ML Blog 

Comment les équipes de pointe réinventent le développement natif IA

Six ingénieurs. Soixante-seize jours. Un projet initialement calibré pour trente développeurs travaillant douze à dix-huit mois. C'est le résultat concret obtenu par une équipe d'Amazon Bedrock qui a reconstruit de fond en comble le moteur d'inférence de la plateforme en moins d'un trimestre. La productivité individuelle a bondi d'environ 20 fois, mesurée par la vélocité de commits normalisée : de 2 commits par développeur par semaine à 40. L'équipe a livré plus de code en production en cinq mois que lors de tous les projets cumulés des dix années précédentes. Dans un deuxième cas, l'équipe Prime Video Financial Systems a conduit un sprint de dix jours en chambre close, zéro interruption, aucune astreinte, aucun autre projet en parallèle. Sur cette fenêtre, six ingénieurs ont produit 556 commits contre une base de référence de 96, ramenant l'estimation initiale d'un projet de 90 semaines à 24 semaines, soit environ 6 fois le débit habituel et une accélération de 4 fois. Ces gains ne sont pas des cas isolés : les équipes les plus avancées atteignent des facteurs de 4,5x en moyenne, parfois supérieurs à 10x. Ces résultats bouleversent une hypothèse couramment admise : que les agents IA avaient déjà transformé le développement logiciel. En réalité, si le nombre de commits a explosé dans l'industrie, le rythme de livraison en production n'a pas suivi. Le vrai goulot d'étranglement n'est pas la capacité de génération des agents, mais leur accès à la connaissance nécessaire pour prendre de bonnes décisions, et la volonté des équipes de restructurer leur travail en conséquence. Ce que ces équipes ont réalisé, c'est un changement de paradigme : passer de tâches discrètes à des objectifs pilotés par des résultats, faire tourner plusieurs agents en parallèle, et organiser les systèmes pour que l'IA puisse avancer de manière autonome en dehors des heures ouvrées. Amazon a mené ces expériences sur des centaines d'équipes d'ingénierie et a identifié au moins trois approches reproductibles : une initiative pionnière confiée à des experts sur un défi précis, un sprint structuré sur un plan bien défini, et une expérimentation en conditions réelles divisant les équipes entre méthodes classiques et workflows adaptés à l'IA. Ce que ces trois voies ont en commun, c'est de traiter l'adoption de l'IA comme un investissement d'ingénierie à part entière, et non comme un simple déploiement d'outil. Le modèle des "équipes frontières", selon la terminologie d'Amazon, n'est pas réservé aux grands laboratoires ou aux géants technologiques : il émerge dans tous les secteurs et toutes les tailles d'entreprise, à condition d'accepter de repenser en profondeur la façon dont le logiciel est construit.

OutilsOutil
1 source
Créer un assistant de réparation d'équipements alimenté par l'IA avec Amazon Bedrock AgentCore
608AWS ML Blog 

Créer un assistant de réparation d'équipements alimenté par l'IA avec Amazon Bedrock AgentCore

Amazon Web Services a publié un tutoriel détaillé présentant la construction d'un assistant de réparation d'équipements agricoles propulsé par l'IA, en s'appuyant sur son service Amazon Bedrock AgentCore. L'assistant est conçu pour permettre aux techniciens de terrain de diagnostiquer des pannes de machines lourdes, d'identifier les pièces nécessaires et d'accéder aux procédures de réparation approuvées par les fabricants, le tout via un langage naturel. Techniquement, la solution repose sur plusieurs briques AWS : le runtime AgentCore associé au Strands Agents SDK, le modèle de fondation Amazon Nova 2 Lite pour l'inférence, une Knowledge Base Bedrock pour la génération augmentée par récupération (RAG), et AgentCore Memory pour la persistance des conversations entre sessions. Le frontend React est hébergé sur AWS Amplify, tandis qu'Amazon Cognito gère l'authentification des utilisateurs. Les données de documentation, manuels constructeurs, catalogues de pièces, guides de réparation, sont indexées dans Amazon S3, interrogées via Amazon OpenSearch Serverless pour la recherche vectorielle, avec Amazon Titan Embeddings pour la correspondance sémantique. Les tickets d'intervention sont stockés dans Amazon DynamoDB. La portée concrète de cet outil est significative pour un secteur où chaque heure d'immobilisation d'une machine pendant les récoltes peut se chiffrer en milliers d'euros de pertes. Aujourd'hui, un technicien envoyé sur site sans la bonne pièce doit souvent repartir, revenir, et multiplier les déplacements, allongeant le temps d'arrêt de manière coûteuse. En permettant un diagnostic précis en amont, avec accès instantané aux manuels techniques du fabricant et aux nomenclatures de pièces, l'assistant réduit ce cycle. La mémoire inter-sessions d'AgentCore est particulièrement utile : le technicien peut reprendre une conversation là où il l'avait laissée, sans répéter le contexte de la panne à chaque nouvelle interaction. Cette publication s'inscrit dans la stratégie agressive d'AWS pour imposer Bedrock AgentCore comme plateforme de référence pour le déploiement d'agents IA en production. Lancé en 2025, AgentCore vise à simplifier l'hébergement, la mémoire et l'observabilité des agents, des points de friction majeurs dans les projets IA réels. La concurrence est vive : Vertex AI de Google, Azure AI Foundry de Microsoft, et des frameworks open-source comme LangGraph cherchent tous à capter ce marché. En publiant des cas d'usage sectoriels concrets, ici l'agritech, après d'autres dans la santé ou la finance, AWS tente de démontrer la maturité opérationnelle de sa plateforme face à des besoins métier exigeants. La prochaine étape logique pour ce type de solution serait l'intégration de données IoT temps réel issues des capteurs des machines, pour passer du diagnostic assisté au diagnostic prédictif.

UELes développeurs et entreprises agritech européens peuvent s'appuyer sur ce tutoriel pour construire des assistants de maintenance similaires adaptés au parc de machines agricoles de l'UE.

OutilsOutil
1 source
VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long
609arXiv cs.RO 

VoLo : un orchestrateur physique pour la manipulation à vocabulaire ouvert et horizon temporel long

Une équipe de chercheurs publie sur arXiv (référence 2606.07723, juin 2026) un système appelé VoLoAgent, conçu pour piloter des robots sur des séquences d'actions longues à partir d'instructions en langage naturel ouvert. Le principe : un modèle vision-langage (VLM) joue le rôle d'orchestrateur et coordonne des capacités hétérogènes, notamment un modèle vision-langage-action (VLA) couplé à un module de manipulation bras entier (WAM), des primitives d'action et des modèles de vision, traités comme des outils interruptibles que le VLM peut reprendre en main en cours d'exécution. Pour évaluer ces capacités, les auteurs introduisent RoboVoLo, un benchmark haute fidélité qui couvre quatre dimensions : sens commun, suivi d'état et mémoire, références complexes dans la scène, et connaissance du monde, avec des métriques de succès par tâche et un diagnostic par type de défaillance. Des validations sur robot réel complètent les expériences en simulation, bien que les chiffres de performance précis ne figurent pas dans l'abstract publié. L'apport conceptuel central est ce que les auteurs nomment la "Physical Orchestration" : contrairement aux agents IA virtuels, un robot ne peut pas mettre le monde en pause pendant qu'il raisonne, ce qui fait du timing des décisions et des appels d'outils une contrainte de premier ordre. VoLoAgent y répond par une boucle fermée dans laquelle le VLM surveille en continu l'exécution et déclenche corrections ou récupérations en cas d'échec, sans attendre la fin de l'action en cours. Cette approche adresse directement l'un des angles morts des VLA actuels : leur rigidité face aux défaillances intermédiaires dans des séquences longues. Les résultats indiquent que VoLoAgent surpasse significativement les systèmes à VLA unique, à VLM unique, et les architectures purement basées sur des outils, une affirmation qui reste à vérifier sur des scénarios industriels hors laboratoire. Ce travail s'inscrit dans un courant très actif autour des VLA, porté par Google DeepMind (RT-2, RT-X), Physical Intelligence (pi0) et Stanford (Mobile ALOHA). L'architecture "orchestrateur sur boucle fermée" partage des bases avec les agents à outils de type ReAct ou Voyager, mais les transpose à la contrainte temps-réel de la manipulation physique. Le projet est hébergé sur GitHub via une page académique (chicychen.github.io/VoLo), sans affiliation industrielle explicite mentionnée dans l'abstract. La prochaine étape naturelle serait la validation sur des manipulateurs commerciaux (UR, Franka, ou équipements semi-structurés en entrepôt) pour mesurer le transfert hors conditions de laboratoire contrôlées.

RobotiqueOpinion
1 source
L'IA à base d'agents a résolu le code, et mis à nu tous les autres problèmes du génie logiciel
610VentureBeat AI 

L'IA à base d'agents a résolu le code, et mis à nu tous les autres problèmes du génie logiciel

L'intelligence artificielle agentique a résolu le problème de l'écriture du code, mais ce faisant, elle a mis en lumière tous les autres goulots d'étranglement du génie logiciel. Les équipes d'ingénierie génèrent aujourd'hui plus de code que jamais grâce aux agents IA, mais les dirigeants d'entreprise posent une question de plus en plus pressante : si le rythme de livraison s'est accéléré, pourquoi les produits ne s'améliorent-ils pas à la même cadence ? La réponse est que l'écriture du code n'a jamais été le facteur limitant. Ce qui ralentit les organisations, c'est la définition des bonnes exigences, l'intégration avec des systèmes complexes, et la maintenance en conditions réelles. Quand les agents inondent une organisation de nouveau code, ces difficultés structurelles s'amplifient. La revue humaine du code généré par IA est en train de devenir un énorme nouveau bottleneck, et les ingénieurs perdent le contexte nécessaire pour détecter les erreurs des agents. Des coûts incontrôlés émergent aussi : Uber a épuisé son budget IA 2026 dès le mois d'avril, et selon Axios, une entreprise anonyme a reçu une facture Anthropic de 500 millions de dollars en un seul mois à cause de boucles agentiques incontrôlées. Ces dérives ont des conséquences concrètes sur les organisations. Les entreprises qui n'anticipent pas ces dynamiques risquent de tirer une conclusion simpliste et destructrice : réduire les effectifs tout en augmentant les dépenses IA. Celles qui raisonnent de manière délibérée créeront au contraire de nouveaux rôles adaptés à cette réalité. La différence tient à une gouvernance claire : traiter les configurations d'agents comme de l'infrastructure de production, versionner et tester les prompts avant déploiement, et surtout ne jamais accorder à un agent les mêmes droits d'accès qu'à un ingénieur humain. Ces derniers disposent d'un jugement contextuel et assument une responsabilité directe, un agent qui hérite de leurs permissions sans garde-fous introduit un angle mort d'accountability dans les systèmes critiques. Cette situation s'inscrit dans une transition plus large : l'IA passe de l'assistance à l'exécution autonome, et les modèles économiques comme les pratiques de sécurité n'ont pas encore rattrapé ce changement. Sur le plan technique, la réponse passe par une stratégie multi-modèles et multi-fournisseurs, aucun modèle n'excelle sur toutes les tâches, et se concentrer sur un seul vendeur crée un point de défaillance unique inacceptable pour une fonction aussi critique que l'ingénierie. La priorité doit aller aux modèles frontier les plus performants plutôt qu'aux moins chers en coût par token, car c'est la qualité du résultat qui détermine le coût réel en minimisant les retravaux coûteux. Les métriques traditionnelles, lignes de code, pull requests, déploiements, ne mesurent plus rien d'utile dans ce nouveau contexte.

💬 Personne ne voulait l'entendre, mais écrire du code n'a jamais été le vrai goulot. Les agents ont prouvé ça à coup de factures à 500 millions et de budgets grillés en avril pour l'année entière. Ce qui ralentit encore, c'est comprendre ce qu'on construit et intégrer les vieilles briques, et là, aucun agent ne te sauve si t'as pas mis les garde-fous.

SociétéOpinion
1 source
Comment les agents C3 AI automatisent la maintenance prédictive chez Shell
611AI News 

Comment les agents C3 AI automatisent la maintenance prédictive chez Shell

Shell et C3 AI ont annoncé un approfondissement de leur partenariat pour faire franchir une nouvelle étape à la maintenance industrielle : passer de la simple détection d'anomalies à une automatisation complète du cycle de maintenance, pilotée par des agents d'intelligence artificielle autonomes. Le groupe énergétique s'appuie déjà sur la suite C3 AI Reliability Suite pour surveiller plus de 30 000 équipements critiques répartis dans ses opérations en amont et en aval. Désormais, des agents IA prendront en charge l'intégralité du processus, depuis le premier signal d'alerte jusqu'à la clôture de l'ordre de travail, sans nécessiter de supervision humaine constante. Stephen Ehikian, président de C3 AI, évoque des centaines de millions de dollars de valeur économique générée grâce à la réduction des arrêts non planifiés. L'enjeu concret est de résoudre le "dernier kilomètre" de la maintenance prédictive, un problème bien connu dans l'industrie : beaucoup d'entreprises savent anticiper les pannes, mais peinent à transformer ces alertes en actions rapides et efficaces. Jusqu'ici, les ingénieurs de Shell devaient encore manuellement analyser les alertes, identifier la cause racine et rédiger les ordres de travail. Les nouveaux agents IA prennent en charge cette séquence de façon autonome. À la détection d'une anomalie sur une pompe, une turbine ou un compresseur, l'agent collecte les données de contexte pertinentes, notamment l'historique de maintenance récent, les conditions environnementales et les variables de processus en amont, puis propose un plan d'action étayé. L'opérateur humain peut approuver ou corriger la recommandation. Avec le temps, Shell pourra automatiser entièrement la réponse à certaines catégories d'alertes. Le délai entre la prédiction de la panne et l'intervention effective se réduit, ce qui améliore directement le taux de disponibilité des équipements et protège la production. Cette évolution s'inscrit dans une trajectoire progressive. Shell utilisait initialement le machine learning pour détecter des patterns inhabituels dans les flux de données temps réel issus de ses capteurs industriels, combinés aux données métier de son ERP SAP. La plateforme C3 AI sert de socle d'intégration entre ces sources hétérogènes, à haute fréquence et à fort volume. La couche agentique vient s'y greffer, avec des agents configurables par équipement, chacun disposant d'objectifs et de réponses autorisées définis par les opérateurs. L'intégration native avec SAP est centrale : l'agent travaille directement dans les workflows que les planificateurs humains utilisent déjà, ce qui garantit la fluidité opérationnelle. Ce partenariat illustre la montée en puissance de l'IA agentique dans les secteurs industriels lourds, où la fiabilité des infrastructures a des conséquences directes sur la sécurité, les coûts d'exploitation et la continuité de production à l'échelle mondiale.

UEShell, dont le siège est établi aux Pays-Bas, déploie ces agents IA dans ses opérations mondiales incluant ses sites de production et raffineries européens, avec un impact potentiel sur les coûts de maintenance industrielle en Europe.

OutilsOutil
1 source
Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI
612AWS ML Blog 

Améliorez la précision des appels d'outils de vos agents avec SFT et DPO sur Amazon SageMaker AI

Amazon Web Services publie un guide technique détaillant comment améliorer la précision des appels d'outils dans les agents IA, en combinant deux techniques d'entraînement, le Supervised Fine-Tuning (SFT) et le Direct Preference Optimization (DPO), sur sa plateforme Amazon SageMaker AI. L'exemple concret porte sur Qwen3 1.7B, un petit modèle de langage, entraîné via des jobs SageMaker AI, un service entièrement géré prenant en charge les configurations multi-GPU et multi-nœuds à la demande. L'objectif est d'apprendre à un modèle à sélectionner le bon outil, dans le bon format, sans briser la chaîne d'actions d'un workflow automatisé. Quand un agent IA appelle le mauvais outil ou formate incorrectement ses paramètres, les conséquences sont directes : délais de traitement allongés, taux d'erreurs en hausse, coûts de support accrus et expérience utilisateur dégradée. Pour les organisations qui font passer leurs applications agentiques du pilote à la production, fiabiliser cette couche d'interaction avec les outils externes est devenu un prérequis non négociable. Le SFT permet d'enseigner au modèle le vocabulaire et les contraintes propres à chaque outil via des exemples explicites. Le DPO, lui, raffine ce comportement en intégrant des préférences directement dans la boucle d'entraînement, sous la forme de paires "réponse préférée / réponse rejetée", sans avoir besoin de fonctions de récompense ni de modèles de récompense distincts, ce qui réduit significativement les ressources et le temps d'entraînement par rapport au reinforcement learning classique. Le DPO s'appuie sur des travaux publiés en 2023 (arXiv:2305.18290) et s'intègre notamment via la bibliothèque HuggingFace TRL, qui prend en entrée des triplets prompt / réponse choisie / réponse rejetée. SageMaker AI ajoute une couche d'infrastructure managée : les clusters haute performance se lancent à la demande, s'arrêtent automatiquement en fin de job, et les métriques d'entraînement remontent vers MLflow intégré à SageMaker pour analyse ultérieure. Cette approche en deux temps, SFT pour la connaissance des outils, DPO pour l'alignement fin sur les comportements souhaités, trace une voie praticable pour les équipes qui veulent construire des agents robustes sans gérer elles-mêmes l'infrastructure d'entraînement. À mesure que les modèles plus petits gagnent en précision grâce à ces techniques, la frontière entre un LLM généraliste et un agent spécialisé fiable en production continue de se réduire.

LLMsTuto
1 source
Les organisations IA en entreprise ont un problème d'exécution, pas un problème de modèle, et la plupart construisent la mauvaise solution
613VentureBeat AI 

Les organisations IA en entreprise ont un problème d'exécution, pas un problème de modèle, et la plupart construisent la mauvaise solution

Une enquête publiée par VentureBeat en mai 2026, menée auprès de 132 responsables technologiques de grandes entreprises, révèle que le principal problème de l'IA agentique en production n'est pas le modèle d'intelligence artificielle lui-même, mais l'infrastructure d'exécution. Conduite dans le cadre de la série Pulse Research, l'étude interroge des dirigeants de sociétés d'au moins 100 salariés, dont 35 % dans des entreprises de plus de 10 000 employés, couvrant des secteurs comme la technologie (42 %), les services financiers (20 %) ou la santé (7 %). Résultat central : les agents IA déployés sur des infrastructures sans état, scripts Python, chaînes LangChain, orchestrations improvisées, s'effondrent au contact des exigences opérationnelles réelles. Les redémarrages de conteneurs effacent le contexte, les coûts en tokens dépassent les prévisions, et les hallucinations produites à l'étape 3 d'un workflow se transforment en échecs catastrophiques à l'étape 12. Ce constat a des conséquences concrètes pour des milliers d'équipes d'ingénierie : la majorité d'entre elles consacrent davantage de temps à gérer la "plomberie" de ces systèmes qu'à construire l'intelligence qui était censée justifier l'investissement. L'enquête introduit une distinction structurante entre le "cerveau" (la capacité de raisonnement du modèle) et la "colonne vertébrale" (l'infrastructure d'exécution qui gère l'état, la résilience et la coordination). Si les problèmes d'intégration et de gouvernance restent le premier facteur de défaillance cité, les problèmes d'infrastructure arrivent juste derrière. Et 17 % des répondants identifient encore le modèle lui-même comme la cause principale, ce qui n'est pas anecdotique : ces entreprises signalent que les modèles restent insuffisamment fiables pour les cas limites que leurs workflows génèrent. Ce rapport s'inscrit dans une série de recherches commencée au premier trimestre 2026 autour du concept de "Governance Mirage" : 43 % des entreprises interrogées alors déclaraient avoir une équipe centrale responsable de la gouvernance IA, tandis que 23 % ne s'accordaient pas sur cette question, et 31 % pointaient l'opacité des fournisseurs comme obstacle principal. Le parallèle avec la vague RPA (automatisation robotique des processus) il y a dix ans est explicitement évoqué : un cimetière de pilotes brillants incapables de passer le cap du "Jour 2". Selon VentureBeat, les organisations qui survivront à ce qu'il appelle l'"Agentic Reckoning" seront celles qui traiteront la durabilité de l'infrastructure d'exécution comme une priorité d'ingénierie de premier ordre, et non comme un problème à corriger à coups de relances et de prompts.

BusinessOpinion
1 source
Votre agent IA peut-il bientôt jouer en Bourse pour vous avec Robinhood ?
614Le Big Data 

Votre agent IA peut-il bientôt jouer en Bourse pour vous avec Robinhood ?

Robinhood a annoncé le lancement en bêta de Robinhood IA, une fonctionnalité permettant à des agents intelligents d'analyser des portefeuilles boursiers et d'exécuter des transactions de manière autonome. Concrètement, les utilisateurs peuvent créer un compte séparé, distinct de leur portefeuille principal, que des agents connectés à des LLM comme Claude peuvent piloter. Ces agents ont accès à un ensemble de capacités via le protocole MCP (Model Context Protocol) : analyse du risque de concentration, vérification de l'exposition sectorielle, consultation de notes d'analystes, et surtout exécution d'ordres de bourse. Lancée initialement pour le trading d'actions, la fonctionnalité est prévue pour s'étendre aux options, aux cryptomonnaies, aux contrats à terme et aux marchés de prédiction. Robinhood annonce également une carte de crédit virtuelle destinée aux agents IA, permettant à ces outils d'effectuer des paiements sous conditions, avec une limite mensuelle définie par l'utilisateur. Cette carte est pour l'instant réservée aux détenteurs de la Robinhood Gold Card, avec une extension prévue pour la future Platinum Card. Cette annonce marque un seuil symbolique dans la relation entre les particuliers et la finance automatisée : on passe de l'IA comme outil de conseil à l'IA comme acteur exécutant. Pour les investisseurs retail, cela ouvre la possibilité de stratégies automatisées jusque-là réservées aux fonds algorithmiques professionnels. L'architecture choisie par Robinhood, avec un compte dédié alimenté à l'avance, tente de limiter le risque de perte catastrophique. Des garde-fous sont prévus : notifications à chaque transaction, validation manuelle possible pour certaines opérations, système de détection de fraude et équipe d'examen des transactions suspectes. Mais la question de la responsabilité reste entière : si un agent prend une mauvaise décision d'investissement, aucun cadre réglementaire clair ne désigne aujourd'hui qui en répond. Cette initiative s'inscrit dans une course plus large engagée par les grandes plateformes technologiques et fintech pour doter les agents IA de capacités d'action réelles sur le monde. Stripe, Amazon et Google avancent déjà sur des architectures permettant à des agents de réserver, payer ou investir de manière autonome. Robinhood, qui a bâti sa réputation sur la démocratisation du trading pour le grand public, joue ici sur le même registre : rendre accessible ce qui était jusqu'ici complexe ou réservé à des professionnels. Le risque, bien réel, est que la facilité d'utilisation masque la sophistication des décisions déléguées. Déléguer une transaction boursière ou un paiement à un agent pendant son sommeil représente un changement de paradigme qui interroge autant la régulation financière que la confiance accordée aux systèmes automatisés.

UERobinhood n'est pas disponible en France/UE, mais cette initiative pourrait inciter les régulateurs européens (ESMA, AMF) à anticiper un cadre pour les agents IA exécutant des ordres boursiers de manière autonome.

OutilsOutil
1 source
Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore
615AWS ML Blog 

Construire des systèmes multi-agents LangGraph serverless et scalables sur AWS avec Amazon Bedrock AgentCore

Amazon Web Services a présenté une architecture de référence pour déployer des systèmes multi-agents d'IA générative à grande échelle sur AWS, en combinant LangGraph, AWS Lambda, AWS Step Functions et les deux nouveaux services Amazon Bedrock AgentCore Memory et AgentCore Observability. L'approche repose sur une infrastructure entièrement serverless : les agents LangGraph sont packagés dans des conteneurs Docker exécutés sur Lambda, ce qui permet une montée en charge automatique sans gestion d'infrastructure. Pour illustrer le concept, AWS décrit un système concret de révision de campagnes marketing orchestrant trois agents spécialisés en parallèle, un agent "persona reviewer" qui évalue la résonance du contenu auprès de différents profils démographiques, un agent "validator" qui vérifie la conformité juridique et les chartes de marque, et un agent "finalizer" qui synthétise les retours en recommandations actionnables. Une interface React permet aux utilisateurs de télécharger leurs documents et de consulter les résultats en temps réel. Ce type d'architecture répond à un problème concret que rencontrent les entreprises en production : les agents IA performants en démo s'effondrent souvent sous la charge réelle, perdent le contexte entre les sessions et restent des boîtes noires difficiles à déboguer. AgentCore Memory résout la question de la mémoire en offrant à la fois un contexte conversationnel à court terme et une base de connaissances persistante entre sessions. AgentCore Observability capture quant à lui chaque invocation avec ses entrées et sorties LLM, la latence, et les métriques de chaîne d'outils sur l'ensemble des composants distribués. Pour les équipes en charge de systèmes critiques, c'est un changement de paradigme : il devient possible d'auditer exactement comment un agent a raisonné, quelle décision il a prise à quelle étape, et pourquoi. Cette publication s'inscrit dans une accélération visible chez AWS pour proposer une pile complète d'IA agentique cloud-native, face à la concurrence de Google (Vertex AI Agents) et Microsoft (Azure AI Foundry). LangGraph, développé par LangChain, s'impose progressivement comme standard de facto pour l'orchestration d'agents grâce à son modèle d'exécution en graphe orienté qui rend le flux de contrôle déterministe, parallélisable et conditionnel. L'intégration native avec Lambda et Step Functions est particulièrement stratégique pour les charges de travail "bursty" typiques des agents IA, où la demande est imprévisible et les coûts d'une infrastructure dédiée permanente seraient prohibitifs. La prochaine étape logique pour AWS sera d'étendre ces patterns à des workflows plus complexes impliquant des boucles de feedback humain et des agents à longue durée de vie, un segment encore largement inexploré en production.

InfrastructureActu
1 source
De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands
616AWS ML Blog 

De l'idée à l'application IA : créer des assistants de recherche intelligents avec Strands

Amazon Web Services a publié Strands Agents, un framework open source sous licence Apache 2.0 qui permet de construire un assistant de recherche IA fonctionnel en une trentaine de lignes de Python. L'outil s'appuie sur les modèles fondamentaux d'Amazon Bedrock pour doter les agents d'une capacité de raisonnement autonome, sans avoir à coder manuellement chaque étape logique. AWS affirme déjà utiliser Strands Agents en production dans plusieurs de ses propres services, notamment Amazon Q et AWS Glue. L'annonce s'accompagne de la présentation de Kiro, un environnement de développement intégré alimenté par l'IA, qui intègre un mécanisme d'extensions appelé "Kiro Powers" : plus de cinquante modules préconfigurés couvrant la conception, le déploiement, la sécurité et l'observabilité, installables en un clic. Le module Strands, par exemple, embarque la documentation du SDK, des guides de démarrage et les patterns d'API corrects pour que Kiro puisse générer des agents fiables dès le premier essai. L'enjeu est de taille pour les équipes de développement : orchestrer plusieurs appels d'API, gérer l'état des conversations et construire des agents capables de planifier leurs actions représentait jusqu'ici un chantier réservé aux spécialistes du traitement du langage naturel et des systèmes distribués. Strands Agents casse cette barrière grâce à une approche model-driven où c'est le LLM lui-même qui prend en charge la logique et l'enchaînement des outils, le développeur n'ayant plus qu'à fournir un prompt et une liste de fonctions décorées avec @tool. Le framework est agnostique en matière de fournisseur : il fonctionne avec Amazon Bedrock, Anthropic et OpenAI, et supporte des architectures allant du simple agent isolé aux réseaux multi-agents hiérarchiques. Les réponses en streaming temps réel le rendent particulièrement adapté aux interfaces interactives. Cette publication s'inscrit dans une offensive plus large d'AWS pour capter les développeurs dans l'écosystème d'agents IA, un marché en pleine structuration où Google, Microsoft et Anthropic proposent leurs propres frameworks et plateformes. En rendant Strands open source et en le couplant à un IDE maison, AWS mise sur l'effet de réseau et la fidélisation par les outils plutôt que par le seul accès aux modèles. La compatibilité native avec AWS Lambda et IAM Identity Center facilite le passage du prototype à la production sans réécriture, ce qui constitue un argument décisif pour les entreprises déjà ancrées dans l'écosystème cloud d'Amazon. Les prochaines étapes probables incluent l'extension de la bibliothèque de Kiro Powers par la communauté et l'intégration plus étroite de Strands avec d'autres services AWS d'analyse et d'automatisation.

UELes équipes de développement européennes peuvent adopter Strands Agents pour accélérer leurs projets d'agents IA, mais l'intégration native avec Lambda et IAM renforce la dépendance à l'écosystème AWS, ce qui soulève des questions de souveraineté numérique pour les entreprises françaises et européennes.

OutilsOutil
1 source
La startup IA sans employés Polsia boucle une levée de fonds de 30 M$
617Le Big Data 

La startup IA sans employés Polsia boucle une levée de fonds de 30 M$

Polsia, une startup américaine fondée par un unique fondateur, Ben Sera, vient de boucler une levée de fonds de 30 millions de dollars à une valorisation de 250 millions de dollars. L'annonce a été faite le 22 mai 2026, avec un chiffre d'affaires annuel qui approche les 10 millions de dollars. Particulièrement remarquable : la société ne compte aucun employé. Sera, ancien cofondateur de Future Foods chez Cloud Kitchens aux côtés de Travis Kalanick, a construit Polsia autour d'une orchestration d'agents IA capables de prendre en charge le développement logiciel, la prospection commerciale, la publicité en ligne, le support client et la gestion de workflows métier. Le tour de table réunit des fonds de capital-risque comme Sound Ventures, True Ventures, Offline Ventures, Adjacent, Tekton Ventures et Vaynerfund. Fait notable : Polsia affirme que son propre système d'IA a piloté une grande partie du processus de levée de fonds, notamment la création de la data room, les présentations aux investisseurs et certaines étapes de due diligence. Ben Sera n'est intervenu que lors des échanges finaux et pour signer les documents. L'impact potentiel de ce modèle dépasse largement le cas de Polsia. Si la démonstration est concluante, elle redéfinit ce qu'il est possible de construire avec un capital humain minimal : une seule personne pourrait piloter une entreprise générant des millions de dollars en déléguant la quasi-totalité des opérations à des agents spécialisés. Pour les investisseurs, la promesse est claire : réduction drastique des coûts opérationnels, accélération des cycles de production et capacité à lancer de nouveaux produits sans friction de recrutement. True Ventures va jusqu'à estimer que les outils IA pourraient transformer la création d'entreprise en faisant sauter les barrières liées au capital humain initial, rendant le modèle du fondateur solitaire structurellement viable pour la première fois. Ce positionnement s'inscrit dans un débat plus large sur ce qu'on appelle l'entreprise augmentée par l'IA, où des systèmes automatisés prennent en charge des fonctions autrefois réservées à des équipes entières. Jusqu'ici, la majorité des outils IA imposaient encore une supervision humaine constante ; Polsia cherche à franchir un palier supplémentaire en coordonnant des agents spécialisés sur des tâches complexes et stratégiques. Mais l'enthousiasme des investisseurs ne fait pas l'unanimité. Sur Reddit et d'autres plateformes, de nombreux observateurs remettent en question la crédibilité du modèle, notamment la capacité réelle d'une structure sans équipe à maintenir une croissance à 10 millions de dollars annuels sur le long terme, à gérer des crises imprévues ou à répondre à des clients exigeants. La question reste ouverte : Polsia est-elle un vrai changement de paradigme ou une démonstration de levée de fonds habilement orchestrée par ses propres outils ?

BusinessActu
1 source
L'essor de l'IA chez Twilio est à double tranchant
618The Information AI 

L'essor de l'IA chez Twilio est à double tranchant

Le titre de Twilio a bondi de 36 % depuis le début de l'année 2026, une performance remarquable alors que la plupart des valeurs logicielles du secteur SaaS accusent des reculs de 30 % en moyenne. Cette hausse tranche avec ce que certains analystes appellent l'« apocalypse SaaS », une vague de dépréciation qui touche les éditeurs de logiciels d'entreprise confrontés à la compression des budgets tech. La croissance du chiffre d'affaires de Twilio a doublé l'an dernier pour atteindre 14 %, portée en grande partie par son activité d'agents vocaux alimentés par l'IA. Ce moteur de croissance repose sur des outils permettant aux entreprises de concevoir et de déployer des agents IA capables de converser avec leurs clients par téléphone. Dans un contexte où les entreprises cherchent à automatiser leur service client sans perdre en qualité d'interaction, cette offre répond à une demande concrète et croissante. Pour les investisseurs, c'est une promesse de revenus récurrents dans un segment à forte valeur ajoutée, ce qui explique l'enthousiasme boursier. Twilio reste pourtant une société dont le cœur historique est la messagerie, les appels et les emails d'entreprise. Sa capacité à pivoter vers l'IA vocale la distingue temporairement de ses concurrents, mais les analystes avertissent que les marchés pourraient négliger les risques structurels du modèle : dépendance à quelques grands clients, pression sur les marges, et concurrence croissante d'acteurs comme Amazon Connect ou les nouvelles plateformes d'agents IA natives.

BusinessOpinion
1 source
Amazon Nova Act est désormais éligible à la conformité HIPAA
619AWS ML Blog 

Amazon Nova Act est désormais éligible à la conformité HIPAA

Amazon a annoncé que Nova Act, son service d'agents IA autonomes capables d'interagir avec des interfaces web, est désormais éligible HIPAA. Cette certification, publiée en mai 2026, permet aux organisations de santé et de sciences de la vie d'utiliser ces agents pour traiter des informations de santé protégées électroniquement (ePHI) en conformité avec la loi américaine sur la portabilité et la responsabilité en matière d'assurance maladie. Disponible dans la région AWS US East (Virginie du Nord), Nova Act permet de construire et gérer des flottes d'agents IA qui naviguent dans des navigateurs web, remplissent des formulaires, extraient des données et exécutent des workflows complexes en plusieurs étapes, en s'appuyant sur du code Python combiné à des instructions en langage naturel. Le service s'intègre au framework Strands Agents, à Amazon Bedrock AgentCore, CloudWatch et IAM. Concrètement, les établissements de santé, assureurs et prestataires de soins peuvent désormais automatiser des tâches chronophages comme la prise de rendez-vous, la vérification de couverture d'assurance, les autorisations préalables, le suivi des remboursements ou la coordination des référencements entre médecins, sans intervention humaine et sans sortir du cadre réglementaire HIPAA. L'enjeu est considérable : ces processus administratifs représentent une part massive des coûts opérationnels du secteur de la santé aux États-Unis. En réduisant la charge manuelle, Nova Act promet des délais de traitement plus courts pour les remboursements et une exécution plus cohérente des procédures de routine. L'agent peut également remonter une tâche à un superviseur humain lorsqu'il rencontre une situation ambiguë, ce qui maintient un niveau de contrôle nécessaire dans des environnements sensibles. La difficulté jusqu'ici tenait à la nature même des agents IA : contrairement aux modèles de langage qui se contentent de générer du texte, ces systèmes interagissent avec des systèmes réels et accèdent à des données vivantes, ce qui les soumettait à des exigences de conformité bien plus strictes. Amazon a obtenu cette éligibilité en intégrant Nova Act à sa liste de services HIPAA et en permettant aux clients de signer un accord de partenaire commercial (BAA) directement depuis la console AWS. Les organisations restent néanmoins responsables de la configuration de leurs propres contrôles de sécurité, notamment les politiques IAM, le chiffrement via AWS KMS et les journaux CloudTrail. Cette annonce s'inscrit dans une tendance plus large : après les modèles génératifs, c'est maintenant l'IA agentique qui entre dans les secteurs fortement réglementés, ouvrant la voie à une automatisation plus profonde dans la finance, le juridique et la santé.

UECette certification concerne uniquement la réglementation américaine HIPAA ; les organisations de santé européennes devront attendre une conformité équivalente au RGPD avant de pouvoir déployer Nova Act sur des données de santé sensibles.

OutilsOutil
1 source
Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels
620The Decoder 

Google associe son modèle Genie à Street View pour créer des mondes IA explorables basés sur des lieux réels

Google DeepMind a couplé son modèle de monde génératif Genie 3 à la base de données Street View pour permettre à des utilisateurs de créer des environnements 3D explorables à partir de lieux réels. Le principe est simple : l'utilisateur pose une épingle sur une carte, et le système génère automatiquement un monde interactif dans lequel il peut se déplacer, construit à partir des images photographiées par les voitures Google au fil des années. La démonstration illustre une convergence inédite entre la cartographie grand public et la génération de mondes par intelligence artificielle. L'enjeu dépasse la simple curiosité technologique. Ces environnements synthétiques mais ancrés dans la réalité constituent une ressource d'entraînement particulièrement précieuse pour les agents IA et les systèmes robotiques, qui ont besoin de naviguer dans des espaces proches du monde physique sans avoir à y être déployés physiquement. Là où les simulateurs classiques exigeaient un travail de modélisation manuel considérable, Genie 3 génère ces espaces à la volée, à partir de données déjà collectées massivement. Google DeepMind travaille sur la série Genie depuis 2024 : Genie 1 avait montré la capacité à générer des environnements 2D jouables, Genie 2 avait franchi le cap de la 3D cohérente. L'intégration à Street View transforme la flotte de véhicules cartographiques de Google en infrastructure d'entraînement pour la prochaine génération de robots et d'agents autonomes, positionnant l'entreprise avec un avantage concurrentiel difficile à répliquer pour des acteurs sans accès à des données géospatiales à cette échelle.

UELes données Street View couvrant l'ensemble du territoire européen, cette technologie pourrait générer des environnements d'entraînement pour robots et agents IA dans des contextes urbains français et européens, mais aucune application commerciale n'est encore disponible.

RecherchePaper
1 source
Nectar Social lève 30 millions de dollars pour automatiser le marketing avec l’IA
621Le Big Data 

Nectar Social lève 30 millions de dollars pour automatiser le marketing avec l’IA

Nectar Social, une startup américaine fondée par Misbah et Farah Uraizee, deux anciennes cadres de Meta, a levé 30 millions de dollars en série A pour accélérer le développement de sa plateforme d'agents IA dédiée au marketing social. Ce tour de table est mené par Menlo Ventures et le fonds Anthology, développé en partenariat avec Anthropic. La société revendique déjà plus de 10 millions de conversations traitées par semaine, un chiffre multiplié par cinq en l'espace de trois mois. Parmi ses clients figurent Figma, Liquid Death et e.l.f. Beauty, cette dernière affirmant avoir augmenté ses taux de réponse de 60 % et établi un lien direct entre interactions sociales et revenus générés. Le coeur de la plateforme repose sur Nectar Agent, un agent IA autonome capable de gérer en temps réel les conversations, la modération, le commerce conversationnel, la veille concurrentielle et les workflows créateurs sur TikTok, Meta, LinkedIn, Reddit et X, via des partenariats de données officiels avec ces plateformes. L'ambition de Nectar Social est de devenir un "système d'exploitation marketing" pour les grandes marques, en centralisant des opérations aujourd'hui éparpillées entre de nombreux outils et équipes. Selon Misbah Uraizee, les conversations qui influencent réellement les décisions d'achat se déroulent désormais dans les commentaires, les messages privés et les discussions de groupe, des espaces que les équipes marketing ne peuvent plus couvrir manuellement face à l'explosion des volumes. L'agent ne vise pas à remplacer les équipes humaines, mais à leur permettre de traiter une volumétrie devenue ingérable, tout en maintenant une présence continue et cohérente sur l'ensemble des canaux sociaux. Pour les entreprises clientes, l'enjeu va au-delà de la simple réduction de coûts : il s'agit d'améliorer la réactivité commerciale et d'exploiter plus finement les signaux consommateurs en temps réel. Ce financement s'inscrit dans une tendance de fond qui voit les systèmes agentiques autonomes s'étendre des outils pour développeurs et du support client vers les fonctions marketing. Les réseaux sociaux ont profondément changé de nature : ils ne servent plus uniquement à diffuser du contenu de marque, mais sont devenus des canaux directs de conversion, de fidélisation et de relation client. Les investisseurs, dont Anthropic via son fonds Anthology, misent sur des plateformes capables d'orchestrer automatiquement ces interactions à grande échelle, un positionnement stratégique dans un marché encore peu consolidé. Pour Nectar Social, la prochaine étape sera de transformer cette traction commerciale en part de marché durable face à des acteurs établis du social media management qui commencent eux aussi à intégrer des capacités agentiques.

BusinessActu
1 source
Google Shopping : votre panier vérifie automatiquement que votre processeur est compatible avec votre carte mère
622Frandroid 

Google Shopping : votre panier vérifie automatiquement que votre processeur est compatible avec votre carte mère

Lors de sa conférence I/O 2026, Google a annoncé une refonte profonde de son expérience d'achat en ligne avec trois fonctionnalités majeures. La première, baptisée Universal Cart, est un panier intelligent capable de vérifier automatiquement la compatibilité entre les composants informatiques que vous ajoutez, par exemple, s'assurer qu'un processeur est bien compatible avec la carte mère sélectionnée. Les deux autres innovations comprennent un nouveau protocole permettant aux marchands et aux agents IA de communiquer directement entre eux, ainsi qu'un système sécurisé autorisant un agent IA à effectuer des paiements au nom de l'utilisateur. Ces annonces transforment concrètement la façon dont les consommateurs et les entreprises interagissent avec le commerce en ligne. L'Universal Cart réduit les erreurs d'achat coûteuses, particulièrement dans les domaines techniques comme l'informatique où les incompatibilités sont fréquentes. Le protocole marchand-IA ouvre la voie à des achats entièrement automatisés, sans friction humaine, tandis que la délégation de paiement à un agent représente un saut qualitatif dans l'autonomie des assistants numériques. Ces développements s'inscrivent dans la stratégie plus large de Google visant à positionner ses agents IA au cœur des transactions du quotidien, face à la concurrence d'Amazon, d'OpenAI et d'Apple qui développent des capacités similaires. La question de la confiance et de la sécurité autour des paiements délégués sera centrale pour l'adoption grand public, et Google devra convaincre à la fois les marchands d'adopter son nouveau protocole et les utilisateurs de laisser une IA gérer leur argent.

UELes marchands européens utilisant Google Shopping devront évaluer l'adoption du nouveau protocole marchand-IA, et la délégation de paiement à des agents soulèvera des questions de conformité avec la réglementation européenne sur les services de paiement (DSP2).

OutilsOutil
1 source
Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session
623AWS ML Blog 

Agent vocal scalable avec Amazon Nova Sonic : multi-agents, outils et segmentation de session

Amazon a présenté une série de patrons architecturaux pour concevoir des agents vocaux scalables, s'appuyant sur trois composants clés : Amazon Nova Sonic, Amazon Bedrock AgentCore Runtime et le framework open source Strands Agents. Nova Sonic est un modèle de fondation capable de conduire des conversations vocales naturelles en temps réel, avec compréhension du ton et du flux conversationnel. AgentCore Runtime constitue un environnement d'hébergement serverless pour agents IA : on y déploie un agent comme contenaire, et la plateforme gère automatiquement la mise à l'échelle, l'isolation de sessions via microVM, la facturation et le streaming WebSocket bidirectionnel authentifié. Strands Agents, via sa classe BidiAgent, sert de couche d'intégration qui simplifie la gestion du cycle de vie du flux audio et le routage des appels d'outils. Trois patrons d'intégration sont détaillés pour répondre aux défis concrets des équipes : latence élevée, coordination multi-agents et gestion de l'audio en temps réel. Le premier patron, AgentCore Gateway, expose la logique métier existante comme des outils discrets appelables directement par Nova Sonic, sans couche de raisonnement intermédiaire, ce qui minimise la latence. Un exemple concret : quand un utilisateur demande son solde bancaire, le modèle sélectionne l'outil approprié, passe les paramètres et restitue le résultat vocalement en quelques centaines de millisecondes. Le deuxième patron, l'agent-as-tool ou sous-agent, permet de composer plusieurs agents spécialisés, chacun encapsulant un domaine métier distinct, l'agent principal les invoquant comme de simples fonctions. Le troisième patron, la segmentation de sessions, isole les prompts, la mémoire et les permissions selon le contexte, renforçant les frontières de sécurité tout en permettant la réutilisation des composants. Ces annonces s'inscrivent dans une tendance de fond : le passage des assistants vocaux monolithiques vers des architectures composables, où des agents légers et spécialisés collaborent plutôt qu'un seul modèle omniscient tente de tout gérer. Amazon s'aligne ici sur le protocole MCP (Model Context Protocol), standard open source en cours d'adoption dans l'industrie pour l'interopérabilité des outils d'agents. AgentCore Gateway agit comme hôte managé de serveurs MCP, identifiés par des ARN AWS. L'enjeu commercial est direct : les entreprises déployant des centres de contacts ou des assistants vocaux à grande échelle cherchent à réduire le temps avant le premier audio (time-to-first-audio) tout en maintenant fiabilité et conformité. AWS positionne ainsi Bedrock comme socle d'infrastructure pour la prochaine génération d'expériences vocales IA en production.

UELes équipes européennes déployant des centres de contact vocaux peuvent adopter ces patrons via AWS Bedrock, mais aucun acteur ou régulateur européen n'est directement impliqué.

OutilsOutil
1 source
Amazon Bedrock : mise en oeuvre des appels d'outils par programmation
624AWS ML Blog 

Amazon Bedrock : mise en oeuvre des appels d'outils par programmation

Amazon Bedrock propose désormais une approche appelée "Programmatic Tool Calling" (PTC), qui change fondamentalement la manière dont les grands modèles de langage interagissent avec des outils externes. Dans le schéma traditionnel, chaque appel d'outil nécessite un aller-retour complet vers le modèle : celui-ci formule un appel, reçoit le résultat, raisonne, formule le suivant, et ainsi de suite. Avec le PTC, le modèle n'est sollicité qu'une seule fois pour générer un bloc de code Python qui orchestre l'ensemble des appels d'outils. Ce code s'exécute dans un environnement bac à sable isolé, peut enchaîner des appels en parallèle grâce à asyncio, filtrer et agréger les données, et ne renvoie au modèle que le résultat final traité. Amazon Bedrock offre trois chemins d'implémentation : un sandbox Docker auto-hébergé sur ECS pour un contrôle maximal, une solution gérée via Amazon Bedrock AgentCore Code Interpreter, et un proxy compatible avec le SDK Anthropic pour les équipes habituées à cette interface. L'impact concret de cette approche est considérable en termes de latence, de coût et de précision. Prenons un exemple typique : "Quels membres de l'équipe ingénierie ont dépassé leur budget de déplacements au T3 ?" En mode traditionnel, le modèle effectuerait d'abord un appel pour obtenir la liste des 20 membres, puis 20 appels individuels pour récupérer leurs notes de frais, soit au moins 20 cycles d'inférence complets et plus de 2 000 lignes de données dans la fenêtre de contexte. Avec le PTC, un seul cycle d'inférence génère le code qui récupère tout en parallèle, filtre les dépenses de voyage approuvées, compare aux budgets individuels, et retourne uniquement la liste des personnes concernées. Les économies de tokens et de temps sont proportionnelles à la complexité du workflow. Ce paradigme émerge dans un contexte où les agents IA sont de plus en plus utilisés pour des tâches analytiques complexes, et où les coûts d'inférence restent un frein réel au déploiement à grande échelle. Le PTC n'est pas une innovation propre à AWS : le pattern sous-jacent, générer du code exécutable plutôt que d'orchestrer des appels séquentiels, est indépendant du fournisseur et commence à se diffuser chez plusieurs acteurs. Anthropic l'intègre déjà dans son propre SDK. Les cas d'usage privilégiés incluent le traitement de grands volumes de données, les calculs numériques précis, l'orchestration de processus multi-étapes, et les scénarios où la confidentialité des données brutes impose de ne pas les faire transiter par le contexte du modèle. La prochaine étape probable est la standardisation de ce pattern dans les frameworks d'agents comme LangChain ou LlamaIndex.

UELes développeurs européens utilisant Amazon Bedrock peuvent adopter cette approche pour réduire leurs coûts d'inférence et la latence de leurs agents IA analytiques.

OutilsOutil
1 source
Agora-1 transforme le classique GoldenEye N64 en simulation IA jouable à quatre
625The Decoder 

Agora-1 transforme le classique GoldenEye N64 en simulation IA jouable à quatre

La startup Odyssey a publié Agora-1, un world model capable de simuler en temps réel un environnement de jeu pour jusqu'à quatre joueurs simultanément. Pour démontrer ses capacités, l'équipe a choisi GoldenEye, le jeu de tir à la première personne sorti sur Nintendo 64 en 1997, devenu une référence culturelle du jeu vidéo. Contrairement aux approches précédentes limitées à un seul joueur, Agora-1 repose sur deux modèles distincts : l'un gère la simulation de l'état du jeu, l'autre prend en charge le rendu visuel, le tout en temps réel. Cette architecture multijoueur représente un saut qualitatif dans le domaine des world models. La capacité à gérer plusieurs agents agissant en parallèle dans un même espace simulé ouvre des perspectives concrètes : entraînement d'agents IA dans des environnements complexes et dynamiques, et développement de systèmes de robotique collaborative où plusieurs robots doivent coordonner leurs actions en temps réel. Pour l'industrie du jeu vidéo, cela laisse entrevoir des moteurs de jeu entièrement générés par l'IA, capables de s'adapter en continu aux décisions des joueurs. Les world models, qui apprennent à simuler la physique et la logique d'un environnement à partir de données visuelles, sont devenus un champ de recherche intense. Google DeepMind avec Genie 2, World Labs fondé par Fei-Fei Li, ou encore Wayve dans l'automobile explorent cette technologie pour créer des simulations interactives. Agora-1 se distingue par sa dimension collaborative, un verrou technique que peu d'équipes avaient jusqu'ici franchi, et positionne Odyssey comme un acteur sérieux dans la course aux simulateurs mondiaux pilotés par l'IA.

RecherchePaper
1 source
« La France a six mois pour ne pas rater la prochaine vague industrielle de l’IA agentique »
626Le Monde Pixels 

« La France a six mois pour ne pas rater la prochaine vague industrielle de l’IA agentique »

Trois acteurs français de l'écosystème des cryptomonnaies ont publié une tribune dans Le Monde pour alerter sur l'urgence d'une réforme fiscale face à la montée en puissance des agents IA. Selon eux, les transactions réalisées en ligne par des agents autonomes connaissent une croissance explosive, et ces échanges sont dans leur grande majorité réglés en stablecoins. Or, la législation fiscale française actuelle traite ces opérations de façon inadaptée, un constat que la Cour des comptes elle-même aurait formulé. La tribune fixe un horizon de six mois pour que la France agisse avant de manquer le tournant de l'IA agentique. L'enjeu dépasse la seule communauté crypto : si les agents IA deviennent des acteurs économiques à part entière capables de conclure des transactions en toute autonomie, la France risque de se retrouver hors du cadre de cette nouvelle économie numérique. Des recettes fiscales significatives pourraient lui échapper, au profit de juridictions plus agiles comme Singapour, les Émirats ou certains États américains qui ont déjà adapté leur droit aux paiements programmables. L'IA agentique, où des systèmes autonomes exécutent des tâches complexes sans intervention humaine directe, est présentée comme la prochaine vague industrielle après les LLMs. Les stablecoins, adossés au dollar ou à l'euro, en constituent le système nerveux financier naturel grâce à leur programmabilité et leur instantanéité. Les signataires de la tribune appellent le gouvernement français à modifier rapidement le régime d'imposition des cessions de cryptoactifs pour inclure ces nouveaux usages et éviter que l'économie agentique ne se développe ailleurs.

UELa France est directement interpellée pour réformer son régime fiscal sur les cryptoactifs afin d'intégrer les transactions autonomes des agents IA, sous peine de perdre des recettes fiscales au profit de juridictions plus agiles.

RégulationReglementation
1 source
Fastino Labs publie en open source GLiGuard : un modèle de modération 300M paramètres aussi précis que des modèles 23 à 90 fois plus grands
627MarkTechPost 

Fastino Labs publie en open source GLiGuard : un modèle de modération 300M paramètres aussi précis que des modèles 23 à 90 fois plus grands

Fastino Labs a publié GLiGuard, un modèle open-source de modération de contenu doté de 300 millions de paramètres, conçu pour sécuriser les applications basées sur des LLM en production. Sur neuf benchmarks de sécurité, GLiGuard atteint ou dépasse la précision de modèles 23 à 90 fois plus volumineux, comme LlamaGuard4 (12 milliards de paramètres), WildGuard (7 milliards) ou ShieldGemma (27 milliards), tout en fonctionnant jusqu'à 16 fois plus vite. En une seule passe, le modèle exécute simultanément quatre tâches de modération : classification de sécurité des prompts et des réponses, détection de 11 stratégies de contournement (injection de prompt, roleplay, social engineering...), analyse de la toxicité selon 8 catégories, et identification des contenus sexuels. Le modèle et ses poids sont disponibles sous licence Apache 2.0. L'enjeu est directement opérationnel : dans tout système LLM en production, le modèle de garde-fous s'exécute à chaque requête utilisateur et à chaque réponse du modèle, à chaque tour de conversation. Avec les architectures actuelles de type décodeur, cette latence s'accumule et le coût se multiplie. GLiGuard résout ce problème en adoptant une architecture encodeur, qui traite l'intégralité du texte d'entrée en une seule passe et retourne une étiquette de classification directement, sans générer de tokens séquentiellement. Concrètement, ajouter des dimensions d'évaluation supplémentaires n'augmente pas la latence, puisque toutes les tâches et leurs labels candidats font partie de l'entrée elle-même. Pour les développeurs qui déploient des agents IA capables de naviguer sur le web, d'exécuter du code ou d'interagir avec des services externes, cette réduction de latence et de coût peut changer fondamentalement la viabilité économique d'une mise en production sécurisée. Le problème de fond que GLiGuard cherche à résoudre illustre une tension structurelle dans l'industrie LLM : les modèles de garde-fous ont été construits sur des architectures décodeur par commodité, parce qu'ils pouvaient interpréter des instructions en langage naturel et s'adapter à de nouvelles politiques de sécurité sans réentraînement. Mais la modération de contenu est fondamentalement un problème de classification, pas de génération de texte, et les architectures décodeur ne sont pas optimisées pour cela. La publication de GLiGuard s'inscrit dans une tendance plus large de spécialisation des modèles : plutôt qu'utiliser un même LLM généraliste pour tout, les équipes en production découpent les tâches selon leurs contraintes propres. Fastino Labs positionne GLiGuard comme une brique d'infrastructure plutôt qu'un produit fini, ce qui suggère une stratégie d'adoption par les développeurs avant une éventuelle offre commerciale autour de la vitesse et du coût à l'échelle.

SécuritéOpinion
1 source
Exaforce lève 125 millions de dollars pour sa plateforme de cybersécurité IA
628Le Big Data 

Exaforce lève 125 millions de dollars pour sa plateforme de cybersécurité IA

Exaforce, startup américaine spécialisée dans la cybersécurité par intelligence artificielle, a annoncé le 12 mai 2026 une levée de fonds de série B de 125 millions de dollars, portant sa valorisation totale à 725 millions de dollars et son financement cumulé à 200 millions en seulement trois ans d'existence. L'opération a été menée par HarbourVest, aux côtés de Peak XV, Mayfield, Khosla Ventures et Seligman Ventures. La startup, fondée par Ankur Singla, développe une plateforme de sécurité pilotée par des agents IA appelés Exabots, conçus pour analyser massivement les données de sécurité, identifier les comportements suspects et réduire le temps de détection des menaces. Commercialisée officiellement au quatrième trimestre 2025 après deux ans de tests avec des partenaires, la plateforme est déjà adoptée par plusieurs grandes entreprises. L'enjeu central qu'Exaforce cherche à résoudre est réel et bien documenté dans le secteur : les équipes des centres d'opérations de sécurité (SOC) croulent sous des centaines, parfois des milliers d'alertes quotidiennes, dont une large part sont des faux positifs. La startup affirme que ses agents IA peuvent éliminer jusqu'à 90 % des tâches manuelles de ces équipes, leur permettant de se concentrer sur les menaces réellement critiques. La plateforme intègre également une fonctionnalité baptisée "Vibe Hunting", lancée récemment, qui permet aux analystes d'interroger le système en langage naturel, par exemple "avons-nous subi de nouvelles attaques provenant d'Iran ?", et d'obtenir une analyse automatisée des signaux faibles correspondants. Cette approche vise à rendre la cybersécurité plus accessible, moins dépendante d'une expertise technique pointue, et donc plus scalable pour des équipes sous pression. Cette levée intervient dans un contexte de forte accélération des investissements dans la cybersécurité augmentée par l'IA, portée par la multiplication des attaques automatisées et la pression réglementaire croissante sur la protection des données. Exaforce avait déjà levé 75 millions en série A un an plus tôt, une performance qui lui avait valu d'être signalée par le Wall Street Journal parmi les jeunes pousses les plus surveillées du secteur. Développer une telle plateforme exige des investissements considérables en infrastructure, en entraînement de modèles et en intégration de données d'entreprises, ce qui explique la cadence soutenue des tours de table. Les concurrents, dont des acteurs comme CrowdStrike, Palo Alto Networks ou des startups comme Secureworks, investissent eux aussi massivement dans l'automatisation par IA, faisant de ce segment l'un des plus disputés de la tech en 2026.

BusinessActu
1 source
Le déploiement des technologies d'IA avancées dans la finance
629MIT Technology Review 

Le déploiement des technologies d'IA avancées dans la finance

Dans les directions financières des grandes entreprises, l'intelligence artificielle s'est installée non pas par décret mais par adoption spontanée des équipes, avant même que la direction n'ait eu le temps de définir une stratégie. Glenn Hopper, directeur de l'IA chez VAi Consulting, le résume clairement : "la prolifération de l'IA s'est produite avant la gouvernance, avant qu'un vrai plan ne soit établi." Concrètement, les outils d'IA s'intègrent aujourd'hui dans des tâches comme la revue de contrats, la rédaction de commentaires sur les écarts budgétaires, la détection de fraudes et la narration des clôtures comptables, autant de processus où les données non structurées ralentissaient traditionnellement le travail. Ranga Bodla, vice-président marketing chez Oracle NetSuite, insiste sur un point central : l'IA est plus efficace quand elle s'efface dans les processus existants plutôt que de les remplacer frontalement. Des protocoles comme le MCP (Model Context Protocol) accélèrent cette intégration discrète, faisant de l'IA une capacité ambiante plutôt qu'un outil visible. Ce mouvement place les directions financières, parmi les fonctions les plus réglementées de l'entreprise, dans une position paradoxale : elles figurent désormais parmi les plus transformées par l'expérimentation. L'enjeu dépasse la productivité. La vraie contrainte identifiée n'est ni technologique ni financière : c'est humaine. Hopper pointe un fossé grandissant entre expertise métier et maîtrise de l'IA. Des collaborateurs qui utilisent les outils sans les comprendre, ou des dirigeants qui les restreignent si sévèrement que les équipes cherchent des contournements hors du contrôle de l'entreprise, constituent des risques bien plus immédiats que les questions de sécurité des données ou d'opacité des modèles. Bodla souligne à ce titre que "l'auditabilité est critique", la capacité à retracer les décisions produites par les systèmes d'IA reste une exigence non négociable dans un secteur soumis à des obligations de conformité strictes. À plus long terme, la trajectoire se dessine autour d'agents IA capables d'exécuter des tâches complexes en plusieurs étapes, de fenêtres de contexte élargies et de systèmes interopérables promettant une intelligence plus profonde et persistante. Mais la transformation la plus significative sera peut-être plus subtile : un glissement progressif vers des outils qui renforcent le jugement humain, automatisent les tâches répétitives et permettent aux équipes financières de consacrer moins de temps à réconcilier le passé comptable et davantage à orienter les décisions stratégiques à venir. Le vrai test pour les directions, dans les mois qui viennent, sera de rattraper leur retard de gouvernance sans étouffer l'adoption organique qui a, jusqu'ici, produit les résultats les plus concrets.

UELes exigences d'auditabilité et de traçabilité des décisions IA évoquées s'alignent directement avec les obligations de l'AI Act européen, particulièrement contraignantes pour les institutions financières opérant dans l'UE.

SociétéOpinion
1 source
Leadership dans l'ingénierie assistée par IA
630InfoQ AI 

Leadership dans l'ingénierie assistée par IA

Justin Reock, responsable technique chez DX (Developer Experience), a présenté une analyse rigoureuse de l'impact réel de l'intelligence artificielle sur le génie logiciel, en s'appuyant sur des données issues des études DORA et DX Research plutôt que sur des témoignages anecdotiques. Son constat central est frappant : 95 % des projets pilotes d'IA générative échouent avant de passer à l'échelle, un phénomène qu'il nomme le « GenAI Divide ». Pour mesurer le retour sur investissement réel, il recommande deux cadres analytiques établis, SPACE et Core 4, qui permettent d'évaluer la productivité des développeurs selon des dimensions multiples, au-delà du simple nombre de lignes de code produites. L'enjeu est considérable pour les équipes d'ingénierie : sans indicateurs adaptés, les organisations risquent de confondre vitesse d'exécution et véritable efficacité. Reock insiste sur la nécessité de concilier rapidité et qualité, mais aussi de réduire la peur des développeurs face à ces outils, qui peut freiner l'adoption et biaiser les résultats. L'objectif n'est pas de remplacer les ingénieurs, mais de leur permettre de se concentrer sur les tâches à forte valeur ajoutée. Ce discours s'inscrit dans un contexte où les grandes entreprises tech investissent massivement dans les agents IA capables d'intervenir à chaque étape du cycle de développement logiciel, du design aux tests en passant par la revue de code. La question n'est plus de savoir si l'IA transformera l'ingénierie logicielle, mais comment les responsables techniques peuvent piloter cette transition avec des méthodes de mesure fiables et une approche centrée sur l'humain.

OutilsOutil
1 source
Google met fin au projet Mariner
631The Verge AI 

Google met fin au projet Mariner

Google a officiellement mis fin à Project Mariner le 4 mai 2026. Ce projet expérimental, dévoilé en décembre 2024, permettait à une intelligence artificielle d'effectuer des tâches autonomes sur le web au nom de l'utilisateur, comme naviguer sur des sites, remplir des formulaires ou rechercher des informations. La page d'accueil du projet affiche désormais un message d'adieu : "Merci d'avoir utilisé Project Mariner. Il a été arrêté le 4 mai 2026 et sa technologie a voyagé vers d'autres produits Google." L'information a d'abord été rapportée par Wired. La fermeture ne signifie pas que la technologie disparaît : Google indique clairement que les avancées de Mariner ont été intégrées à d'autres outils, notamment Gemini Agent. Cette décision illustre une tendance forte chez les grandes plateformes, qui absorbent leurs expérimentations dans leurs produits grand public plutôt que de les maintenir comme projets isolés. Pour les utilisateurs, cela signifie que les capacités agentiques testées dans Mariner, comme l'exécution de jusqu'à dix tâches simultanées annoncée lors d'une mise à jour intermédiaire, pourraient se retrouver dans des produits plus larges et mieux intégrés. Project Mariner s'inscrivait dans la course que se livrent Google, OpenAI, Microsoft et Anthropic autour des agents IA capables d'agir de manière autonome sur ordinateur et sur le web. Lancé dans un contexte de forte compétition avec des outils comme Operator d'OpenAI ou Claude Computer Use d'Anthropic, Mariner n'a existé que dix-sept mois en tant que projet distinct. Sa dissolution dans l'écosystème Gemini suggère que Google mise désormais sur une approche unifiée plutôt que sur des expériences en silo.

OutilsActu
1 source
Google teste l'agent IA Remy pour Gemini, avec un accent mis sur le contrôle utilisateur
632AI News 

Google teste l'agent IA Remy pour Gemini, avec un accent mis sur le contrôle utilisateur

Google teste en interne un nouvel agent IA baptisé Remy, conçu pour s'intégrer à l'application Gemini et agir de manière autonome au nom des utilisateurs dans leurs tâches professionnelles et quotidiennes. L'information provient de Business Insider, qui affirme avoir consulté un document interne et échangé avec deux personnes au fait du projet. Selon ce document, Remy se présente comme un "agent personnel disponible 24h/24", capable de gérer des tâches complexes, d'apprendre les préférences de l'utilisateur et de se connecter aux services Google comme Gmail, Calendar, Docs, Drive, ainsi qu'à des plateformes tierces telles que GitHub, Spotify ou WhatsApp. Pour l'heure, le projet est en phase de "dog-fooding", c'est-à-dire testé exclusivement par des employés de Google. Aucune date de lancement public n'a été communiquée, et Google a refusé de commenter. Remy représente une évolution significative dans la stratégie de Google autour de Gemini, qui cherche à dépasser le simple chatbot pour devenir un assistant capable d'agir, et non plus seulement de répondre. Si Google propose déjà un "Agent Mode" dans Gemini, Remy serait selon les sources une version nettement plus avancée, intégrant un apprentissage des préférences utilisateur et une gestion de tâches multi-étapes. Cette orientation vers les agents autonomes soulève toutefois des questions de contrôle et de vie privée que Google semble anticiper : le Privacy Hub de Gemini permet déjà aux utilisateurs de consulter et supprimer l'historique d'activité, de gérer les données de personnalisation et de révoquer l'accès aux applications connectées. Les chercheurs de Google Research ont par ailleurs formalisé des principes pour les agents IA, insistant sur des pouvoirs strictement limités, des actions observables et l'application du principe de moindre privilège. La course aux agents autonomes s'est accélérée ces derniers mois dans l'ensemble du secteur. OpenAI a attiré l'attention début 2025 avec OpenClaw, un agent capable de répondre à des messages et de mener des recherches de façon autonome, dont le créateur a été recruté par Sam Altman en février. Le PDG de Google DeepMind, Demis Hassabis, a lui-même évoqué l'ambition de construire un "assistant numérique" de référence, sans préciser le calendrier. Remy s'inscrit dans cette dynamique où les grandes plateformes IA cherchent à passer du stade de l'assistant conversationnel à celui d'un véritable mandataire numérique. Les détails techniques restent flous: l'architecture de Remy, le modèle sous-jacent et le degré d'autonomie réel, notamment la question de savoir s'il peut agir sans confirmation explicite de l'utilisateur, n'ont pas été divulgués.

UELe déploiement futur de Remy serait soumis à l'AI Act européen, notamment aux exigences de transparence et de contrôle utilisateur imposées aux agents autonomes, que Google semble anticiper via son Privacy Hub.

OutilsOutil
1 source
Groq 3 LPX : un rack d’inférence qui fait fondre la latence des LLM
633Le Big Data 

Groq 3 LPX : un rack d’inférence qui fait fondre la latence des LLM

Groq a dévoilé lors du GTC 2026 le Groq 3 LPX, un rack d'inférence conçu pour répondre aux nouvelles exigences des systèmes agentiques autonomes. Ce châssis ultra-dense regroupe 256 accélérateurs LPU Groq 3 dans une architecture entièrement dédiée à la génération de tokens pour les grands modèles de langage. Sa particularité la plus radicale est d'abandonner toute mémoire HBM externe au profit de 500 Mo de SRAM intégrée directement sur chaque puce, ce qui lui permet d'atteindre une bande passante mémoire de 150 To/s par accélérateur. Le système s'intègre à l'écosystème Vera Rubin de NVIDIA et doit être disponible commercialement au troisième trimestre 2026. Les fournisseurs cloud préparent déjà leurs centres de données en conséquence. Ce choix architectural répond à un problème concret qui freine aujourd'hui le déploiement massif d'agents IA : la latence. Les GPU classiques, pensés pour l'entraînement en parallèle massif, introduisent des délais irréguliers lors de l'inférence séquentielle, ce qui rend les interactions en temps réel imprévisibles. En éliminant les goulots d'étranglement liés aux accès mémoire externe, le Groq 3 LPX garantit une cadence de traitement régulière et prévisible, un impératif pour les applications critiques comme les assistants vocaux, les agents de code ou les systèmes de décision automatisée. Pour les équipes d'ingénierie qui déploient ces architectures en production, la stabilité du débit compte autant que sa vitesse brute. La trajectoire de Groq illustre une tendance de fond dans l'industrie du semi-conducteur : la spécialisation matérielle poussée à l'extrême. Depuis sa fondation, la société mise sur les LPU (Language Processing Units) comme alternative aux GPU pour l'inférence, un pari longtemps marginal qui prend aujourd'hui de l'ampleur avec la montée des modèles de plusieurs dizaines de milliards de paramètres. L'intégration dans l'écosystème NVIDIA via Vera Rubin signal également un rapprochement stratégique entre acteurs qui auraient pu rester concurrents directs. L'essor des agents autonomes, capables de chaîner des dizaines d'appels LLM en quelques secondes, crée une demande d'infrastructure que ni les GPU ni les API cloud généralistes ne satisfont pleinement. Le Groq 3 LPX se positionne sur ce segment encore ouvert, aux côtés de concurrents comme Cerebras ou SambaNova, dans une course où la latence est devenue la nouvelle métrique dominante.

InfrastructureOpinion
1 source
Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité
634MarkTechPost 

Meta lance Autodata : un framework à base d'agents qui transforme les modèles IA en data scientists autonomes pour créer des données d'entraînement de haute qualité

L'équipe RAM (Reasoning, Alignment and Memory) de Meta AI a présenté Autodata, un cadre de génération de données d'entraînement reposant sur des agents IA autonomes. Plutôt que de produire des données synthétiques en une seule passe, Autodata confie à un agent le rôle d'un data scientist humain : il crée des exemples, les analyse, en évalue la qualité, puis affine sa méthode de génération en boucle fermée. La première implémentation concrète du système, baptisée Agentic Self-Instruct, s'appuie sur un LLM orchestrateur qui coordonne quatre sous-agents spécialisés : un Challenger LLM qui génère des exemples d'entraînement, un Weak Solver (modèle plus faible censé échouer sur ces exemples), un Strong Solver (modèle plus capable censé réussir), et un Evaluator qui valide la pertinence et la difficulté des exemples produits. Testée sur des problèmes de raisonnement scientifique complexe, cette approche surpasse significativement les méthodes classiques de génération de données synthétiques comme Self-Instruct ou ses variantes Chain-of-Thought. L'enjeu est de taille : la qualité des données d'entraînement a toujours été un goulot d'étranglement dans le développement des grands modèles de langage, autant que la puissance de calcul. Autodata ouvre une voie pour convertir du calcul d'inférence supplémentaire en données de meilleure qualité, plus on alloue de ressources à l'agent, plus les données produites sont pertinentes. Pour les équipes qui développent des modèles IA, c'est une rupture méthodologique : il devient possible de piloter et d'améliorer la qualité des données en cours de génération, et non plus seulement de filtrer ou corriger après coup. Cela réduit également la dépendance à l'annotation humaine, coûteuse et difficile à scaler, tout en maintenant un contrôle itératif sur la distribution et la difficulté des exemples générés. Jusqu'ici, la génération de données synthétiques suivait des pipelines largement statiques : on promptait un LLM avec des exemples zéro-shot ou few-shot, parfois en s'appuyant sur des documents source pour limiter les hallucinations. Les méthodes dites "Self-Challenging" avaient commencé à introduire une dynamique agent-outil, mais sans boucle de feedback réelle sur la qualité globale du jeu de données. Autodata représente l'étape suivante en intégrant cette rétroaction directement dans le processus de création. Meta s'inscrit ici dans une tendance plus large du secteur : utiliser des agents IA pour automatiser des tâches d'ingénierie complexes, y compris la construction des données qui servent à entraîner ces mêmes agents. La publication est portée par l'équipe RAM de Meta AI Research, ce qui signale une ambition de long terme autour de l'autonomie des systèmes d'apprentissage.

UELes laboratoires européens développant des LLMs pourraient indirectement bénéficier de cette méthodologie open research pour réduire leur dépendance à l'annotation humaine coûteuse.

RecherchePaper
1 source
Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées
635AWS ML Blog 

Configurer Amazon Bedrock AgentCore Gateway pour un accès sécurisé aux ressources privées

Amazon a dévoilé une nouvelle fonctionnalité pour son service Bedrock AgentCore Gateway : la connectivité VPC gérée, qui permet aux agents d'intelligence artificielle d'accéder à des ressources privées hébergées derrière des réseaux Amazon Virtual Private Cloud (VPC) sans exposer le trafic sur l'internet public. Concrètement, ce mécanisme repose sur un composant appelé Resource Gateway, qui provisionne automatiquement des interfaces réseau élastiques (ENI) directement à l'intérieur du VPC cible, à raison d'une interface par sous-réseau. Deux modes de fonctionnement sont proposés : le mode managé, où AgentCore prend en charge l'intégralité de l'infrastructure réseau à partir des identifiants VPC, de sous-réseau et des groupes de sécurité fournis par l'utilisateur ; et le mode auto-géré, qui laisse davantage de contrôle à l'équipe technique. Trois scénarios pratiques illustrent ces cas d'usage : la connexion à un endpoint privé Amazon API Gateway, l'intégration avec un serveur MCP (Model Context Protocol) hébergé sur Amazon Elastic Kubernetes Service (EKS), et l'accès à une API REST privée dans un réseau isolé. Pour les équipes qui déploient des agents IA en production, cette capacité représente un gain opérationnel significatif. Jusqu'ici, chaque chemin de connexion entre un agent et un outil interne (base de données, API métier, microservice) nécessitait une configuration réseau manuelle, ralentissant les déploiements et multipliant les risques de mauvais paramétrage. Avec AgentCore Gateway VPC egress, une Resource Configuration délimite précisément l'endpoint accessible, un nom de domaine ou une adresse IP, plutôt que d'ouvrir l'accès à l'ensemble du VPC. La Service Network Resource Association, créée et gérée automatiquement par AgentCore, connecte ensuite cette configuration au réseau de service, ce qui permet à l'agent d'invoquer l'endpoint privé de façon sécurisée et traçable. Pour les organisations avec des architectures multi-VPC ou hybrides, le service s'intègre nativement avec AWS Transit Gateway et le VPC peering inter-régions. Cette annonce s'inscrit dans la stratégie plus large d'Amazon pour rendre ses agents IA exploitables dans des environnements d'entreprise contraints, où la sécurité réseau et la conformité interdisent tout transit par l'internet public. Bedrock AgentCore est la couche d'infrastructure d'Amazon dédiée à l'orchestration et au déploiement d'agents autonomes en production, concurrençant directement les offres de Microsoft Azure AI Foundry et Google Vertex AI Agent Builder. La prise en charge du protocole MCP, standard ouvert porté par Anthropic pour connecter les agents à des outils externes, signale une convergence de l'écosystème autour d'interfaces interopérables. À mesure que les agents IA migrent du prototype vers le système critique, la capacité à les brancher sur des ressources internes sans compromettre le périmètre de sécurité devient un prérequis incontournable pour les DSI, ce qu'Amazon positionne désormais comme une fonctionnalité de première classe.

UELes organisations européennes soumises au RGPD déployant des agents IA peuvent exploiter cette connectivité VPC privée pour maintenir leurs données internes hors de l'internet public, facilitant ainsi la conformité réglementaire.

InfrastructureTuto
1 source
Le chaînon manquant entre la hype et la rentabilité
636MIT Technology Review 

Le chaînon manquant entre la hype et la rentabilité

En février dernier, des manifestants anti-IA défilaient dans les rues de Londres avec un tract signé Pause AI qui résumait involontairement l'état du secteur : "Étape 1 : Créer un super cerveau numérique. Étape 2 : ? Étape 3 : ?" Le clin d'oeil aux "gnomes voleurs de sous-vêtements" de South Park, devenus un mème culte pour moquer les plans d'affaires sans logique, n'était peut-être pas intentionnel, mais il frappait juste. Les entreprises d'IA ont construit la technologie (étape 1) et promis la transformation économique (étape 3). L'étape 2, celle qui explique comment on passe de l'un à l'autre, reste un point d'interrogation. Jakub Pachocki, directeur scientifique d'OpenAI, qualifie l'IA de "technologie économiquement transformatrice", mais la trajectoire concrète reste floue. Deux études récentes illustrent à quel point cet écart entre promesse et réalité est profond. Une recherche d'Anthropic a tenté de cartographier les métiers les plus exposés aux grands modèles de langage, concluant que managers, architectes et journalistes devraient se préparer à des bouleversements, contrairement aux jardiniers ou aux ouvriers du bâtiment. Mais ces prédictions reposent sur ce que les LLM semblent capables de faire en théorie, non sur leurs performances réelles au bureau. Plus révélatrice encore, une étude publiée en février par Mercor, une startup spécialisée dans le recrutement assisté par IA, a soumis plusieurs agents IA alimentés par les meilleurs modèles d'OpenAI, d'Anthropic et de Google DeepMind à 480 tâches professionnelles typiques de banquiers, consultants et juristes. Résultat : chaque agent échoué à accomplir la majorité des tâches qui lui étaient assignées. Ce fossé entre le discours et les faits s'explique par plusieurs facteurs structurels. D'abord, les acteurs qui font les prédictions les plus enthousiastes ont un intérêt financier direct dans leur réalisation. Ensuite, une grande partie des optimistes fondent leurs conclusions sur la progression rapide des outils de codage, qui ne représentent qu'une fraction des usages professionnels réels. Les LLM se révèlent notamment peu fiables pour les décisions stratégiques, qui nécessitent jugement et contextualisation. Et même lorsqu'ils fonctionnent bien en laboratoire, ces outils doivent s'intégrer dans des environnements humains existants, avec leurs habitudes, leurs résistances et leurs workflows hérités. Refondre ces processus autour de l'IA pour en tirer une valeur transformatrice prendra du temps et impliquera des risques. C'est précisément dans ce vide d'information que prospèrent les annonces fracassantes et les prophéties sans preuves. Le problème n'est pas que personne ne sait où l'IA va mener, c'est que tout le monde fait semblant de le savoir.

UELe fossé entre les promesses économiques de l'IA et ses performances réelles en contexte professionnel concerne directement les décideurs et entreprises européens qui investissent massivement dans ces technologies sans visibilité sur le retour attendu.

SociétéOpinion
1 source
Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents
637MarkTechPost 

Google Cloud présente ReasoningBank : mémoire de stratégies de raisonnement tirées des succès et échecs d'agents

Une équipe de chercheurs de Google Cloud AI, de l'Université de l'Illinois à Urbana-Champaign et de l'Université Yale a présenté ReasoningBank, un cadre mémoire destiné aux agents IA qui distille les stratégies de raisonnement à partir de leurs réussites comme de leurs échecs. Le système fonctionne en trois étapes exécutées autour de chaque tâche accomplie : récupération mémoire, extraction mémoire, et consolidation mémoire. Avant de démarrer une nouvelle tâche, l'agent interroge ReasoningBank via une recherche par similarité vectorielle pour récupérer l'élément de mémoire le plus pertinent, injecté directement dans son prompt système. Les expériences d'ablation montrent qu'un seul élément récupéré (k=1) donne de meilleurs résultats qu'un lot plus large : le taux de succès atteint 49,7% avec k=1, contre 44,4% avec k=4. Une fois la tâche terminée, un extracteur de mémoire analyse la trajectoire et la condense en items structurés comportant un titre, une description en une phrase, et un contenu de 1 à 3 phrases. Pour évaluer si la tâche était réussie ou non, le système emploie un LLM-as-a-Judge, qui reste robuste même lorsque sa précision descend à 70%. Le problème que ReasoningBank cherche à résoudre est fondamental : les agents IA actuels souffrent d'une amnésie structurelle. Chaque tâche est abordée comme si aucune expérience antérieure n'existait, et les leçons apprises disparaissent dès la fin de l'exécution. Les approches existantes n'y remédient qu'en partie. La mémoire de trajectoire brute, utilisée par le système Synapse, enregistre chaque action mais génère trop de bruit pour être directement réutilisable. La mémoire de flux, mise en oeuvre dans Agent Workflow Memory, extrait des procédures réutilisables, mais uniquement à partir des succès, ce qui élimine le signal d'apprentissage contenu dans les échecs. ReasoningBank traite les deux de manière asymétrique : les réussites fournissent des stratégies validées, les échecs alimentent des mises en garde et des leçons préventives. Les chercheurs poussent le système plus loin avec MaTTS, une approche de mise à l'échelle au moment du test combinée à la mémoire. Plutôt que de générer plusieurs trajectoires pour une tâche et n'en conserver qu'une, MaTTS exploite l'ensemble de ces trajectoires comme signal contrastif pour enrichir ReasoningBank. Cette technique s'appuie sur une tendance déjà bien établie en raisonnement mathématique et en programmation, où le calcul supplémentaire au moment de l'inférence améliore nettement les performances. L'enjeu dépasse la simple optimisation technique : il s'agit de permettre aux agents déployés en entreprise, sur des tâches web, de résolution de bugs ou de navigation d'interface, de capitaliser sur leur expérience accumulée plutôt que de la jeter après chaque session.

RecherchePaper
1 source
Créez votre premier agent en quelques minutes : nouvelles fonctionnalités d'Amazon Bedrock AgentCore
638AWS ML Blog 

Créez votre premier agent en quelques minutes : nouvelles fonctionnalités d'Amazon Bedrock AgentCore

Amazon a annoncé de nouvelles fonctionnalités pour Bedrock AgentCore, sa plateforme de développement d'agents IA, qui promettent de réduire drastiquement le temps nécessaire pour passer d'une idée à un agent fonctionnel. La pièce maîtresse de cette mise à jour est le "managed agent harness", une couche d'infrastructure gérée qui permet de déclarer et lancer un agent en trois appels d'API seulement, sans écrire de code d'orchestration. Le développeur n'a qu'à définir quel modèle utiliser, quels outils appeler et quelles instructions suivre : AgentCore assemble automatiquement le calcul, la mémoire, les identités et la sécurité. La plateforme est compatible avec les frameworks déjà en usage dans l'industrie : LangGraph, LlamaIndex, CrewAI et Strands Agents, le framework open source d'AWS qui propulse le harness. AgentCore gère également la persistance de l'état de session sur un système de fichiers durable, ce qui permet à un agent de suspendre une tâche en cours et de la reprendre exactement là où il s'était arrêté. Jusqu'ici, construire l'infrastructure sous-jacente d'un agent, compute, sandbox d'exécution de code, connexions sécurisées aux outils, stockage persistant, gestion des erreurs, représentait plusieurs jours de travail avant de pouvoir tester la moindre logique métier. Avec AgentCore, tester une variante d'agent, changer de modèle ou ajouter un outil devient une modification de configuration et non une réécriture de code. Rodrigo Moreira, VP Engineering chez VTEX, l'un des premiers utilisateurs, confirme que ce qui prenait auparavant des jours de mise en place peut désormais être validé en quelques minutes. Cette accélération du cycle de prototypage est particulièrement significative pour les équipes produit qui veulent itérer rapidement sur la logique agent sans s'embourber dans la plomberie backend. Les patterns "human-in-the-loop", souvent coûteux à implémenter, deviennent pratiques grâce à la persistance native de session, sans nécessiter de refonte architecturale ultérieure. La sortie de ces fonctionnalités s'inscrit dans une concurrence féroce entre les grands fournisseurs cloud pour capter les équipes qui industrialisent l'IA agentique. AWS fait le pari que les développeurs adoptent plus facilement un service géré s'il supprime la friction initiale tout en restant extensible : lorsque les besoins d'orchestration personnalisée ou de coordination multi-agents se précisent, il suffit de basculer d'une configuration déclarative vers du code, sur la même plateforme, avec la même pipeline de déploiement et le même isolement microVM. La prochaine étape annoncée, déployer et opérer les agents depuis le même terminal, vise à unifier le cycle complet de développement, de la première idée jusqu'à la production, dans un seul environnement sans rupture d'outil.

UELes équipes de développement françaises et européennes peuvent réduire leur temps de prototypage d'agents IA, accélérant l'industrialisation de l'IA agentique pour les entreprises du continent.

OutilsOutil
1 source
OpenAI prépare Hermes pour ChatGPT : Le « tueur d’emplois » ultime ?
639Le Big Data 

OpenAI prépare Hermes pour ChatGPT : Le « tueur d’emplois » ultime ?

OpenAI travaille en secret sur une fonctionnalité majeure pour ChatGPT, baptisée en interne "Hermes". Les premières informations proviennent de captures d'écran issues de tests internes, diffusées le 21 avril 2026 par Tibor Blaho, un leaker reconnu pour la fiabilité de ses révélations sur OpenAI. D'après ces images, Hermes serait une plateforme complète dédiée aux agents IA, intégrant un outil de création appelé "Studio", des modèles de workflows prêts à l'emploi, ainsi qu'un système de planification. Les agents pourraient fonctionner 24h/24 et 7j/7, être déployés dans des services tiers comme Slack, et se voir attribuer des compétences, fichiers, instructions et mémoire persistante. Un utilisateur pourrait, par exemple, confier à un agent la gestion des messages Slack entrants pendant la nuit ou la génération automatique d'un rapport hebdomadaire chaque lundi matin. L'enjeu est considérable pour le marché du travail et l'industrie technologique. Si Hermes tient ses promesses, combiné à Codex, l'outil de génération de code d'OpenAI, il pourrait automatiser une part significative des tâches administratives et répétitives au sein des entreprises. Les postes concernés ne disparaîtraient pas nécessairement du jour au lendemain, mais pourraient se réduire progressivement à des fonctions de supervision, selon les observateurs du secteur. Pour les entreprises, cela représenterait un levier de productivité important. Pour les travailleurs du tertiaire, c'est une pression supplémentaire sur des métiers déjà fragilisés par l'automatisation croissante des processus. Hermes s'inscrit dans une stratégie plus large d'OpenAI visant à transformer ChatGPT en une véritable plateforme d'agents, en capitalisant sur les GPT personnalisés et le générateur de workflows déjà présents. Aucun calendrier officiel ni détail technique n'ont été communiqués par l'entreprise, qui reste délibérément discrète. Selon certains observateurs, ce silence serait lié à des contraintes d'infrastructure : OpenAI voudrait s'assurer de disposer d'une capacité de calcul suffisante avant d'annoncer un lancement et de déclencher une explosion de la demande. En parallèle, d'autres fonctionnalités seraient en développement, dont une personnalisation des images à partir d'une photo de référence dans ImageGen, un "Concours Images 2.0" et un mode "Résumé audio" offrant plusieurs formats allant du podcast radio au briefing exécutif. OpenAI se retrouve en compétition directe avec Google, Microsoft et des acteurs émergents comme Cohere sur le segment des agents d'entreprise, un marché que tous considèrent comme le prochain terrain décisif de l'IA générative.

UESi Hermes est lancé, les travailleurs européens du tertiaire seraient exposés à une automatisation accrue de leurs tâches administratives et répétitives via ChatGPT.

OutilsOutil
1 source
OpenAI lance Euphony : la révolution Codex qui change la lecture des conversations IA
640Le Big Data 

OpenAI lance Euphony : la révolution Codex qui change la lecture des conversations IA

OpenAI a publié le 21 avril 2026 un nouvel outil open-source baptisé Euphony, conçu pour visualiser les données de chat et les journaux de sessions Codex. Concrètement, l'outil permet aux développeurs de coller une URL publique ou d'importer un fichier local, et Euphony convertit automatiquement ces données brutes en une interface de messagerie lisible dans le navigateur. L'outil prend en charge le rendu Markdown complet, y compris les formules mathématiques et les blocs de code, une fonction de traduction intégrée pour les sessions en langue étrangère, ainsi qu'un mode éditeur permettant de modifier directement le texte et les métadonnées sans changer d'environnement. Le filtrage par requêtes JMESPath permet de trier des milliers de conversations selon des critères très précis, tandis qu'un mode Focus masque les appels d'outils techniques pour ne conserver que le dialogue essentiel. Les développeurs peuvent également partager un lien direct vers un message spécifique et annoter les réponses avec des étiquettes colorées personnalisables. Cet outil répond à un problème concret et quotidien pour quiconque travaille avec des LLMs en production : les logs de sessions d'IA sont volumineux, structurés de façon peu intuitive, et difficiles à analyser manuellement. En rendant ces données navigables visuellement, Euphony accélère les cycles d'évaluation et de débogage. La visualisation des jetons Harmony, qui montre comment le modèle segmente chaque mot, apporte une transparence supplémentaire sur le fonctionnement interne du pipeline. Pour les équipes qui construisent ou affinent des agents IA, la possibilité d'annoter, de filtrer et de partager des extraits précis transforme un outil de consultation en véritable tableau de bord d'évaluation collaborative. OpenAI positionne Euphony dans un contexte où Codex, son moteur de génération de code, est de plus en plus utilisé pour des tâches complexes et des sessions longues générant des volumes importants de données conversationnelles. La publication en open-source signale une stratégie d'ouverture vers la communauté développeur, cohérente avec d'autres initiatives récentes de la société visant à rendre l'écosystème Codex plus accessible. En intégrant nativement le contenu système et les métadonnées développeur dans l'interface, l'outil comble un angle mort des environnements de développement actuels, où l'inspection du contexte complet d'une session reste fastidieuse. La prochaine étape logique serait une intégration directe dans les environnements de développement ou les plateformes d'évaluation de modèles, un marché où des acteurs comme LangSmith ou Weights & Biases sont déjà bien établis.

OutilsOutil
1 source
641Import AI 

Import AI 454 : automatiser la recherche sur l'alignement, étude de sécurité d'un modèle chinois, HiFloat4

Des chercheurs de Huawei ont publié une étude démontrant la supériorité de HiFloat4, leur format de précision 4 bits propriétaire, face à MXFP4, le standard ouvert développé par l'Open Compute Project. Les tests ont été conduits sur des puces Ascend de Huawei avec trois architectures de modèles : OpenPangu-1B, Llama3-8B et Qwen3-MoE-30B. Les résultats sont clairs : HiFloat4 atteint une erreur relative d'environ 1,0 % par rapport à une baseline BF16 pleine précision, contre 1,5 % pour MXFP4. Fait notable, cet avantage se creuse à mesure que les modèles grossissent. HiFloat4 n'a besoin que d'une seule technique de stabilisation (RHT) pour atteindre ce niveau, là où MXFP4 exige trois mécanismes combinés. Par ailleurs, des chercheurs du programme Anthropic Fellows ont publié une étude montrant que des agents Claude sont capables d'automatiser la recherche en sécurité IA : ces agents proposent des idées, mènent des expériences et itèrent de façon autonome sur un problème ouvert, en l'occurrence la supervision "weak-to-strong", soit la capacité d'un modèle moins puissant à superviser efficacement un modèle plus capable. Résultat : les agents ont surpassé deux chercheurs humains qui avaient pourtant travaillé sept jours sur le même problème. Ces deux avancées ont des implications concrètes et distinctes. Côté Huawei, disposer d'un format de précision réduite plus efficace signifie tirer davantage de performance des puces Ascend sans augmenter la consommation électrique, un enjeu critique pour l'entraînement et l'inférence à grande échelle. Pour l'industrie, cela confirme qu'une alternative sérieuse aux formats occidentaux existe et peut fonctionner sur un écosystème matériel entièrement indépendant. Côté Anthropic, la démonstration que Claude peut conduire de la recherche en alignement de manière autonome est un signal précoce mais significatif : si des agents IA peuvent progresser sur les problèmes de sécurité plus vite que des humains, cela ouvre la voie à une accélération massive de ce champ de recherche, encore largement sous-doté face à la vitesse de développement des capacités. Le format HiFloat4 s'inscrit dans la continuité de HiFloat8, présenté précédemment, et reflète une tendance de fond chez les acteurs chinois du hardware : face aux restrictions américaines d'exportation qui coupent la Chine de l'accès aux puces Nvidia H100 en volume suffisant, Huawei et ses pairs investissent massivement dans l'optimisation logicielle et les formats de données propriétaires pour compenser ce déficit. C'est une réponse structurelle aux sanctions, pas un simple exercice académique. Du côté d'Anthropic, l'automatisation de la recherche en alignement répond à une urgence : le rythme de progression des capacités des LLMs dépasse celui des travaux de sécurité, et si des agents peuvent combler cet écart, ils pourraient devenir un outil central dans la course à rendre l'IA plus fiable avant qu'elle ne devienne incontrôlable.

UEL'émergence de HiFloat4 comme alternative propriétaire aux formats ouverts (MXFP4) illustre la fragmentation des standards matériels IA, un enjeu stratégique pour les entreprises européennes qui devront naviguer entre écosystèmes incompatibles dans leurs choix d'infrastructure.

RecherchePaper
1 source
L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox
642AI News 

L'Agents SDK d'OpenAI renforce la gouvernance avec l'exécution en sandbox

OpenAI vient d'annoncer de nouvelles fonctionnalités pour son Agents SDK, avec notamment l'introduction de l'exécution en sandbox et d'un environnement d'exécution natif au modèle. Ces ajouts visent à permettre aux équipes de gouvernance en entreprise de déployer des workflows automatisés avec un contrôle accru des risques. Concrètement, le SDK intègre désormais une mémoire configurable, une orchestration adaptée aux environnements sandbox, et des outils de gestion de fichiers similaires à ceux de Codex. Les développeurs peuvent également utiliser des primitives standardisées comme l'appel d'outils via MCP, des instructions personnalisées via un fichier AGENTS.md, et un outil d'application de correctifs pour les modifications de fichiers. Une abstraction baptisée "Manifest" permet de décrire l'espace de travail de manière normalisée, avec la possibilité de connecter directement des environnements à des fournisseurs de stockage majeurs : AWS S3, Azure Blob Storage, Google Cloud Storage et Cloudflare R2. Ces évolutions répondent à un problème concret rencontré lors du passage des prototypes en production : les équipes devaient jusqu'ici choisir entre des frameworks agnostiques offrant de la flexibilité mais ne tirant pas pleinement parti des modèles frontier, ou des SDK propriétaires proches du modèle mais manquant de visibilité sur la couche de contrôle. Le résultat était souvent la construction de connecteurs maison fragiles. Le cas d'Oscar Health illustre bien l'impact potentiel : ce prestataire de santé américain a utilisé le nouveau SDK pour automatiser un workflow de traitement de dossiers cliniques que les approches précédentes ne pouvaient pas gérer de façon fiable. Rachael Burns, Staff Engineer et AI Tech Lead chez Oscar Health, précise que la différence n'était pas seulement d'extraire les bonnes métadonnées, mais de comprendre correctement les limites de chaque consultation au sein de longs dossiers médicaux complexes, permettant ainsi d'accélérer la coordination des soins et d'améliorer l'expérience patient. Ces avancées s'inscrivent dans une tendance plus large : la course à la standardisation des infrastructures pour agents IA en entreprise. OpenAI, face à la concurrence de frameworks comme LangChain, LlamaIndex ou les offres cloud de Google et Microsoft, cherche à imposer son SDK comme la référence native pour les équipes qui utilisent ses modèles. L'introduction du Manifest et de l'exécution en sandbox signale une ambition claire : capter les déploiements en production, segment où les enjeux de sécurité, de traçabilité et de gouvernance sont déterminants. En standardisant la couche d'infrastructure, OpenAI libère les équipes techniques de la maintenance des "plomberies" et les oriente vers la logique métier à valeur ajoutée. La prochaine étape sera de voir dans quelle mesure ces outils s'intègrent avec les systèmes legacy et si l'abstraction Manifest tient ses promesses à grande échelle.

643AWS ML Blog 

Amazon Bedrock AgentCore permet d'intégrer un agent IA de navigation en direct dans une application React

Amazon a lancé le composant BrowserLiveView dans son SDK TypeScript Bedrock AgentCore, permettant aux développeurs d'intégrer un flux vidéo en temps réel d'une session de navigation autonome directement dans leurs applications React. Concrètement, trois lignes de JSX suffisent pour embarquer ce flux live : le composant reçoit une URL présignée SigV4 générée côté serveur, établit une connexion WebSocket persistante, et diffuse la session du navigateur distant via le protocole Amazon DCV. L'architecture repose sur trois couches : le navigateur React de l'utilisateur qui affiche le flux, un serveur applicatif qui orchestre les sessions via l'API Bedrock AgentCore, et l'infrastructure AWS Cloud qui héberge les sessions navigateur isolées. Les sessions peuvent également être enregistrées sur Amazon S3 pour un visionnage différé depuis la console AWS. Cette visibilité en temps réel répond à un problème concret de confiance dans les agents IA autonomes. Lorsqu'un agent navigue sur le web, remplit des formulaires ou traite des données sensibles au nom d'un utilisateur, celui-ci n'a jusqu'ici aucune fenêtre sur ces actions. Avec BrowserLiveView, l'utilisateur suit chaque navigation, chaque soumission de formulaire et chaque interaction au moment où elle se produit, ce qui est nettement plus rassurant que recevoir une simple confirmation textuelle après coup. Pour les workflows supervisés, notamment dans les secteurs régulés comme la finance ou la santé, un superviseur peut observer l'agent en direct et intervenir sans quitter l'application. L'outil répond aussi aux exigences d'audit : la preuve visuelle des actions de l'agent constitue une traçabilité exploitable pour la conformité réglementaire et le débogage. Amazon Bedrock AgentCore s'inscrit dans la stratégie plus large d'AWS pour industrialiser les agents IA fiables en entreprise. La question de la transparence des agents autonomes est devenue centrale alors que les grandes organisations cherchent à déléguer des tâches complexes à des systèmes IA tout en conservant un contrôle humain. Plusieurs acteurs, dont Google avec ses agents Gemini et Microsoft avec Copilot Studio, développent des approches similaires de supervision d'agents web. AWS positionne ici son offre sur la simplicité d'intégration et la sécurité native, avec une authentification déléguée sans infrastructure streaming à maintenir côté développeur. La prochaine étape logique sera l'extension de cette visibilité à d'autres types d'agents au-delà de la navigation web, et probablement des mécanismes d'intervention manuelle directement depuis le flux live pour renforcer encore le contrôle humain dans la boucle.

UELes entreprises françaises et européennes utilisant AWS Bedrock pour des agents autonomes dans des secteurs régulés (finance, santé) disposent d'un mécanisme de traçabilité visuelle directement exploitable pour répondre aux exigences d'audit et de conformité imposées par le droit européen.

OutilsOutil
1 source
AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents
644MarkTechPost 

AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents

Kevin Gu, ingénieur chez thirdlayer.inc, a publié AutoAgent, une bibliothèque open source qui automatise l'optimisation des agents IA. En l'espace de 24 heures d'exécution autonome, le système a atteint la première place sur SpreadsheetBench avec un score de 96,5 %, et la meilleure performance GPT-5 sur TerminalBench avec 55,1 %. Le projet est disponible sur GitHub avec une architecture délibérément minimaliste : un fichier agent.py qui contient l'intégralité du harness sous test, un fichier program.md que l'humain édite pour donner la directive, et un journal d'expériences results.tsv maintenu automatiquement par le méta-agent pour tracer l'historique de chaque run. Le principe est simple mais radical : là où un ingénieur IA passe des journées à ajuster manuellement les prompts système, les définitions d'outils et la logique d'orchestration de son agent, AutoAgent confie cette boucle d'itération à un second agent, le méta-agent, qui lit la directive, inspecte agent.py, exécute le benchmark, analyse les échecs, réécrit les parties pertinentes et recommence. L'humain ne touche jamais agent.py directement. Ce ratchet loop, proposer une modification, mesurer le score, conserver si meilleur, rejeter sinon, est directement inspiré du projet autoresearch d'Andrej Karpathy, qui applique la même logique à l'entraînement de modèles ML. AutoAgent transpose ce mécanisme au niveau du harness : le prompt système, les outils disponibles, le routage entre sous-agents et la stratégie d'orchestration. Concrètement, toute équipe qui développe des agents complexes pourrait déléguer la phase d'optimisation la plus fastidieuse à un processus nocturne entièrement automatisé, réduisant drastiquement le temps humain consacré au réglage fin. Cette publication s'inscrit dans une tendance plus large d'automatisation de l'ingénierie IA elle-même, souvent désignée sous le terme "méta-apprentissage" ou "self-improvement". Depuis que les LLMs ont démontré leur capacité à écrire et modifier du code de manière fiable, plusieurs laboratoires et chercheurs indépendants explorent des architectures où un modèle supervise l'amélioration d'un autre, ou de lui-même. AutoAgent se distingue par sa portée pratique immédiate : il ne requiert pas d'infrastructure exotique, s'appuie sur le format Harbor pour exprimer les benchmarks, et peut être adapté à n'importe quel domaine via les dossiers tasks/ et .agent/. Les résultats sur TerminalBench et SpreadsheetBench, deux benchmarks reconnus dans la communauté, donnent une crédibilité concrète à l'approche. La question ouverte reste celle du contrôle : lorsqu'un méta-agent réécrit librement la logique d'orchestration d'un système en production, les garanties de sécurité et de prévisibilité du comportement final deviennent un enjeu non trivial que la bibliothèque n'adresse pas encore explicitement.

💬 C'est exactement la boucle que tout dev d'agents rêve d'automatiser, et là quelqu'un l'a fait en un seul fichier. Le score sur SpreadsheetBench est bluffant, bon, reste à voir ce que ça donne sur des tâches moins balisées qu'un benchmark. La vraie question, c'est quand le méta-agent commence à réécrire l'orchestration en prod sans que tu comprennes pourquoi ça marche.

OutilsOutil
1 source
Le directeur d'Agentforce quitte Salesforce pour son concurrent Sierra
645The Information AI 

Le directeur d'Agentforce quitte Salesforce pour son concurrent Sierra

Eric Eyken-Sluyters, le cadre de Salesforce responsable d'Agentforce, l'outil d'IA agentique phare de l'entreprise, a quitté le géant du CRM pour rejoindre Sierra, une startup concurrente en pleine ascension. Il y occupera le poste de président des opérations terrain, selon les informations disponibles. Ce départ est significatif car Eyken-Sluyters supervisait directement Agentforce, le produit sur lequel Salesforce mise pour rester compétitif dans la course aux agents IA d'entreprise. Perdre un dirigeant aussi central au profit d'un concurrent direct envoie un signal fort sur les tensions qui traversent le secteur, où les talents spécialisés en IA sont devenus un enjeu stratégique majeur. Sierra a été fondée par Bret Taylor, actuel président du conseil d'administration d'OpenAI et ancien co-PDG de Salesforce lui-même, ce qui rend le mouvement particulièrement symbolique. Taylor connaît intimement les rouages de son ancienne entreprise, et Sierra se positionne directement sur le marché des agents IA conversationnels pour les entreprises, terrain que Salesforce considère comme central à sa stratégie de croissance. Ce recrutement illustre la bataille de plus en plus ouverte entre les acteurs établis et les startups pour capter les profils qui ont construit les produits IA de la génération actuelle.

BusinessOpinion
1 source
Des agents en essaim : présentation d'une approche ludique et rentable
646InfoQ AI 

Des agents en essaim : présentation d'une approche ludique et rentable

Adrian Cockcroft, ancien architecte en chef d'Amazon Web Services et figure reconnue de l'ingénierie cloud, a présenté une conférence intitulée « Diriger un essaim d'agents pour le plaisir et le profit », dans laquelle il expose sa vision de ce qu'il appelle le développement « AI-native ». S'appuyant sur des expériences concrètes menées avec des outils comme Cursor et Claude Flow, il décrit une approche de niveau « directeur » : plutôt que d'écrire du code ligne par ligne, l'ingénieur orchestre des essaims d'agents autonomes qui exécutent les tâches en parallèle. Ses expérimentations couvrent notamment le BDD (développement piloté par le comportement), les serveurs MCP et le portage de code entre langages de programmation. Cette transition du cloud-native vers l'AI-native représente un changement de paradigme majeur pour l'industrie du logiciel. Elle implique que la valeur ajoutée de l'ingénieur se déplace de l'écriture du code vers la conception de plateformes capables de coordonner des agents IA. Pour les équipes de développement, cela signifie repenser les workflows, les outils de revue et la façon dont on mesure la productivité. Cockcroft est l'une des voix les plus influentes à théoriser ce basculement, après avoir contribué à populariser les microservices et l'architecture cloud à grande échelle chez Netflix puis AWS. L'émergence d'outils comme Claude Flow ou les serveurs MCP d'Anthropic crée l'infrastructure nécessaire à cette orchestration multi-agents. La question qui s'ouvre désormais est de savoir quelles compétences humaines resteront irremplaçables dans un pipeline où les agents gèrent l'essentiel de l'exécution technique.

OutilsOutil
1 source
La gouvernance peut-elle suivre vos ambitions en IA ? Gestion du risque à l'ère des agents autonomes
647AWS ML Blog 

La gouvernance peut-elle suivre vos ambitions en IA ? Gestion du risque à l'ère des agents autonomes

L'ère de l'IA agentique bouleverse les fondements de la gouvernance informatique traditionnelle. Là où les systèmes DevOps classiques produisaient des résultats déterministes — même entrée, même sortie, dépendances connues — les agents IA opèrent de façon non déterministe : posez la même question deux fois, vous obtenez deux réponses différentes. Ces agents sélectionnent eux-mêmes leurs outils, adaptent leurs raisonnements et agissent de manière autonome. Face à ce constat, AWS Generative AI Innovation Center a développé une solution appelée AI Risk Intelligence (AIRI), un système de gouvernance automatisée qui centralise les évaluations de sécurité, d'opérations et de conformité en un seul tableau de bord couvrant l'ensemble du cycle de vie agentique. La solution s'appuie sur le cadre AWS Responsible AI Best Practices, construit à partir de l'expérience acquise sur des centaines de milliers de déploiements IA. L'enjeu est concret : les cadres de gouvernance IT conçus pour des déploiements statiques sont incapables de gérer les interactions complexes des systèmes multi-agents. Un scénario illustratif le démontre clairement — et figure dans le Top 10 OWASP des vulnérabilités agentiques pour 2026. Un assistant IA d'entreprise, légitimement autorisé à accéder aux e-mails, au calendrier et au CRM, reçoit via un e-mail des instructions malveillantes dissimulées. Lorsqu'un utilisateur demande un résumé anodin, l'agent compromis suit ces directives cachées : il fouille des données sensibles et les exfiltre via des invitations calendrier, tout en affichant une réponse bénigne. Les outils classiques de prévention des fuites de données et de surveillance réseau ne détectent rien — car l'agent agit dans le strict périmètre de ses permissions légitimes. La violation est invisible aux yeux des systèmes traditionnels. Ce cas révèle la nature systémique du risque agentique : une faille de sécurité se propage simultanément à travers plusieurs dimensions. L'action d'un agent en déclenche d'autres, les contrôles d'accès ne sont pas réévalués en continu pendant l'exécution, aucun point de contrôle humain ne s'interpose avant une action à haut risque, et les responsables de la conformité ne peuvent pas interpréter les données de monitoring pour détecter l'anomalie à temps. C'est pourquoi AIRI entend fusionner sécurité, opérations et gouvernance en un dispositif intégré plutôt qu'en silos séparés. Dans un contexte où les entreprises accélèrent leurs déploiements d'agents autonomes — pour automatiser des workflows, piloter des décisions, interagir avec des systèmes critiques — la question n'est plus seulement de savoir si l'IA fonctionne, mais si l'organisation peut réellement maîtriser ce qu'elle fait.

UELes entreprises européennes déployant des agents IA autonomes doivent adapter leurs cadres de gouvernance pour satisfaire aux exigences de l'AI Act, notamment en matière de supervision humaine, de traçabilité et de contrôle continu des systèmes à haut risque.

SécuritéActu
1 source
648ZDNET FR 

Chainguard met tout en œuvre pour rétablir la confiance dans les logiciels développés par l'IA – voici comment

Chainguard élargit son périmètre de sécurité au-delà de l'open source traditionnel pour couvrir les logiciels open-core, les compétences des agents IA et les GitHub Actions. L'entreprise cherche à restaurer la confiance dans les logiciels générés par l'IA, un enjeu critique alors que les chaînes d'approvisionnement logicielles deviennent de plus en plus automatisées. Cette extension reflète la montée en puissance des risques liés aux workflows CI/CD et aux agents IA dans les environnements de développement modernes.

UELes entreprises européennes utilisant des pipelines CI/CD et des agents IA sont concernées par ces risques de sécurité dans la chaîne d'approvisionnement logicielle.

OutilsActu
1 source
La forme des choses
649One Useful Thing 

La forme des choses

En octobre 2023, le chercheur Ethan Mollick spéculait sur la forme que prendrait l'intelligence artificielle dans les années à venir. Depuis fin 2025, cette forme est devenue nettement visible : nous sommes entrés dans une nouvelle ère, celle des agents IA autonomes. Des systèmes comme Claude Code, Codex d'OpenAI ou OpenClaw permettent désormais de confier à une IA plusieurs heures de travail humain et d'en recevoir des résultats utiles en quelques minutes. Ce n'est plus de la co-intelligence — où l'humain guide l'IA pas à pas — mais bien une relation de management : on délègue, on supervise, on récupère. Ce changement de paradigme découle directement de l'amélioration exponentielle des capacités des modèles sur les dernières années. Pour illustrer cette progression, Mollick s'appuie sur plusieurs benchmarks majeurs. Le Google-Proof Q&A — test de connaissance où des étudiants en doctorat utilisant Google n'atteignent que 34 % hors de leur domaine et 70 % dedans — est désormais résolu à 94 % par les meilleurs modèles. Sur GDPval, qui mesure les performances de l'IA face à des experts humains expérimentés sur des tâches complexes, les derniers systèmes égalent ou dépassent les humains les plus performants dans 82 % des cas. Le benchmark METR Long Tasks, qui évalue la capacité d'une IA à accomplir de manière autonome et fiable du travail humain, affiche la même courbe ascendante. Même chose pour Humanity's Last Exam, conçu par des professeurs d'université pour résister aux systèmes automatisés. La génération vidéo suit le même chemin : un modèle de ByteDance, encore non disponible aux États-Unis, a produit en une seule passe un mini-documentaire quasi parfait sur des loutres, avec expressions faciales animées et narration cohérente. Ces avancées s'inscrivent dans une dynamique plus large qui redéfinit la relation entre l'humain et la machine. Depuis le lancement de ChatGPT en 2022, la progression a été rapide et continue, sans signe de ralentissement visible avant que les modèles n'atteignent le plafond des tests. Mollick reconnaît que l'IA reste « irrégulière » — excellente sur certaines tâches, défaillante sur d'autres — et que malgré ces capacités impressionnantes, la majorité des organisations n'a pas encore substantiellement changé ses pratiques. Mais ce statu quo ne devrait pas durer : à mesure que les agents autonomes deviennent plus fiables et accessibles, la pression sur les entreprises pour adapter leurs modèles de travail va s'intensifier. La question n'est plus de savoir si l'IA peut accomplir des tâches complexes, mais à quelle vitesse les organisations sauront s'en saisir.

LLMsPaper
1 source
Le Téléchargement : Le rôle de l'IA dans la guerre en Iran et un conflit juridique en escalade
650MIT Technology Review 

Le Téléchargement : Le rôle de l'IA dans la guerre en Iran et un conflit juridique en escalade

Anthropic a poursuivi le gouvernement américain pour empêcher le Pentagone de la blacklister, tandis que la Maison-Blanche prépare un décret pour exclure ses technologies — une décision qui a suscité le soutien de Google, OpenAI et de nombreux experts. Par ailleurs, l'IA joue un rôle croissant dans le conflit en Iran, notamment via des tableaux de bord de renseignement "vibe-codés" qui médiatisent l'information en temps de guerre, souvent de manière problématique. Enfin, Nvidia prévoit de lancer une plateforme open-source pour agents IA baptisée "NemoClaw", et la startup d'IA de Yann LeCun a levé plus d'1 milliard de dollars lors du plus grand tour de table seed d'Europe.

UELa startup d'IA de Yann LeCun, figure française de l'IA mondiale, a réalisé le plus grand tour de table seed d'Europe avec plus d'un milliard de dollars levés, signalant une dynamique d'investissement historique dans l'écosystème européen de l'IA.

RégulationActu
1 source