Aller au contenu principal

Dossier Agents IA — page 14

1550 articles · page 14 sur 31

Les agents IA : déploiements en production, écart pilote/prod, débat sur la confiance, agent debt et négociations automatisées.

Hermes Agent ajoute des sous-agents asynchrones : les tâches déléguées ne bloquent plus le chat principal
651MarkTechPost OutilsOutil

Hermes Agent ajoute des sous-agents asynchrones : les tâches déléguées ne bloquent plus le chat principal

Nous Research a publié une mise à jour majeure pour Hermes Agent, son agent personnel open-source : l'outil de délégation delegatetask supporte désormais les sous-agents asynchrones. Annoncé le 15 juin 2026 sur X par le co-fondateur Teknium, ce changement transforme en profondeur la façon dont un agent parent peut distribuer du travail à des agents enfants. Auparavant, lancer un sous-agent gelait entièrement la conversation principale jusqu'à la fin de l'exécution. Désormais, delegatetaskasync retourne immédiatement un identifiant de tâche (taskid) et laisse le chat libre. Les utilisateurs existants accèdent à la fonctionnalité via une simple commande hermes update. Ce déblocage ouvre des workflows qui étaient structurellement impossibles avant. Un utilisateur peut désormais lancer une tâche longue, une recherche web, une correction de build, une analyse de code, et continuer à interagir avec l'agent principal pendant ce temps. Cinq nouveaux outils couvrent l'intégralité du cycle de vie asynchrone : checktask pour consulter l'état en temps réel, steertask pour injecter des instructions dans un agent en cours d'exécution, collecttask pour récupérer le résultat final, canceltask pour interrompre, et list_tasks pour visualiser toutes les tâches actives. L'isolation reste stricte : chaque sous-agent démarre avec une conversation vierge, son propre terminal et son propre ensemble d'outils. Seul le résumé final remonte au parent, ce qui maintient la fenêtre de contexte de ce dernier compacte. Les agents tournent en threads in-process et héritent de la configuration du parent, y compris le pool de clés API avec rotation automatique en cas de rate limit. Hermes Agent s'inscrit dans une tendance plus large où les frameworks d'agents IA cherchent à rendre l'orchestration multi-agents aussi naturelle que la programmation concurrente classique. La contrainte du blocage synchrone était un frein réel à l'adoption pour les tâches longues, forçant les utilisateurs à attendre passivement des processus pouvant durer plusieurs minutes. Cette évolution a été développée ouvertement sur GitHub (issue #5586), et Nous Research travaille en parallèle sur un protocole plus ambitieux, ACP (issue #4949), qui viserait la persistance des tâches entre sessions, là où les sous-agents asynchrones actuels restent limités à une seule session. La concurrence entre sous-agents reste plafonnée à trois par défaut via le paramètre delegation.maxconcurrentchildren, un levier configurable selon les besoins et les contraintes des API utilisées.

1 source
Pourquoi l'IA qui fonctionne en laboratoire échoue souvent en production, et comment y remédier
652VentureBeat AI 

Pourquoi l'IA qui fonctionne en laboratoire échoue souvent en production, et comment y remédier

La majorité des entreprises ne manquent pas d'ambition pour expérimenter l'intelligence artificielle, elles échouent à la faire fonctionner en conditions réelles. C'est le constat que dresse un responsable de l'organisation AI Foundations de Capital One, la grande banque américaine, dans une tribune publiée mi-2026. Selon lui, la vraie rupture ne se situe pas dans l'adoption des derniers modèles, mais dans le passage du prototype prometteur au système fiable à l'échelle de production. Les environnements d'entreprise restent complexes, fragmentés et averse au risque, ce qui suffit à faire dérailler la plupart des initiatives dès qu'elles quittent le laboratoire. La réponse de Capital One passe par une intégration délibérée de la recherche fondamentale et du développement appliqué au sein d'une même organisation. Plutôt que de laisser la recherche académique déconnectée des contraintes opérationnelles, latence réelle, données de production, besoins métier concrets, la banque impose une boucle de feedback permanente entre chercheurs et équipes terrain. Cette approche a notamment permis de combiner des architectures multi-agents pour que des agents IA spécialisés coordonnent des tâches distinctes en parallèle, comme analyser le contexte client et préparer de la documentation simultanément. Le résultat concret : Chat Concierge, un service d'achat automobile qui ne se contente pas de répondre à des questions mais prend des actions au nom du client, simulant un raisonnement humain. La banque cite également des avancées en détection de fraude, personnalisation et expériences digitales. Sur le plan méthodologique, l'article distingue trois étapes que les organisations doivent traiter comme de véritables filtres, non comme des formalités. Une preuve de concept doit produire un signal objectif mesurable, pas une présentation de ce qu'on "pourrait" faire. Un pilote dont l'échec est impossible n'est pas un pilote : il doit élargir le périmètre et tester si la solution aide réellement un humain à travailler mieux. Enfin, la mise en production est décrite comme un sport collectif qui dépasse la seule résolution du problème algorithmique. Ce cadre, défendu par Capital One dans un contexte de forte pression à montrer des retours sur investissement concrets en IA, reflète une tendance plus large dans l'industrie financière : après des années d'expérimentation, les grandes institutions cherchent à industrialiser leurs capacités IA en posant des processus de validation rigoureux plutôt qu'en multipliant les démos spectaculaires.

OutilsOpinion
1 source
Cinq choses à savoir sur l'IA
653MIT Technology Review 

Cinq choses à savoir sur l'IA

Lors d'une conférence donnée à SXSW London début juin 2026, la journaliste tech Melissa Heikkilä a présenté ce qu'elle considère comme les cinq grandes tendances de l'IA en ce milieu d'année. Premier constat: les outils d'IA générative sont devenus banals, utilisés quotidiennement par des millions de personnes pour automatiser des tâches de bureau. Pourtant, malgré le discours des dirigeants sur l'imminence d'une IA intégrée dans la main-d'oeuvre, quasiment aucune donnée solide ne permet de mesurer l'impact réel sur l'emploi. L'hypothèse circule que des équipes d'agents IA travaillant de concert pourraient constituer des chaînes de montage pour les cols blancs, reproduisant ce que les innovations d'Henry Ford ont fait aux usines au XXe siècle, mais la plupart des entreprises tâtonnent encore pour comprendre ce que cela signifie concrètement pour leur organisation. Ce qui est en revanche mesurable, c'est la matérialisation des risques concrets de l'IA. Les deepfakes, longtemps dépeints comme une menace théorique, ont servi à inciter à la violence, à influencer des votes et à éroder la confiance publique. Une étude révèle que 98 % des deepfakes sont pornographiques, et 99 % d'entre eux mettent en scène des femmes. La Maison Blanche de Trump fait partie des acteurs ayant publié de fausses images générées par IA. Côté chatbots, plusieurs procès sont en cours contre des entreprises d'IA, leurs plaignants accusant ces technologies d'avoir encouragé ou facilité des suicides et des actes d'automutilation. Sur le front militaire, un responsable américain de la défense a confirmé qu'il est désormais possible de soumettre une liste de cibles à un chatbot militaire et de lui demander laquelle frapper en premier, ce qui fait peser un risque élevé d'erreur dans des contextes de conflit à haute pression. Ces évolutions alimentent une hostilité croissante envers l'IA, qui prend des formes de plus en plus organisées. À Londres, des manifestations réunissent un spectre large de mécontents: militants anticapitalistes, fans de jeux vidéo opposés à l'utilisation de l'IA dans leurs titres préférés, et riverains protestant contre l'expansion des centres de données. L'affaire Clair Obscur, jeu salué en 2025 et dépouillé d'un prix après que ses développeurs ont admis un usage même marginal de l'IA dans sa production, illustre la sensibilité du public. Ces tensions s'inscrivent dans un débat plus large sur la gouvernance de l'IA, alors que l'industrie avance à toute vitesse et que les régulateurs, les institutions et les citoyens peinent à suivre le rythme des transformations en cours.

UELes manifestations organisées à Londres contre l'IA et la controverse Clair Obscur illustrent une résistance citoyenne européenne croissante susceptible d'alimenter les débats autour de l'AI Act et de la réglementation des deepfakes.

SociétéActu
1 source
Comment booster l’engagement grâce à l’agent IA d’assistance client du Marketing Hub de HubSpot ?
654Le Big Data 

Comment booster l’engagement grâce à l’agent IA d’assistance client du Marketing Hub de HubSpot ?

HubSpot a intégré dans son Marketing Hub un agent conversationnel baptisé Breeze Customer Agent, disponible pour les abonnés aux niveaux Professional et Enterprise de l'ensemble de ses hubs. Cet outil s'appuie sur les données centralisées du CRM pour répondre aux visiteurs en temps réel, qualifier des leads et résoudre des problèmes courants, vingt-quatre heures sur vingt-quatre. Les chiffres publiés par HubSpot sont frappants : l'agent prend en charge 91 % des sessions de chat, résout 75 % des interactions sans intervention humaine, et réduit de 40 % le temps moyen de traitement des tickets d'assistance. En un an, sa capacité à clore des dossiers complexes de façon autonome est passée de 20 % à 70 %, selon les analyses internes de l'entreprise. Contrairement à un chatbot à scénario fixe, Breeze apprend en continu à partir de la base de connaissances, des articles d'aide, des pages web et des PDF fournis par l'entreprise. Il peut également exécuter des actions concrètes comme vérifier un statut de commande ou réinitialiser un mot de passe. L'impact opérationnel se traduit directement sur les équipes : les conseillers humains se trouvent dégagés des requêtes répétitives ou à faible valeur ajoutée, et peuvent concentrer leur expertise sur les dossiers complexes nécessitant de l'empathie ou de la négociation. Pour les directions marketing et commerciales, l'enjeu va au-delà du simple désengorgement des files d'attente. Les prospects qualifiés par l'agent au fil des échanges affichent un taux de conversion final trois fois supérieur à celui des formulaires issus de la recherche organique classique, ce qui transforme chaque interaction de support en opportunité commerciale mesurable. Déployé sur des pages d'atterrissage ou un blog, l'agent oriente les visiteurs vers des contenus pertinents, valide des inscriptions à des webinaires et convertit du trafic anonyme en contacts identifiés et scorés dans le CRM. Ce lancement s'inscrit dans une vague d'intégration des agents IA dans les plateformes CRM et marketing, où Salesforce, Zendesk et Intercom se livrent une concurrence serrée sur le terrain de l'automatisation du service client. HubSpot mise sur son avantage de données unifiées : en connectant l'agent directement au CRM, il élimine la friction habituelle entre les outils de support et les outils de vente. La progression spectaculaire du taux de résolution autonome en douze mois illustre aussi la maturité croissante des grands modèles de langage appliqués à des contextes métier précis. La prochaine étape logique pour HubSpot serait d'étendre les capacités d'action de l'agent, au-delà des réinitialisations de mot de passe, vers des workflows transactionnels plus complexes comme la gestion de renouvellements ou la personnalisation d'offres en temps réel.

UELes entreprises européennes abonnées à HubSpot Marketing Hub Professional ou Enterprise peuvent déployer cet agent pour automatiser leur service client et améliorer la qualification de leads sans intégration tierce.

OutilsOutil
1 source
ChatGPT se verrouille contre les cyberattaques : ce nouveau mode va mieux protéger vos données, comment l’activer ?
65501net 

ChatGPT se verrouille contre les cyberattaques : ce nouveau mode va mieux protéger vos données, comment l’activer ?

OpenAI a déployé une nouvelle fonctionnalité de sécurité baptisée "Lockdown Mode" pour ChatGPT, disponible sur l'ensemble des abonnements, du niveau gratuit jusqu'aux offres payantes. Ce mode verrouillé désactive délibérément plusieurs capacités natives du chatbot, notamment la navigation web en temps réel, afin de réduire la surface d'attaque exposée aux cybermenaces. L'activation se fait en quelques clics depuis les paramètres de l'application, sans nécessiter de configuration technique avancée. La cible principale de cette fonctionnalité est le monde professionnel : avocats, consultants, journalistes ou tout employé amené à traiter des informations sensibles ou confidentielles via ChatGPT. Le mode répond spécifiquement aux attaques par injection de requêtes, une technique où du contenu malveillant intégré dans un document ou une page web tente de détourner les instructions données au modèle pour exfiltrer des données ou manipuler les réponses. En coupant l'accès aux sources externes, OpenAI supprime le vecteur d'attaque le plus courant. Les attaques par prompt injection ont fortement progressé depuis la démocratisation des agents IA capables de naviguer sur le web et d'exécuter des actions autonomes, poussant plusieurs chercheurs en sécurité à alerter les éditeurs. OpenAI s'inscrit ainsi dans une tendance plus large du secteur, après que Microsoft et Anthropic ont également renforcé les garde-fous de leurs propres assistants. Le Lockdown Mode représente un compromis assumé entre sécurité et fonctionnalité, laissant à l'utilisateur le choix du niveau de protection selon son contexte d'usage.

UELes professionnels français (avocats, journalistes, consultants) manipulant des données sensibles via ChatGPT peuvent désormais activer ce mode pour réduire leur exposition aux attaques par injection de requêtes.

SécuritéActu
1 source
Configurer un flux de code d'autorisation sécurisé avec AgentCore Gateway et des clients MCP
656AWS ML Blog 

Configurer un flux de code d'autorisation sécurisé avec AgentCore Gateway et des clients MCP

Amazon vient de détailler comment sécuriser les échanges entre les assistants de développement basés sur l'IA et les serveurs d'outils d'entreprise, à travers une configuration OAuth reposant sur son service Amazon Bedrock AgentCore. Le composant central de cette architecture est l'AgentCore Gateway, un point d'entrée géré qui centralise le routage et la sécurisation des communications entre agents IA et serveurs MCP (Model Context Protocol). La démonstration s'appuie sur Kiro, l'environnement de développement intégré d'Amazon orienté IA, qui joue le rôle de client OAuth. Côté fournisseur d'identité, l'exemple utilise Amazon Cognito, mais le schéma s'applique à tout IdP compatible, Okta, Microsoft Entra ID, ou tout autre système émettant des jetons de sécurité standards. Le flux fonctionne en plusieurs étapes : Kiro tente de se connecter au point d'accès MCP de la Gateway, reçoit un challenge HTTP 401 accompagné d'un en-tête pointant vers les métadonnées OAuth de la ressource protégée, puis récupère auprès de l'IdP un jeton d'identité valide avant que la requête ne soit enfin autorisée et transmise au serveur MCP sous-jacent. L'enjeu est concret : dans les environnements professionnels, les équipes cherchent à exposer des outils internes (bases de données, API métier, services cloud) à leurs assistants IA, sans sacrifier le contrôle d'accès. Sans mécanisme d'authentification robuste, n'importe quel agent pourrait interroger ces serveurs MCP sans vérification d'identité. Avec ce schéma, chaque requête émise par un assistant IA est associée à l'identité réelle de l'utilisateur qui a lancé la session, ce qui permet d'appliquer des politiques d'accès fines et d'auditer précisément qui a accédé à quoi. Pour les équipes de sécurité, c'est un changement de paradigme : l'IA cesse d'être un trou dans le périmètre de sécurité et devient un canal traçable comme n'importe quel autre. Ce tutoriel s'inscrit dans un mouvement plus large autour du protocole MCP, standardisé par Anthropic fin 2024 et rapidement adopté par l'ensemble de l'industrie comme lingua franca entre les agents IA et leurs outils. Amazon Bedrock AgentCore, lancé récemment, positionne AWS comme infrastructure d'hébergement de référence pour les agents en production, en ajoutant gestion du cycle de vie, monitoring et sécurité d'entreprise par-dessus les serveurs MCP. L'introduction d'un proxy OAuth optionnel dans l'architecture illustre la fragmentation encore existante entre les clients IA, les IdPs et les serveurs MCP : les standards évoluent vite, mais les implémentations concrètes nécessitent encore des couches d'adaptation. La prochaine étape probable est une intégration native de ces flux d'authentification directement dans les spécifications MCP, réduisant le besoin de proxies intermédiaires.

OutilsTuto
1 source
Amazon Bedrock AgentCore Identity permet désormais de référencer ses propres secrets AWS Secrets Manager
657AWS ML Blog 

Amazon Bedrock AgentCore Identity permet désormais de référencer ses propres secrets AWS Secrets Manager

Amazon a annoncé une nouvelle fonctionnalité pour Amazon Bedrock AgentCore Identity qui permet désormais aux développeurs de référencer leurs propres secrets AWS Secrets Manager existants, plutôt que de laisser le service en créer automatiquement de nouveaux. Jusqu'à présent, AgentCore Identity gérait de façon autonome un coffre-fort de jetons qui créait et administrait un secret dans Secrets Manager pour chaque fournisseur d'identité externe configuré. Cette approche fonctionnait, mais elle privait les équipes de toute maîtrise sur la configuration de ces secrets : impossible d'y apposer des tags personnalisés, d'imposer une politique de rotation, ou d'appliquer un chiffrement via une clé KMS gérée par le client. La nouvelle capacité, disponible dès aujourd'hui, lève ces contraintes en permettant de fournir directement l'ARN d'un secret préconfiguré à la ressource de fournisseur d'identité. Concrètement, les organisations conservent désormais un contrôle total sur le cycle de vie de leurs secrets d'API utilisés par leurs agents IA : chiffrement avec une clé KMS maison, politique de rotation automatique, réplication, tags pour l'allocation des coûts ou la conformité, et politiques de ressources IAM granulaires. Quand la valeur d'un secret est mise à jour suite à une rotation, AgentCore Identity récupère automatiquement la nouvelle valeur à la prochaine lecture, sans qu'il soit nécessaire de recréer ou de modifier la configuration du fournisseur de credentials. Il est également possible de référencer un secret hébergé dans un autre compte AWS, dans la même région, et les secrets importés via des connecteurs externes Secrets Manager permettent l'intégration avec des gestionnaires de secrets tiers comme HashiCorp Vault. Cette annonce s'inscrit dans une tendance plus large : la montée en puissance des agents IA en production dans les entreprises, qui soulève des exigences de sécurité et de gouvernance de plus en plus strictes. Les équipes cloud des grandes organisations opèrent souvent dans des environnements régulés, avec des politiques SCP et RCP imposant un chiffrement obligatoire par clés gérées par le client, ou des audits de conformité exigeant une traçabilité précise par tags. En permettant à AgentCore de s'insérer dans les workflows de gestion des secrets déjà en place, AWS répond directement à ces contraintes sans obliger les entreprises à dupliquer leur infrastructure ou à contourner leurs propres politiques de sécurité. La prochaine étape naturelle sera probablement l'extension à des secrets cross-région, aujourd'hui encore absente.

UELes entreprises européennes opérant dans des secteurs régulés (finance, santé) pourront intégrer AgentCore dans leurs workflows de gestion des secrets conformes au RGPD et aux exigences de chiffrement imposées par leurs politiques internes ou réglementaires.

OutilsActu
1 source
Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP
658AWS ML Blog 

Amazon Bedrock AgentCore Gateway étend sa prise en charge du protocole MCP

Amazon a annoncé cette semaine une extension significative des capacités d'AgentCore Gateway, son service de passerelle centralisée pour le protocole MCP (Model Context Protocol) au sein d'Amazon Bedrock. Les nouvelles fonctionnalités couvrent notamment la prise en charge étendue des schémas d'outils MCP, l'intégration des primitives MCP prompts et ressources, la découverte dynamique de serveurs MCP à l'exécution, la gestion de sessions pour les interactions temps réel, un mécanisme d'élicitation permettant des demandes d'entrée en cours d'exécution, et un échange de jetons OAuth 2.0 pour l'authentification déléguée. Ces ajouts s'appliquent à un service qui sert déjà de point d'entrée unique entre les serveurs MCP d'une organisation et les clients qui les consomment, en centralisant la gestion des identifiants, l'observabilité et la connectivité sécurisée. L'enjeu est directement opérationnel pour les équipes engineering en entreprise. Sans passerelle centralisée, chaque serveur MCP déployé, qu'il gère les contrats pour l'équipe juridique, les données financières ou les incidents opérationnels, doit gérer indépendamment ses propres mécanismes d'authentification, de contrôle d'accès et de journalisation. Cela multiplie les délais d'approbation, fragmente la visibilité sur l'usage des outils et oblige les équipes sécurité à auditer chaque serveur séparément. AgentCore Gateway réduit ce fardeau en laissant chaque équipe se concentrer sur la logique métier de son serveur MCP, tandis que la passerelle prend en charge tout le reste : agrégation des capacités, politiques d'accès basées sur les ressources, isolation réseau via AWS PrivateLink, logs d'audit centralisés, et guardrails déterministes via AgentCore Policy. MCP, le protocole lancé par Anthropic fin 2024 pour standardiser la façon dont les agents IA interagissent avec des outils et services externes, a rapidement été adopté par les grands acteurs du cloud, dont AWS, Microsoft et Google. Amazon intègre AgentCore Gateway dans son écosystème Bedrock, qui concurrence directement Azure AI et Google Cloud Vertex AI dans la course aux infrastructures d'agents IA en entreprise. La montée en puissance des architectures multi-agents, où plusieurs modèles coopèrent en orchestrant des dizaines d'outils, rend ce type de couche de gouvernance centrale de plus en plus stratégique. Les prochaines étapes probables incluent une intégration plus poussée avec les outils d'identité AWS IAM et une extension du support aux agents tiers via les flux OAuth 2.0 maintenant disponibles dans la passerelle.

InfrastructureOpinion
1 source
Memory OS : une architecture mémoire open source à 6 couches pour agents Hermes
659MarkTechPost 

Memory OS : une architecture mémoire open source à 6 couches pour agents Hermes

Un développeur de la communauté open-source, ClaudioDrews, vient de publier Memory OS, une bibliothèque sous licence MIT qui superpose six couches de mémoire à Hermes Agent, l'agent conversationnel de Nous Research. Là où Hermes propose déjà des fichiers de workspace et une base de données de sessions avec recherche plein texte, Memory OS y ajoute une base vectorielle Qdrant, des faits structurés avec scoring de confiance, un wiki de concepts auto-curé, et un système de rappel chirurgical à chaque appel LLM. L'ensemble tourne en local via Docker, Qdrant, Redis et Python 3.11+, et fonctionne avec n'importe quel fournisseur LLM supporté par Hermes : OpenRouter, OpenAI, Anthropic ou Ollama. Les six couches vont du simple fichier MEMORY.md injecté dans le prompt système (couche 1) jusqu'à un wiki LLM continuellement réingéré dans Qdrant (couche 6), en passant par une base SQLite avec FTS5, des vecteurs Cosine en 4096 dimensions combinés à une recherche BM25, et une version fortement remaniée du plugin Icarus gérant le rappel inter-sessions via 16 outils dédiés. L'intérêt concret de cette architecture réside dans son mécanisme de récupération : à chaque appel LLM, le système interroge simultanément quatre sources (Fabric, Qdrant, Sessions, Facts), filtre les résultats par seuil de pertinence, déduplique par session et ignore les messages triviaux. En sortie de session, il extrait et capitalise automatiquement les nouveaux apprentissages. Un scanner hebdomadaire fait vieillir les entrées obsolètes, et une déduplication sémantique fusionne les souvenirs quasi-identiques dès que la similarité cosinus dépasse 0,92. L'objectif affiché est l'efficacité en tokens : ne charger dans le contexte que ce qui est réellement utile, pas saturer la fenêtre. Pour les équipes soumises à des règles de résidence des données, le fait que rien ne quitte la machine locale représente un avantage réel que les services cloud comme mem0, Zep ou Letta ne peuvent pas offrir. Memory OS s'inscrit dans un débat plus large sur la mémoire des agents IA : jusqu'où peut-on aller avec une mémoire embarquée dans l'agent lui-même, sans passer par une infrastructure cloud payante ? Hermes Agent propose déjà huit fournisseurs de mémoire externes officiels, dont mem0 et Honcho, mais Memory OS n'en fait pas partie, c'est une surcouche communautaire indépendante, ce qui dit quelque chose sur l'appétit des développeurs pour des solutions souveraines. Le projet est récent et sa maturité reste à prouver à l'usage, mais son architecture en cascade de fallback (hybride, puis vectoriel dense, puis lexical, puis SQLite) montre une réflexion sérieuse sur la robustesse. Si l'adoption suit, ce type de stack mémoire locale pourrait devenir un modèle de référence pour les agents à usage intensif en entreprise.

UEL'architecture 100 % locale de Memory OS répond directement aux exigences de résidence des données imposées par le RGPD, offrant aux entreprises européennes une alternative souveraine aux services mémoire cloud pour leurs agents IA.

OutilsOutil
1 source
☕️ Brûler des tokens n’est pas travailler : Amazon ferme son classement IA interne
660Next INpact 

☕️ Brûler des tokens n’est pas travailler : Amazon ferme son classement IA interne

Amazon a mis fin à Kirorank, un classement interne qui mesurait la quantité de tokens consommés par ses employés sur Kiro, sa plateforme de développement assisté par intelligence artificielle. Conçu pour encourager l'adoption de l'IA, ce tableau de bord attribuait des scores en fonction du volume d'utilisation de l'outil, poussant les mieux classés vers le haut au fur et à mesure qu'ils généraient davantage d'interactions avec le modèle. Dave Treadwell, vice-président d'Amazon, a reconnu dans un mémo interne relayé par le Financial Times que le classement avait été créé avec de « bonnes intentions », avant d'inviter ses équipes à ne pas « utiliser l'IA simplement pour utiliser l'IA ». L'outil, décrit par Amazon comme un tableau de bord bêta non officiel, a depuis été abandonné. L'entreprise indique vouloir désormais suivre des indicateurs plus qualitatifs, comme les « déploiements normalisés », qui mesurent si le code produit grâce à l'IA est réellement utile et mis en production. Le problème est apparu rapidement : pour grimper dans le classement, certains employés avaient commencé à lancer des agents IA en boucle sur des tâches sans valeur ajoutée, une pratique baptisée « tokenmaxxing ». Cette optimisation artificielle des scores génère une consommation de ressources de calcul réelle, donc des coûts réels. À l'échelle d'une entreprise de la taille d'Amazon, où des milliers de développeurs sont concernés, la facture peut devenir significative. Le phénomène illustre un problème classique de management par les métriques : dès qu'un indicateur devient un objectif, il cesse de mesurer ce qu'il était censé mesurer. En l'occurrence, le volume de tokens ne dit rien de la qualité du travail produit, et peut même devenir contra-productif s'il incite à générer de l'activité artificielle plutôt qu'à résoudre de vrais problèmes. Amazon reste néanmoins sous pression pour accélérer l'intégration de l'IA dans ses processus internes. L'entreprise s'est fixé un objectif ambitieux : que 80 % de ses développeurs utilisent ces outils chaque semaine. Ce contexte d'adoption forcée, combiné à des investissements colossaux, dont 200 milliards de dollars consacrés aux infrastructures pour la seule année 2026, crée une tension entre la volonté d'afficher des chiffres d'adoption élevés et la nécessité de s'assurer que ces usages créent de la valeur concrète. L'épisode Kirorank rappelle que déployer l'IA en entreprise ne se résume pas à compter des tokens ou des utilisateurs actifs, mais exige de repenser entièrement la façon dont on mesure la productivité à l'ère des modèles de langage.

BusinessOpinion
1 source
LangSmith sur AWS pour évaluer les agents LLM avancés
661AWS ML Blog 

LangSmith sur AWS pour évaluer les agents LLM avancés

AWS et LangChain ont publié conjointement un guide pratique sur l'évaluation des agents IA complexes en production, en s'appuyant sur l'outil LangSmith déployé sur l'infrastructure AWS. Co-rédigé par Karan Singh, directeur des partenariats chez LangChain, ce guide combine les travaux de LangChain et le guide publié par Anthropic sur la démystification des évaluations d'agents. Il présente cinq patterns d'évaluation, une méthode pour construire des tests hors ligne via pytest et LangSmith, ainsi qu'une configuration de monitoring en production. Le cas d'usage central est un agent "texte vers SQL" fonctionnant sur Amazon Bedrock, utilisant le modèle Amazon Nova 2 Lite, un modèle de raisonnement rapide et économique avec une fenêtre de contexte d'un million de tokens, capable de traiter texte, images, vidéos et documents, et bien adapté aux charges de travail agentiques. Le défi posé par l'évaluation des agents IA est fondamentalement différent de celui des LLMs classiques, pour trois raisons majeures : la non-déterminisme (le même agent peut réussir 90 % du temps et échouer dans 10 % des cas), la propagation d'erreurs (une faute à l'étape 3 peut fausser toutes les étapes suivantes, un agent SQL qui identifie mal le schéma construira un JOIN incorrect et produira une réponse erronée), et la créativité des solutions (les modèles frontières trouvent parfois des chemins valides non anticipés par les concepteurs de tests). Pour mesurer la fiabilité réelle, le guide introduit deux métriques clés : pass@k, qui mesure la probabilité d'au moins un succès en k tentatives, et pass^k, qui mesure la probabilité que toutes les k tentatives aboutissent, permettant ainsi de distinguer les agents capables d'improviser de ceux qui produisent des résultats cohérents et reproductibles. Ce guide s'inscrit dans une tendance de fond : à mesure que les agents IA passent des démonstrations aux déploiements réels, l'absence d'outils d'évaluation rigoureuse est devenue l'un des principaux freins à leur adoption industrielle. LangChain, qui développe l'un des frameworks d'orchestration les plus utilisés, et AWS, qui héberge une part croissante des charges de travail IA via Bedrock, se positionnent ensemble sur ce segment critique. LangSmith est disponible sur AWS Marketplace, ce qui simplifie son intégration dans les environnements cloud existants. Cette collaboration reflète une maturité croissante de l'écosystème : après une phase d'enthousiasme autour des agents autonomes, l'industrie se tourne désormais vers les questions de fiabilité, d'observabilité et de gouvernance, conditions indispensables à un déploiement à grande échelle.

OutilsOutil
1 source
Data Formulator 0.7 : l'analyse de données d'entreprise par IA
662Microsoft Research 

Data Formulator 0.7 : l'analyse de données d'entreprise par IA

Microsoft Research a publié Data Formulator 0.7, une nouvelle version de son système open source d'analyse de données alimenté par l'intelligence artificielle, destiné aux équipes entreprise. Cette mise à jour introduit une fonctionnalité centrale appelée Data Connectors, qui permet d'établir des connexions persistantes et réutilisables avec une large gamme de sources de données : bases de données relationnelles, entrepôts de données, systèmes BI, stockages objets et fichiers locaux. Les connexions sont gérées de façon centralisée, avec authentification, prévisualisation et gestion des métadonnées intégrées, ce qui évite aux équipes plateforme de reconstruire manuellement les mêmes intégrations à chaque projet. Des agents IA contextuels prennent ensuite en charge la préparation des données, l'exploration analytique et la génération de visualisations, sans que les utilisateurs aient besoin de maîtriser SQL ou la programmation. L'enjeu est significatif pour les entreprises qui jonglent quotidiennement avec des données éparpillées entre dizaines d'outils hétérogènes. Jusqu'ici, avant même de commencer une analyse, les équipes devaient gérer manuellement les permissions, préparer les métadonnées et assembler des pipelines pour croiser des sources disparates. Data Formulator 0.7 réduit ce fardeau en proposant un espace de travail unifié où les agents IA ont accès à l'ensemble du contexte analytique : sources connectées, tableaux chargés, graphiques précédents et objectif de l'utilisateur. En une seule interaction, un agent peut inspecter des données, écrire et exécuter du code dans un environnement isolé, générer des spécifications de graphiques et expliquer ses résultats étape par étape. Lorsqu'une requête est ambiguë, il pose des questions de clarification avant d'agir. Cela rend l'analyse complexe accessible aux experts métier qui n'ont pas de profil technique, tout en produisant un code vérifiable et reproductible pour chaque résultat. Data Formulator est développé par Microsoft Research dans un contexte où la demande d'outils d'analyse assistée par IA explose dans les grandes organisations. Les interfaces conversationnelles classiques, comme les chatbots généralistes, montrent leurs limites face aux workflows analytiques longs et ramifiés : elles manquent de mémoire persistante, d'accès aux données d'entreprise et de continuité de contexte entre les sessions. Data Formulator 0.7 tente de combler ce fossé avec un espace de travail multimodal et itératif où les équipes peuvent affiner leurs analyses au fil du temps et les partager en interne. Le projet est open source, ce qui laisse la porte ouverte à des contributions de la communauté et à une adoption progressive dans des environnements techniques variés. La prochaine étape naturelle sera d'observer comment cette approche s'intègre avec les infrastructures de données existantes des grands groupes, notamment face à des concurrents comme Databricks, Snowflake ou les outils BI traditionnels qui développent eux aussi leurs propres couches IA.

OutilsOutil
1 source
L'IA répond mieux quand on lui parle à voix basse
663The Information AI 

L'IA répond mieux quand on lui parle à voix basse

Dans les bureaux de Basis, une startup d'intelligence artificielle basée à Manhattan, une pratique inhabituelle s'est imposée parmi la centaine d'employés : ils chuchotent doucement dans des microphones à col de cygne posés sur leurs bureaux. Ils ne passent pas d'appels téléphoniques et ne s'adressent pas à leurs collègues, ils parlent à voix basse à leurs agents IA et chatbots. Ce comportement, autrefois marginal, est devenu courant dans les entreprises travaillant à la pointe du secteur. La raison principale est la vitesse. Dicter des instructions vocalement s'avère souvent plus rapide que les taper au clavier, ce qui se traduit directement par un gain de productivité pour des équipes dont le travail repose sur une interaction intense et continue avec des systèmes IA. Pour des professionnels qui enchaînent des dizaines de requêtes par heure, quelques secondes gagnées à chaque échange représentent un avantage non négligeable sur le plan opérationnel. Cette évolution illustre un changement plus profond dans la façon dont les travailleurs du secteur tech interagissent avec l'IA au quotidien. La voix, longtemps cantonnée aux assistants grand public comme Siri ou Alexa, s'impose désormais comme interface professionnelle sérieuse dans les environnements où l'IA est omniprésente. La généralisation de cette pratique soulève également des questions sur l'ergonomie des espaces de travail et sur la frontière qui s'estompe entre interaction humaine et interaction machine.

OutilsOutil
1 source
L'IA à base d'agents oblige à repenser la structure des organisations
664MIT Technology Review 

L'IA à base d'agents oblige à repenser la structure des organisations

Alors que l'adoption des agents IA en entreprise s'accélère, un fossé béant s'ouvre entre les ambitions affichées et les capacités réelles. Selon une étude récente, 85 % des organisations déclarent vouloir devenir "agentiques" d'ici trois ans, mais 76 % reconnaissent que leurs opérations et infrastructures actuelles ne sont pas en mesure de soutenir cette transition. C'est dans ce contexte que PwC UK Consulting, via son directeur technique mondial Prasun Shah, et la plateforme enterprise Ema, fondée par Surojit Chatterjee, alertent sur une erreur de méthode répandue : coller des agents IA par-dessus des organisations conçues pour des humains, sans repenser le modèle de fond en comble. Shah parle d'une "solution scotch" : on rajoute de la technologie sur un modèle qui se fissure, sans s'attaquer aux fractures structurelles. L'enjeu est considérable. Lorsqu'ils sont déployés à grande échelle, les agents IA seraient capables d'accélérer les processus métier de 30 à 50 %, et de réduire le temps consacré aux tâches à faible valeur ajoutée de 25 à 40 %. Mais ces gains ne se matérialisent que si l'organisation est repensée en profondeur, pas seulement optimisée à la marge. Les agents ne sont pas des assistants qui aident un humain à aller plus vite : ils coordonnent des workflows entiers, prennent des décisions autonomes, s'adaptent aux conditions changeantes et itèrent en continu. Pour débloquer cette valeur, il faut revoir les droits de décision, les indicateurs de performance, les processus et les rôles humains, non pas après coup, mais dès la conception. C'est pour combler ce vide conceptuel qu'Ema a forgé en 2025, en partenariat avec le cabinet HFS Research, le terme "agentic business transformation" (ABT). Ce cadre distingue trois piliers : la pile technologique, la composition de la main-d'oeuvre, et les métriques de succès. Sur le plan technique, Shah insiste sur le fait que les agents IA ne doivent pas être une couche supplémentaire dans un empilement applicatif existant, mais un "tissu conjonctif" capable de circuler entre les systèmes, de contextualiser des données issues de sources multiples et d'en déduire des décisions à haute valeur. C'est précisément là, dit-il, que se jouera "le prochain champ de bataille" compétitif entre les entreprises. La question n'est plus de savoir si les organisations adopteront des agents IA, mais si elles auront la lucidité de se transformer structurellement plutôt que de se contenter de les greffer sur l'existant.

UELes entreprises et organisations européennes font face au même défi de transformation structurelle pour intégrer les agents IA, sans cadre ni accompagnement spécifique à l'UE mentionné.

SociétéOpinion
1 source
George Hotz : les agents de codage seront "l'une des erreurs les plus coûteuses" du développement logiciel
665The Decoder 

George Hotz : les agents de codage seront "l'une des erreurs les plus coûteuses" du développement logiciel

George Hotz, programmeur célèbre pour avoir cracké l'iPhone à 17 ans et fondateur de comma.ai, estime que les agents de codage IA seront "l'une des erreurs les plus coûteuses" de l'histoire du développement logiciel. Après six mois de tests intensifs avec différents outils basés sur des LLMs, son verdict est sévère : ces systèmes produisent des prototypes rapidement, mais s'effondrent dès qu'il s'agit de gérer les détails, introduisant des bugs de plus en plus difficiles à détecter et à corriger. Le danger pointé par Hotz est précis : les erreurs générées par les agents IA ne sont pas évidentes à repérer. Contrairement à un bug classique qui plante un programme, les défauts introduits par ces outils peuvent rester dormants, s'accumuler silencieusement et créer une dette technique invisible. Pour les équipes qui font confiance à ces agents sur des bases de code complexes, le coût de correction pourrait dépasser largement les gains de productivité initiaux. Cette mise en garde illustre une fracture profonde au sein de la communauté IA. D'un côté, des entreprises comme GitHub (Copilot), Cursor ou Cognition défendent l'automatisation agressive du code et affichent des métriques de productivité spectaculaires. De l'autre, des ingénieurs expérimentés comme Hotz alertent sur les limites fondamentales des LLMs face à la rigueur que requiert l'ingénierie logicielle à grande échelle. Le débat est loin d'être tranché, et les prochains mois diront si la réalité des projets en production confirme l'optimisme des uns ou les craintes des autres.

OutilsOpinion
1 source
Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?
666MIT Technology Review 

Les tables rondes : l'IA peut-elle apprendre à comprendre le monde ?

Le 21 mai 2026, MIT Technology Review a réuni trois de ses journalistes spécialisés, le rédacteur en chef Mat Honan, le senior editor IA Will Douglas Heaven et la reporter Grace Huckins, pour une table ronde enregistrée consacrée à une question centrale du moment : les IA peuvent-elles apprendre à véritablement comprendre le monde physique ? La discussion s'inscrit dans un mouvement de fond où les grands laboratoires misent sur les "world models", des systèmes capables de se représenter l'environnement réel plutôt que de simplement traiter du texte. L'enjeu est de taille : les grands modèles de langage (LLM) actuels montrent des limites structurelles dès qu'il s'agit d'interagir avec le monde physique, de planifier des actions ou d'anticiper les conséquences de décisions dans des environnements dynamiques. Les world models visent à combler ce fossé, en permettant à des robots, véhicules autonomes ou agents IA d'opérer avec une compréhension spatiale et causale du réel, une capacité que les LLM seuls ne possèdent pas. Le sujet mobilise des figures majeures de la recherche en IA, à commencer par Yann LeCun, directeur scientifique de Meta AI, qui défend depuis plusieurs années une architecture alternative aux transformers pour atteindre cette intelligence "du monde réel". Des applications concrètes émergent déjà, comme l'utilisation des données de Pokémon Go pour offrir aux robots livreurs une cartographie centimètre par centimètre de l'environnement urbain. Le débat sur les world models est désormais au coeur des stratégies des grands acteurs de l'industrie.

UELe chercheur français Yann LeCun est l'une des figures centrales du débat sur les world models, un paradigme qui intéresse les laboratoires européens travaillant sur la robotique et les agents autonomes.

RecherchePaper
1 source
Intégration du serveur MCP AWS API avec Amazon Q via Amazon Bedrock AgentCore Runtime
667AWS ML Blog 

Intégration du serveur MCP AWS API avec Amazon Q via Amazon Bedrock AgentCore Runtime

Amazon Web Services a publié un tutoriel détaillant comment connecter Amazon Q, son assistant IA conversationnel, à l'ensemble de l'infrastructure cloud via une architecture combinant Amazon Bedrock AgentCore Runtime et le Model Context Protocol (MCP). Le dispositif s'appuie sur un serveur AWS API MCP pour transformer des requêtes en langage naturel en commandes AWS CLI exécutées directement dans l'environnement cloud. Concrètement, un ingénieur peut demander "Montre-moi toutes les instances EC2 actives dans us-east-1" et obtenir une réponse structurée sans mémoriser la syntaxe des API ni jongler entre plusieurs interfaces. L'authentification repose sur Amazon Cognito via un flux OAuth 2.0 et des tokens JWT, tandis que les commandes s'exécutent sous un rôle IAM à privilèges minimaux. La mise en place est estimée à 30 à 45 minutes, et le coût mensuel pour un utilisateur Enterprise effectuant environ 500 requêtes reste modeste. Ce type d'intégration répond à une friction bien documentée dans les équipes SRE et DevOps : les ingénieurs passent une part significative de leur temps à basculer entre la console AWS, la documentation CLI et les tableaux de bord des dizaines de services disponibles. Un diagnostic d'incident oblige à croiser manuellement les logs CloudWatch, l'état des instances EC2 et les politiques IAM dans des interfaces séparées. La planification de capacité nécessite des requêtes manuelles sur plusieurs services, et les audits de sécurité exigent des séquences d'appels API répétitives, longues à scripter. Avec cette architecture, une seule intégration réutilisable standardise l'accès de l'agent IA à tous les services AWS, tout en conservant une piste d'audit complète via CloudWatch pour les exigences de conformité. Cette solution s'inscrit dans la montée en puissance du Model Context Protocol, standard ouvert publié par Anthropic en novembre 2024 qui permet aux agents IA de se connecter à des outils externes de façon cohérente. AWS l'a intégré dans Bedrock AgentCore Runtime, sa couche d'orchestration pour agents IA, qui joue ici le rôle de passerelle sécurisée entre Amazon Q et le serveur MCP. L'utilisation d'Amazon Q requiert un abonnement Enterprise au niveau Professional minimum, ce qui cible en priorité les grandes organisations avec une infrastructure AWS significative. La démarche illustre une tendance plus large chez les hyperscalers : positionner leurs assistants IA internes comme interface unique pour opérer l'ensemble du stack cloud, réduisant la dépendance aux outils tiers tout en consolidant la chaîne de valeur autour de leurs propres services.

OutilsTuto
1 source
Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle
668NVIDIA AI Blog 

Jensen Huang (NVIDIA) chez Dell Technologies World : la demande explose de façon exponentielle

Lors du Dell Technologies World, Jensen Huang, PDG de NVIDIA, a rejoint sur scène Michael Dell pour présenter une nouvelle génération d'infrastructures dédiées à l'IA agentique. Les deux dirigeants ont annoncé plusieurs serveurs inédits, dont le Dell PowerEdge XE9812, construit autour de la puce NVIDIA Vera Rubin NVL72, qui affiche un coût par token jusqu'à dix fois inférieur à celui de l'architecture Blackwell pour les déploiements d'inférence à grande échelle. À ses côtés, les serveurs PowerEdge XE9880L, XE9885L et XE9882L s'appuient sur les modules NVIDIA HGX Rubin NVL8, premiers systèmes Dell à adopter cette architecture, supportant jusqu'à 144 GPU par rack, avec des noeuds de calcul entièrement refroidis par liquide et des performances jusqu'à 5,5 fois supérieures au HGX B200. Du côté des processeurs, les PowerEdge M9822 et R9822 intègrent le CPU NVIDIA Vera, doté d'une bande passante mémoire de 1,2 To/s, capable d'exécuter des charges agentiques 50 % plus rapidement que les processeurs x86. Dell a également dévoilé le PowerRack, un système entièrement intégré, ainsi qu'une mise à jour de son AI Data Platform incluant le moteur Starburst, qui offre un débit SQL jusqu'à trois fois supérieur sur CPU Vera. Cinq mille entreprises, dont Lilly, Samsung et Honeywell, exploitent déjà des charges de travail IA sur des Dell AI Factories avec NVIDIA. Ces annonces s'inscrivent dans un contexte de demande explosive. Michael Dell a rappelé que les dépenses mondiales en infrastructure IA pourraient atteindre entre 3 000 et 4 000 milliards de dollars d'ici 2030, avec une consommation de tokens projetée en hausse de 3 400 % sur la même période. Jensen Huang a résumé la situation sans détour : "Nous sommes entrés dans l'ère de l'IA utile, c'est pourquoi la demande est parabolique, absolument parabolique." Pour les entreprises, l'enjeu est direct : réduire le coût de l'inférence pour rendre les agents autonomes économiquement viables en production, et non plus seulement dans des environnements pilotes. La vitesse sur les bases de données est particulièrement stratégique, car les agents IA interrogent en continu ces systèmes pour accomplir leurs tâches, rendant la performance CPU aussi critique que celle des GPU. Cette conférence marque une accélération nette dans la course aux infrastructures IA d'entreprise. NVIDIA et Dell s'inscrivent dans une compétition directe avec les géants du cloud -- Amazon, Google, Microsoft -- qui proposent leurs propres puces et services managés. L'argument central de Dell est de permettre aux entreprises de faire tourner leurs modèles frontières et leurs agents autonomes dans leur propre périmètre sécurisé, sans dépendre d'un fournisseur cloud. La génération Rubin succède à Blackwell, lancée en 2024, et la cadence s'accélère : NVIDIA a maintenu un rythme d'une nouvelle architecture tous les un à deux ans. Pour des groupes comme Honeywell ou Lilly, dont les données sont sensibles et les contraintes réglementaires fortes, la promesse d'une IA souveraine et haute performance constitue un argument de poids face aux offres cloud publiques.

UELes entreprises européennes soumises aux contraintes RGPD pourraient tirer parti de l'offre d'IA souveraine on-premise Dell/NVIDIA pour réduire leur dépendance aux clouds publics américains.

InfrastructureActu
1 source
Promptimus : améliorer automatiquement des prompts LLM déjà performants
669Amazon Science 

Promptimus : améliorer automatiquement des prompts LLM déjà performants

Amazon Web Services a dévoilé Promptimus, une méthode d'optimisation automatique des prompts pour grands modèles de langage (LLM), destinée aux entreprises qui cherchent à améliorer des prompts déjà bien rodés sans repartir de zéro. La particularité du système repose sur une boucle d'itération en quatre étapes : il prend en entrée un prompt existant, un petit jeu de données JSONL de 20 à 50 exemples, et des métriques de performance définies par l'utilisateur. Trois agents IA spécialisés collaborent en coulisses, un analyseur de métriques, un agent de débogage et un agent de nettoyage de code, pour identifier précisément les points de défaillance, en diagnostiquer les causes profondes, et affiner chirurgicalement le prompt en conséquence. Le système inclut également un mode édition qui permet de modifier uniquement les parties défaillantes d'un prompt complexe, sans toucher à la logique métier qui fonctionne déjà. L'enjeu est considérable pour les entreprises. Dans les déploiements industriels, les prompts ne sont pas de simples instructions génériques : ils encodent des exigences légales précises, comme la conformité HIPAA pour les systèmes de santé, ou des règles de tolérance au risque pour les plateformes de trading financier. Ces prompts sont construits par des experts métier sur des semaines, voire des mois. Or, chaque fois qu'un fournisseur comme Anthropic, OpenAI, Google, Meta ou Alibaba sort un nouveau modèle, ces prompts soigneusement calibrés perdent en efficacité, les différences de comportement entre modèles suffisent à dégrader les performances. Promptimus est conçu pour être agnostique au modèle : il peut réoptimiser un prompt conçu pour un modèle source et l'adapter rapidement à un modèle cible, en comparant les résultats entre les deux. La difficulté sous-jacente que Promptimus cherche à résoudre est bien connue des équipes d'ingénierie prompt : les méthodes d'optimisation automatique existantes fonctionnent bien pour créer des prompts depuis zéro, mais peinent à améliorer ceux qui sont déjà excellents. Les suggestions génériques comme « sois plus créatif » ou « ajoute des exemples » n'ont aucun effet sur un prompt déjà optimisé, dont les marges d'amélioration restent très spécifiques et difficiles à cibler. Les scores scalaires comme retour d'information ne donnent aucune indication sur le pourquoi des échecs. Face à la cadence d'évolution des modèles fondamentaux, la reoptimisation manuelle est coûteuse et retarde l'adoption de modèles plus performants. Promptimus vise à industrialiser ce processus de migration, en automatisant entièrement l'analyse des métriques et la génération des points de contrôle de débogage via du code Python importable.

UELes entreprises européennes déployant des LLMs en production pourraient utiliser Promptimus pour automatiser la migration de leurs prompts lors des mises à jour de modèles fondamentaux, réduisant les coûts de réécriture manuelle.

OutilsOutil
1 source
Conseil sur le feedback des agents
670Ben's Bites 

Conseil sur le feedback des agents

Un développeur partage une technique récente pour fluidifier ses échanges avec des agents IA : plutôt que de taper ses retours ou d'utiliser la dictée vocale, il enregistre son écran en commentant à voix haute ce qu'il fait, puis fournit cette vidéo directement à l'agent. Ce dernier analyse les images, transcrit la voix, extrait les moments clés horodatés et génère un rapport HTML structuré, avec des GIFs illustrant les points importants et une liste d'actions à accomplir. La méthode permet aussi de naviguer vers d'autres applications pour montrer des exemples de référence, que l'agent intègre dans son analyse. Ben a formalisé cette approche en une "skill" réutilisable baptisée video-to-html, qui instruit l'agent pour convertir n'importe quelle vidéo en document HTML structuré avec keyframes, horodatages et animations courtes. Les fichiers générés servent également de journal de bord du projet, consultables à tout moment. Cette technique s'attaque à un problème concret dans les workflows avec des agents : la difficulté à communiquer un retour visuel précis et contextualisé. Là où les feedbacks textuels restent abstraits et les captures d'écran statiques, la vidéo permet de montrer l'interface en situation réelle, de naviguer entre applications, et de commenter en temps réel ce qui fonctionne ou non. L'approche consomme davantage de tokens, mais l'auteur note que les agents analysent efficacement les frames extraites, rendant une compression préalable via ffmpeg superflue pour la plupart des usages. Pour les équipes travaillant régulièrement avec des agents de développement ou de design, ce type de boucle de feedback visuel structuré pourrait accélérer les itérations de manière significative, en réduisant les allers-retours d'éclaircissement. Cette semaine apporte également plusieurs annonces importantes pour l'écosystème IA. Anthropic a annoncé un changement de politique à compter du 15 juin : les utilisateurs de Claude via des outils tiers comme Cursor, Zed ou T3 Code disposeront d'un quota distinct, équivalent en valeur à leur abonnement mensuel, sans report possible ni tokens subventionnés au-delà. En compensation, les limites hebdomadaires augmentent de 50 % pendant les deux prochains mois. Vercel, de son côté, a publié un index de production basé sur l'usage réel de son AI Gateway : Anthropic capte 61 % des dépenses (porté par Opus), Google représente 38 % des volumes de tokens (grâce à Flash), et les workloads agentiques constituent désormais 59 % de la totalité des tokens consommés. Notion a lancé une plateforme développeur avec une API markdown permettant la synchronisation de données externes et l'intégration d'agents comme Claude directement dans l'outil, accompagnée d'un CLI nommé ntn. Google a présenté "Gemini Intelligence" pour Android, incluant l'autocomplétion de formulaires et la transformation de notes vocales en texte structuré, à quelques jours de sa conférence I/O.

OutilsOutil
1 source
Au-delà des modèles : où les investisseurs cherchent la prochaine vague de l'IA
671The Information AI 

Au-delà des modèles : où les investisseurs cherchent la prochaine vague de l'IA

Face à la concentration massive des investissements dans les modèles frontières et les infrastructures des hyperscalers, les investisseurs cherchent de nouveaux territoires où l'IA offre encore de la valeur. Dans une table ronde organisée par The Information, Alexa von Tobel, fondatrice du fonds early-stage Inspired Capital, et Alex Baker, associé chez PwC en charge des opérations TMT aux États-Unis, ont identifié les poches où le potentiel reste intact. Parmi les signaux du marché : le mois dernier, la startup Cursor a accordé à SpaceX une option de rachat à 60 milliards de dollars, illustrant à la fois l'appétit pour l'IA applicative et la fragilité croissante des positions différenciantes dans le logiciel vertical. Pour les deux investisseurs, la vraie question n'est plus de savoir si l'IA va transformer les industries, mais où les avantages concurrentiels sont durables. Von Tobel avertit que dans un monde dominé par des géants comme Google ou Microsoft, chacun avec plus d'un milliard d'utilisateurs, il est risqué de construire quelque chose qu'ils pourraient répliquer à moindre effort. Baker, lui, définit la défendabilité par trois critères : l'intégration profonde dans les environnements enterprise, la difficulté à reproduire l'infrastructure technique sous-jacente, et la confiance des clients. Il estime que la différenciation des startups d'IA verticale qui entraînent leurs propres modèles sectoriels s'érode rapidement, et que le vrai rempart se situe désormais dans la couche d'orchestration, plus difficile à reproduire que le modèle lui-même. C'est dans l'IA physique que les deux investisseurs voient le potentiel le plus solide pour les quatre prochaines années. Von Tobel cite BrightAI, une société de son portefeuille qu'elle décrit comme "Cursor pour les travailleurs d'infrastructure" : l'entreprise déploie des capteurs sur des canalisations d'eau, des poteaux téléphoniques et d'autres actifs physiques, collectant des données que personne d'autre ne capte. L'avantage est concret : retirer des centaines de milliers de capteurs collés sur des équipements serait coûteux et laborieux. Baker souligne que cette irréversibilité physique crée des barrières à l'entrée bien plus solides que celles du logiciel. Il cite également la revitalisation de secteurs comme la sécurité physique, caméras, lecteurs de badges et serrures connectées, longtemps considérés comme matures et désormais réinventés par l'IA. Quant au logiciel traditionnel, Baker reste optimiste malgré la montée des outils de "vibe coding" : dans les workflows réglementés et critiques, les coûts de migration restent un rempart efficace, d'autant qu'un futur peuplé d'agents IA actifs 24h/24 pourrait en fait accroître la demande de logiciels, pas la réduire.

BusinessOpinion
1 source
Des agents avec recherche web grâce à Strands et Exa
672AWS ML Blog 

Des agents avec recherche web grâce à Strands et Exa

AWS a publié une intégration native entre son SDK open source Strands Agents et le moteur de recherche Exa, permettant aux agents IA d'accéder au web en temps réel sans couche de post-traitement. Cette combinaison expose deux outils principaux : exasearch, qui effectue des recherches sémantiques avec prise en charge de catégories comme les articles d'actualité, les publications de recherche ou les dépôts de code, et exaget_contents, qui récupère le contenu complet de pages web ciblées. Le SDK Strands Agents, distribué en open source par AWS, repose sur une architecture pilotée par le modèle : plutôt que de définir des workflows figés, le développeur fournit un modèle de langage, un prompt système et une liste d'outils, puis c'est le modèle lui-même qui décide quels outils appeler, dans quel ordre, et quand la tâche est accomplie. Le SDK embarque déjà plus de 40 outils préconstruits couvrant la gestion de fichiers, l'exécution de code, les API AWS, la mémoire et la recherche web. Pour les développeurs qui construisent des agents dédiés à la veille, à la vérification des faits ou à l'intelligence concurrentielle, cette intégration élimine un obstacle persistant : la plupart des API de recherche généralistes renvoient des pages HTML chargées de balisage et des snippets courts optimisés pour la navigation humaine, ce qui oblige à construire des couches supplémentaires de parsing, de nettoyage et de reclassement avant de pouvoir injecter ces données dans une fenêtre de contexte LLM. Exa résout ce problème à la source en fournissant un contenu propre, structuré et directement exploitable. Concrètement, un agent peut enchaîner plusieurs appels de recherche, accumuler les résultats dans son historique de conversation et raisonner sur l'ensemble pour produire une réponse finale, sans que le développeur n'ait à orchestrer chaque étape manuellement. Exa se distingue des moteurs traditionnels par son approche sémantique : une requête comme "startups développant des solutions climatiques" retourne effectivement des entreprises du secteur, même si leurs pages ne contiennent pas cette formulation exacte, car le moteur travaille sur la similarité de sens plutôt que sur la correspondance de mots-clés. Le SDK supporte également le Model Context Protocol (MCP), ce qui facilite l'ajout de tout nouveau serveur d'outils sans travail d'intégration supplémentaire. L'intégration Exa est disponible via le package strands-agents-tools et s'ajoute à la liste d'outils en une ligne de code. Dans un contexte où les agents IA peinent encore à accéder à des informations récentes et fiables, cette combinaison d'un framework agentique piloté par le modèle et d'un moteur de recherche conçu pour les LLM ouvre des perspectives concrètes pour des cas d'usage comme l'analyse de marché, la recherche documentaire automatisée ou le suivi de l'actualité technologique en temps réel.

OutilsOutil
1 source
CopilotKit lance une plateforme d'intelligence pour entreprises dotant les applications à base d'agents d'une mémoire persistante entre sessions et appareils
673MarkTechPost 

CopilotKit lance une plateforme d'intelligence pour entreprises dotant les applications à base d'agents d'une mémoire persistante entre sessions et appareils

CopilotKit a annoncé son Enterprise Intelligence Platform, une nouvelle couche d'infrastructure managée qui dote les applications agentiques d'une mémoire persistante entre les sessions, les utilisateurs et les appareils. Jusqu'ici, chaque nouvelle session forçait l'agent à repartir de zéro : aucun souvenir des échanges précédents, des workflows en cours ou des décisions déjà prises. Pour contourner ce problème, les équipes de développement devaient construire manuellement leur propre couche de stockage, en choisissant une base de données, en sérialisant l'état applicatif et en gérant les identifiants de session avant même d'écrire la moindre ligne de logique produit. La plateforme résout ce problème en fournissant une infrastructure clé en main, compatible avec n'importe quel framework agentique. Elle peut être auto-hébergée sur Kubernetes, avec une option cloud managée en développement, et répond aux exigences de sécurité enterprise : conformité SOC 2 Type II, intégration SSO, contrôle d'accès par rôles, déploiements hors ligne air-gapped et souveraineté totale des données via une base de données personnalisée. L'élément central de l'architecture est le concept de "Thread" : un objet de session persistant et structuré qui survit aux déconnexions, aux changements d'appareils et aux relances d'agent. Contrairement à un simple historique de messages texte stocké en base, un Thread capture six dimensions de l'interaction : les composants d'interface générés dynamiquement par l'agent, les étapes humaines dans la boucle (approbations, corrections, décisions guidées), l'état partagé entre le backend agentique et le frontend, les entrées et sorties vocales, les fichiers uploadés ou générés, et l'ensemble des interactions multimodales au sein d'un objet unique. Concrètement, un workflow complexe démarré par un collaborateur peut être repris exactement là où il s'était arrêté par un autre membre de l'équipe sur un appareil différent, sans perte d'état ni de contexte. CopilotKit est déjà connu pour son SDK open-source dédié au frontend des agents IA, ainsi que pour l'AG-UI Protocol, un standard ouvert qui connecte les agents aux interfaces utilisateur. Cette plateforme Enterprise ne remplace pas le SDK existant : elle l'enrichit avec la couche d'infrastructure qui lui manquait. L'enjeu est considérable pour l'industrie, car la persistance de l'état est l'un des principaux freins au déploiement en production d'applications agentiques dans les entreprises. Les cas d'usage visés, comme la rédaction collaborative de documents juridiques ou la gestion de pipelines de données en plusieurs étapes, illustrent un marché qui commence à dépasser les chatbots pour entrer dans la logique de workflows longs et critiques. La disponibilité d'une infrastructure standardisée pourrait significativement accélérer cette transition.

UELa plateforme propose des options de souveraineté des données (base de données personnalisée, déploiement air-gapped sur Kubernetes) susceptibles de faciliter la conformité RGPD pour les équipes de développement européennes qui adoptent des architectures agentiques.

OutilsOutil
1 source
Exploiter l'analyse IA à base d'agents sur Amazon SageMaker avec Amazon Athena et Amazon Quick
674AWS ML Blog 

Exploiter l'analyse IA à base d'agents sur Amazon SageMaker avec Amazon Athena et Amazon Quick

Amazon a dévoilé une architecture d'analyse de données intégrant de l'intelligence artificielle agentique sur Amazon SageMaker, combinant Amazon Athena et Amazon QuickSight pour permettre aux utilisateurs métier d'interroger des lacs de données complexes en langage naturel. La solution repose sur une architecture lakehouse construite à partir des jeux de données de référence TPC-H (100 Go hébergés sur S3), et s'appuie sur plusieurs couches technologiques : Amazon S3 comme stockage principal, AWS Glue pour le catalogage des métadonnées, Athena pour les requêtes SQL serverless, et QuickSight avec son moteur SPICE (Super-fast, Parallel, In-memory Calculation Engine) pour la visualisation et l'interface conversationnelle. Les données sont stockées en trois formats distincts, CSV, Apache Iceberg-Parquet avec support ACID et time-travel, et Amazon S3 Tables avec support natif Iceberg, afin d'illustrer la polyvalence d'une architecture data lake moderne. Un agent IA conversationnel, alimenté par des bases de connaissances enrichies via un crawler web, permet ensuite d'interroger ces données structurées et non structurées depuis une interface en langage naturel. L'enjeu principal est la démocratisation de l'accès aux données au sein des grandes organisations. Aujourd'hui, interroger un lac de données pétaoctet exige des compétences pointues en SQL, en modélisation de données et en outils de business intelligence, autant de barrières qui ralentissent la prise de décision dans des secteurs comme la finance, la santé, le retail ou la logistique. En substituant ces interfaces techniques par un agent conversationnel, Amazon permet à des profils non-techniques d'obtenir des insights directement exploitables sans passer par des équipes data. Pour les entreprises, cela signifie moins de goulots d'étranglement, des cycles d'analyse raccourcis, et une gouvernance des données maintenue grâce aux contrôles de sécurité intégrés dans l'écosystème AWS. Cette annonce s'inscrit dans une course plus large entre les grands fournisseurs cloud, AWS, Google et Microsoft, pour intégrer des agents IA directement dans leurs plateformes analytiques. Amazon capitalise ici sur son écosystème existant : QuickSight Q, lancé il y a plusieurs années comme interface NLP pour la BI, monte en puissance avec l'intégration de bases de connaissances et d'espaces collaboratifs (Quick Spaces). La combinaison d'Athena, qui facture à la requête sans serveur à maintenir, et d'agents capables de mélanger données structurées et documentation non structurée, positionne AWS comme un acteur sérieux dans l'analytics agentique d'entreprise. La prochaine étape logique sera l'automatisation complète du cycle analyse-décision-action, où l'agent ne se contente plus de répondre mais déclenche directement des workflows métier.

UELes entreprises européennes déployées sur AWS peuvent adopter cette architecture d'analytics agentique pour réduire leur dépendance aux équipes data, mais l'annonce ne cible pas spécifiquement le marché ou les régulations européennes.

OutilsOutil
1 source
Guide des API, MCP et passerelles MCP
675AI News 

Guide des API, MCP et passerelles MCP

Les interfaces de programmation (API) et le Model Context Protocol (MCP) sont deux mécanismes permettant à des systèmes d'échanger des données, mais leur conception répond à des logiques fondamentalement différentes. Une API connecte deux applications selon un contrat rigide : la requête et la réponse sont toutes deux définies à l'avance dans le code, ce qui rend l'échange précis et prévisible, mais fragile dès qu'une des parties modifie son comportement. Le MCP, lui, a été conçu pour un consommateur d'un genre nouveau : les grands modèles de langage (LLM). Un serveur MCP expose trois types de capacités, des outils (actions que le modèle peut déclencher, comme créer un fichier ou interroger une base de données), des ressources (données lisibles en contexte) et des templates de prompts réutilisables. C'est le modèle lui-même qui décide, en fonction de la requête de l'utilisateur, quels outils ou ressources il juge pertinents. La distinction n'est pas qu'architecturale : elle a des conséquences directes sur les coûts et la précision des réponses de l'IA. Quand un LLM interroge une API classique, celle-ci peut renvoyer cinquante champs d'une fiche client alors que le modèle n'a besoin que du statut d'abonnement. Chaque octet inutile consomme des tokens, alourdit la facture d'inférence et dilue la réponse, le modèle peut s'appuyer sur des données non pertinentes et produire des réponses inexactes. Un outil MCP bien conçu retourne uniquement le nombre de clients abonnés à un service donné, sans envoyer l'historique complet des interactions. Pour les équipes qui déploient des assistants IA en entreprise, ce gain de précision et d'économie n'est pas négligeable sur des volumes de requêtes importants. Le MCP, standardisé par Anthropic en 2024, s'impose progressivement comme une couche d'abstraction centrale dans les architectures d'IA agentiques. Il ne remplace pas les API : dans de nombreux systèmes, un serveur MCP appelle lui-même des API en coulisses, mais filtre et formate les données avant de les transmettre au modèle. Cette approche, parfois désignée sous le terme de "MCP Gateway", permet de centraliser l'accès à de multiples sources de données via une interface unique. Les entreprises qui construisent des agents IA capables d'interroger des bases internes, de lire des documents ou de déclencher des actions métier se tournent de plus en plus vers cette architecture. Le choix entre API et MCP se résume ainsi : une API convient quand deux applications se connaissent parfaitement et échangent des données définies ; le MCP s'impose dès que le consommateur est un modèle d'IA dont les besoins varient selon les requêtes des utilisateurs.

OutilsTuto
1 source
Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory
676AWS ML Blog 

Organiser la mémoire des agents à grande échelle : patterns de conception par namespace dans AgentCore Memory

Amazon a publié un guide technique détaillé sur la conception de namespaces dans AgentCore Memory, le système de mémoire à long terme intégré à Amazon Bedrock. La fonctionnalité, présentée dans un billet de blog officiel d'AWS, permet aux développeurs d'organiser les souvenirs de leurs agents IA sous forme de chemins hiérarchiques, similaires à des arborescences de fichiers. Concrètement, les préférences d'un utilisateur identifié comme customer-123 seront stockées sous /actor/customer-123/preferences/, tandis que les résumés de ses sessions individuelles seront rangés sous /actor/customer-123/session/session-789/summary/. Ces chemins sont générés automatiquement à partir de trois variables prédéfinies : {actorId} pour l'identifiant de l'utilisateur, {sessionId} pour la session en cours, et {memoryStrategyId} pour le type de stratégie mémoire utilisé. Le système prend en charge plusieurs stratégies superposées, notamment la mémoire sémantique pour les faits durables sur un utilisateur, et la mémoire de résumé pour les synthèses de sessions passées. L'enjeu est concret : sans organisation rigoureuse, les agents IA récupèrent du contexte non pertinent lors de leurs requêtes, ce qui dégrade la qualité des réponses et peut créer des failles de sécurité, notamment en exposant les souvenirs d'un utilisateur à un autre. Le système de namespaces résout ces deux problèmes à la fois. D'un côté, la structure hiérarchique permet une récupération à granularité variable : on peut interroger la mémoire d'une session précise, l'ensemble des préférences d'un utilisateur à travers toutes ses sessions, ou encore des données communes à tous les utilisateurs d'un même agent. De l'autre, AWS intègre des contrôles d'accès IAM natifs qui permettent de délimiter précisément qui peut lire ou écrire dans quelle portion de la mémoire, sans dupliquer le stockage physique. Les namespaces sont des partitions logiques au sein d'une même ressource mémoire, une approche que les équipes habituées aux clés de partition DynamoDB ou aux préfixes S3 reconnaîtront immédiatement. Ce guide s'inscrit dans une dynamique plus large : l'essor des agents IA en production crée une demande croissante pour des infrastructures mémoire robustes et sécurisées. Amazon Bedrock, qui concurrence directement les offres d'OpenAI, Google et Microsoft Azure dans l'espace des plateformes d'agents d'entreprise, cherche à se différencier par des primitives de bas niveau bien pensées. AgentCore Memory, présenté comme une brique fondamentale pour les agents à longue durée de vie, cible les équipes qui construisent des assistants client, des copilotes métier ou des agents autonomes nécessitant une continuité de contexte entre les sessions. La prochaine étape annoncée par AWS porte sur les patterns de récupération multi-niveaux et les stratégies d'isolation entre agents dans des architectures multi-tenants.

UEAmazon Bedrock étant déployé dans des régions AWS européennes, ces patterns de conception sont directement exploitables par les équipes françaises et européennes qui construisent des agents IA sur cette plateforme.

OutilsActu
1 source
Exécuter des proxies MCP personnalisés en serverless sur Amazon Bedrock AgentCore Runtime
677AWS ML Blog 

Exécuter des proxies MCP personnalisés en serverless sur Amazon Bedrock AgentCore Runtime

Amazon Web Services vient de détailler une architecture permettant de déployer des proxys MCP (Model Context Protocol) personnalisés en mode serverless sur Amazon Bedrock AgentCore Runtime. Cette solution s'adresse aux équipes qui souhaitent insérer une couche de contrôle programmable entre leurs agents IA et les outils auxquels ils accèdent, bases de données, API tierces, systèmes de fichiers, sans modifier ni le client ni le serveur MCP en amont. Le proxy s'exécute comme une charge de travail sans état sur AgentCore Runtime, découvre automatiquement les outils disponibles au démarrage, les réexpose avec la logique personnalisée appliquée, puis transfère les requêtes de manière transparente. L'infrastructure est entièrement gérée par AWS, avec mise à l'échelle automatique, observabilité intégrée via Amazon CloudWatch et OpenTelemetry, et gestion des identités via AgentCore Identity. L'intérêt concret est d'ordre gouvernance et conformité. En production, les interactions entre agents IA et outils doivent respecter des politiques de sécurité internes, des réglementations sectorielles et des exigences d'auditabilité spécifiques : nettoyage des entrées avant qu'elles atteignent les systèmes backend, génération de journaux d'audit dans des formats particuliers, ou encore rédaction de données sensibles au niveau du protocole. AgentCore Gateway propose déjà des intercepteurs Lambda pour intégrer ce type de logique, mais certaines organisations disposent de bibliothèques de filtrage MCP internes ou de systèmes de conformité on-premises qu'elles ne souhaitent pas refactoriser en fonctions Lambda. Le proxy serverless sur Runtime offre alors une alternative portable, réutilisable dans des environnements hybrides ou multi-systèmes, sans dépendance à un intercepteur spécifique à une plateforme. Ce développement s'inscrit dans l'adoption rapide du Model Context Protocol comme standard de facto pour connecter les agents IA à leurs outils. MCP, initialement proposé par Anthropic fin 2024, est désormais supporté par la plupart des grandes plateformes d'agents, et AWS positionne AgentCore comme son infrastructure de référence pour les déploiements en production. La solution présentée s'appuie sur une implémentation open source disponible sur GitHub, ce qui facilite l'adoption et la personnalisation. Elle peut également se connecter à AgentCore Gateway pour bénéficier de la découverte gérée des outils, de la gestion des credentials et de l'application de politiques à l'échelle, y compris sur des fonctions Lambda et des intégrations SaaS. Pour les équipes qui industrialisent leurs agents IA, ce pattern représente une brique d'infrastructure critique pour passer du prototype au déploiement régi par des exigences d'entreprise réelles.

UELes entreprises européennes déployant des agents IA sur AWS peuvent s'appuyer sur cette architecture pour implémenter des couches de conformité RGPD et AI Act sans refactoriser leurs bibliothèques de filtrage MCP existantes.

InfrastructureActu
1 source
OpenAI prêt à tuer l’iPhone ? Son mystérieux smartphone 100 % IA intrigue déjà
678Le Big Data 

OpenAI prêt à tuer l’iPhone ? Son mystérieux smartphone 100 % IA intrigue déjà

OpenAI travaille sur un smartphone radicalement différent de tout ce qui existe actuellement. Selon l'analyste Ming-Chi Kuo, dont la fiabilité sur les feuilles de route technologiques est reconnue, la firme développe un appareil qui abandonnerait complètement le modèle des applications classiques. La production de masse est visée pour 2028, avec un possible premier aperçu dès cette année. Pour construire cet appareil, OpenAI s'appuierait sur une alliance industrielle structurée : Qualcomm et MediaTek pour les puces, Luxshare pour la fabrication à grande échelle. L'architecture serait hybride, combinant traitement local et cloud, permettant à l'IA d'analyser en permanence le contexte de l'utilisateur, position, habitudes, préférences, pour anticiper ses besoins avant même qu'il formule une demande. À la place des grilles d'icônes, un agent intelligent prendrait en charge les tâches : réservations, messages, organisation de journée, tout cela de façon quasi invisible pour l'utilisateur. L'enjeu dépasse largement le lancement d'un produit. Contrôler à la fois le matériel et le logiciel permettrait à OpenAI d'offrir une expérience cohérente et profonde que ne peut pas égaler une simple application tournant sur l'iPhone ou Android. C'est précisément le type d'intégration verticale qu'Apple a maîtrisé pendant vingt ans. Pour renforcer sa crédibilité sur ce terrain, OpenAI s'est associé à Jony Ive, l'ancien directeur du design d'Apple qui a conçu l'iPhone aux côtés de Steve Jobs, un signal fort adressé aux consommateurs habitués à des standards élevés. Si le projet aboutit, ce n'est pas seulement un téléphone qui change, c'est le paradigme dominant du smartphone depuis 2007 qui est remis en question : celui où l'utilisateur ouvre des applications, plutôt que celui où un agent agit pour lui. OpenAI entre cependant sur un marché dominé par deux géants aux ressources considérables. Apple peut s'appuyer sur plus d'un milliard d'iPhone actifs et un écosystème particulièrement verrouillé. Google, de son côté, intègre activement ses propres agents IA dans Android et avance vite. La concurrence des modèles eux-mêmes s'intensifie aussi : Anthropic avec Claude et Google avec Gemini accélèrent leurs déploiements. Ce projet s'inscrit dans une logique plus large de course au contrôle de l'interface numérique, celui qui possède le point d'entrée quotidien de l'utilisateur contrôle l'écosystème entier. Le calendrier flou et les défis industriels laissent planer une incertitude réelle sur l'exécution, mais la direction est claire : OpenAI ne veut plus seulement fournir le cerveau des appareils des autres.

OutilsOutil
1 source
Créer des agents Strands avec les modèles SageMaker AI et MLflow
679AWS ML Blog 

Créer des agents Strands avec les modèles SageMaker AI et MLflow

Amazon Web Services a publié un guide technique détaillant la construction d'agents d'intelligence artificielle en combinant trois de ses outils : le SDK open source Strands Agents, les endpoints de modèles Amazon SageMaker AI, et la plateforme d'observabilité MLflow hébergée sur SageMaker Serverless. Le SDK Strands, à approche pilotée par le modèle, permet de créer un agent fonctionnel en quelques lignes de code en associant un modèle de langage, un prompt système et un ensemble d'outils. Les modèles sont déployés via SageMaker JumpStart, un hub machine learning qui permet d'évaluer et de sélectionner rapidement des modèles de fondation selon des critères de qualité et de responsabilité prédéfinis. L'intégration de MLflow permet ensuite de tracer les appels d'agents, de versionner les modèles et d'implémenter des tests A/B entre plusieurs variantes de modèles pour en évaluer les performances à l'aide de métriques objectives. Cette architecture répond à un besoin concret des grandes entreprises qui ne peuvent pas se contenter des services de modèles entièrement gérés : contrôle précis sur les instances de calcul, politiques de mise à l'échelle, configuration réseau compatible avec les architectures de sécurité existantes, et conformité en matière de résidence des données. Là où Amazon Bedrock simplifie l'accès aux modèles de fondation en masquant l'infrastructure, SageMaker AI laisse à l'organisation la maîtrise de l'endroit et de la manière dont l'inférence se produit, ce qui est décisif pour les secteurs réglementés comme la finance ou la santé. La couche MLflow ajoute une dimension industrielle : les équipes peuvent comparer les performances de différents modèles dans des conditions réelles, réduire les coûts en sélectionnant le modèle le plus efficace pour chaque tâche, et maintenir un historique d'expériences exploitable dans le temps. La publication de ce guide s'inscrit dans une course plus large pour capter les déploiements d'agents IA en production. AWS répond ainsi à la demande croissante des équipes MLOps qui veulent bénéficier de la commodité du cloud tout en conservant une maîtrise fine de l'infrastructure, une position souvent impossible avec les APIs gérées de type Bedrock ou OpenAI. Strands Agents, rendu open source par Amazon, concurrence directement des frameworks comme LangChain ou CrewAI, avec l'avantage d'une intégration native dans l'écosystème AWS. L'accent mis sur les tests A/B et l'évaluation continue des agents signale que le secteur entre dans une phase de maturité : il ne s'agit plus seulement de faire fonctionner un agent, mais de le mesurer, le comparer, et l'améliorer de façon systématique en production.

UECette architecture de déploiement d'agents avec contrôle fin sur la résidence des données répond aux exigences du RGPD, la rendant pertinente pour les secteurs réglementés européens comme la finance et la santé.

OutilsOutil
1 source
Reconstruire la pile de données pour l'IA
680MIT Technology Review 

Reconstruire la pile de données pour l'IA

L'intelligence artificielle occupe désormais le sommet des priorités des directions d'entreprise, mais une réalité s'impose de plus en plus clairement : le principal frein à une adoption concrète n'est pas la technologie elle-même, mais l'état des données. Bavesh Patel, vice-président senior chez Databricks, résume le problème sans détour : "La qualité de l'IA, son efficacité réelle, dépend directement de l'information disponible dans votre organisation." Or dans la grande majorité des entreprises, cette information reste dispersée entre des systèmes hérités, des applications cloisonnées et des formats incompatibles. Sans infrastructure unifiée, les modèles d'IA produisent des résultats peu fiables, dépourvus de contexte, ce que Patel qualifie simplement de "terrible AI". La solution passe par une consolidation des données dans des formats ouverts, une gouvernance rigoureuse des accès, et une architecture capable de combiner données structurées et non structurées en temps réel. L'enjeu est directement compétitif. Pour Patel, "le vrai différenciateur concurrentiel de la plupart des organisations, c'est leur propre data, combinée aux données tierces qu'elles peuvent y ajouter". Les entreprises qui parviennent à poser ces fondations correctement débloquent des gains mesurables : automatisation de workflows complexes, efficacité opérationnelle accrue, voire création de nouvelles lignes de revenus. Rajan Padmanabhan, responsable technologique chez Infosys, insiste sur la nécessité de relier chaque initiative IA à des indicateurs business précis, plutôt que de traiter ces projets comme des expérimentations isolées. Les entreprises les plus avancées utilisent des cadres de gouvernance pour identifier rapidement ce qui produit des résultats concrets et abandonner ce qui n'en produit pas, une discipline que peu d'organisations ont encore intégrée dans leur fonctionnement quotidien. Cette transformation s'inscrit dans un changement de paradigme plus profond. Pendant des décennies, les systèmes d'information ont été conçus comme des outils d'exécution ou d'engagement. Padmanabhan décrit une nouvelle logique en train d'émerger : "des systèmes d'action", capables de décider et d'agir de manière autonome. C'est précisément la promesse des agents IA, qui évoluent de simples assistants vers des opérateurs autonomes gérant des flux de travail et des transactions entières. Mais cette évolution suppose que les données sous-jacentes soient fiables, accessibles et gouvernées, une condition que la plupart des grandes entreprises ne remplissent pas encore. La question n'est donc plus de savoir si l'IA va transformer l'entreprise, mais si les organisations sauront construire l'infrastructure de données nécessaire avant que la fenêtre d'opportunité ne se referme sur celles qui auront avancé plus vite.

InfrastructureOpinion
1 source
GitNexus : un moteur de graphe de connaissances open source compatible MCP qui donne à Claude Code et Cursor une vision structurelle complète du code
681MarkTechPost 

GitNexus : un moteur de graphe de connaissances open source compatible MCP qui donne à Claude Code et Cursor une vision structurelle complète du code

Un étudiant en informatique indien a publié GitNexus, un moteur open source de graphe de connaissances conçu pour donner aux agents de codage IA une vision structurelle complète d'un dépôt de code. Le projet compte déjà plus de 28 000 étoiles et 3 000 forks sur GitHub, avec 45 contributeurs actifs. Son fonctionnement repose sur une commande unique, npx gitnexus analyze, qui lance un pipeline d'indexation en plusieurs phases : parcours de l'arborescence de fichiers, extraction de chaque fonction, classe, méthode et interface via des arbres syntaxiques Tree-sitter, puis résolution croisée des imports et des appels entre fichiers. Le résultat est un graphe complet des dépendances, stocké localement dans LadybugDB, une base de données graphe embarquée avec support vectoriel natif. Ce graphe est ensuite exposé aux agents IA via un serveur MCP (Model Context Protocol), permettant des recherches hybrides combinant BM25, embeddings sémantiques et RRF. L'option --skills génère en plus des fichiers SKILL.md ciblés pour chaque zone fonctionnelle détectée dans le code, déposés sous .claude/skills/generated/. Le problème que GitNexus cherche à résoudre est bien réel et coûteux : les agents IA comme Claude Code, Cursor ou Windsurf opèrent aujourd'hui essentiellement à l'aveugle. Ils lisent les fichiers proches du contexte ouvert et espèrent ne rien manquer. Résultat classique : un agent modifie le type de retour d'une fonction sans savoir que 47 autres fonctions en dépendent, les tests explosent, et le développeur passe deux heures à démêler ce que l'outil aurait dû savoir avant d'agir. GitNexus pré-calcule la structure complète des dépendances à l'indexation, de sorte que quand un agent interroge "qu'est-ce qui dépend de cette fonction ?", il obtient une réponse complète en une seule requête, sans enchaîner dix appels successifs à risque. Le tout tourne entièrement en local, sans qu'une seule ligne de code quitte la machine. La publication de GitNexus s'inscrit dans une dynamique plus large autour du Model Context Protocol, le standard lancé par Anthropic fin 2024 pour unifier la façon dont les agents IA accèdent à des sources de contexte externes. L'écosystème MCP s'est développé rapidement, mais la plupart des serveurs existants exposent des documents ou des APIs, pas la structure interne d'une base de code. GitNexus comble ce vide spécifique en s'appuyant sur Tree-sitter, le parseur incrémental développé à l'origine par GitHub, et sur la détection de communautés de Leiden pour regrouper les symboles par zones fonctionnelles cohérentes. La prochaine étape logique pour ce type d'outil est l'intégration dans les IDE et les pipelines CI, où une connaissance structurelle précise du code pourrait non seulement guider les agents en temps réel, mais aussi prévenir automatiquement les régressions avant qu'elles ne soient committées.

💬 C'est exactement le problème que je vis en ce moment avec Claude Code : l'agent touche une fonction, casse 5 trucs en aval, et toi tu passes l'heure suivante à réparer ce que l'outil aurait dû anticiper. GitNexus s'attaque à ça à la source, en pré-calculant tout le graphe de dépendances avant que l'agent commence à bricoler, et le tout tourne en local sans qu'une seule ligne de code parte ailleurs. 28 000 étoiles en quelques semaines, c'est pas du hasard.

OutilsOutil
1 source
Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne
682NVIDIA AI Blog 

Le GPT-5.5 d'OpenAI propulse Codex sur l'infrastructure NVIDIA, déjà utilisée en interne

OpenAI a déployé GPT-5.5, son dernier modèle frontier, au coeur de Codex, son application de codage agentique. Ce modèle tourne sur les systèmes rack-scale NVIDIA GB200 NVL72, capables de délivrer un coût 35 fois inférieur par million de tokens et un débit 50 fois supérieur par seconde et par mégawatt par rapport à la génération précédente. Plus de 10 000 employés de NVIDIA, répartis dans tous les départements, ingénierie, juridique, marketing, finance, RH, ventes et opérations, utilisent déjà Codex propulsé par GPT-5.5 depuis quelques semaines. Les résultats sont concrets et mesurables : des cycles de débogage qui prenaient des jours se bouclent désormais en quelques heures, et des expérimentations qui nécessitaient des semaines aboutissent en une nuit sur des bases de code complexes et multi-fichiers. Des équipes livrent des fonctionnalités complètes à partir de simples instructions en langage naturel. L'impact dépasse le simple gain de productivité individuel. En rendant l'inférence de modèles frontier économiquement viable à l'échelle de l'entreprise, cette infrastructure change la donne pour toute organisation souhaitant intégrer des agents IA dans ses processus métier. Pour sécuriser ce déploiement, NVIDIA a doté chaque employé d'une machine virtuelle cloud dédiée connectée via SSH, dans laquelle l'agent Codex opère en sandbox avec une politique de rétention zéro donnée. Les agents n'accèdent aux systèmes de production qu'en lecture seule, garantissant auditabilité complète sans exposition des données internes. Jensen Huang, PDG et fondateur de NVIDIA, a incité l'ensemble de ses équipes à adopter l'outil dans un email interne : "Passons à la vitesse de la lumière. Bienvenue dans l'ère de l'IA." Ce lancement s'inscrit dans plus de dix ans de collaboration entre NVIDIA et OpenAI, une relation qui remonte à 2016 lorsque Jensen Huang avait livré en mains propres le premier supercalculateur DGX-1 au siège d'OpenAI à San Francisco. Depuis, les deux entreprises co-développent l'ensemble de la pile IA : NVIDIA était partenaire dès le premier jour pour le lancement du modèle open-weight gpt-oss d'OpenAI, en optimisant les poids du modèle pour TensorRT-LLM et des frameworks comme vLLM et Ollama. OpenAI s'est engagé à déployer plus de 10 gigawatts de systèmes NVIDIA pour sa prochaine infrastructure, mobilisant des millions de GPU pour l'entraînement et l'inférence dans les années à venir. Les deux sociétés sont également partenaires en co-conception matérielle, OpenAI contribuant au roadmap hardware de NVIDIA en échange d'un accès anticipé aux nouvelles architectures, ce qui a abouti à la mise en service commune du premier cluster de 100 000 GPU GB200 NVL72.

LLMsActu
1 source
OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex
683MarkTechPost 

OpenAI publie en open source Euphony, un outil de visualisation web pour les données Harmony Chat et les sessions Codex

OpenAI a publié en open source Euphony, un outil de visualisation fonctionnant directement dans le navigateur, conçu pour transformer des données de conversation structurées en vues interactives lisibles. L'outil prend en charge deux formats propriétaires d'OpenAI : les conversations au format Harmony et les fichiers de session Codex au format JSONL. Euphony peut ingérer ces données de trois manières : en collant du JSON directement depuis le presse-papiers, en chargeant un fichier local, ou en pointant vers une URL publique, y compris des datasets hébergés sur Hugging Face. Une fois les données chargées, l'outil détecte automatiquement le format et rend une timeline de conversation navigable, avec un panneau d'inspection des métadonnées, un mode grille pour parcourir rapidement de grands datasets, un mode édition pour modifier le contenu JSONL dans le navigateur, et un filtrage basé sur JMESPath pour interroger les structures JSON complexes. Ce problème est concret pour quiconque travaille avec des agents IA multi-étapes : un agent Codex qui lit des fichiers, appelle des API, génère du code et révise ses propres sorties peut produire des centaines de lignes de JSON brut, où tokens bruts, chaînes décodées et métadonnées structurées s'entremêlent. Sans outillage dédié, retracer ce que le modèle faisait à chaque étape revient à reconstituer un puzzle sans image de référence. Euphony répond directement à ce besoin en rendant exploitable une richesse de données qui jusqu'ici restait enfouie dans des fichiers difficilement lisibles à l'œil nu. Pour les équipes d'évaluation et de fine-tuning, la possibilité d'inspecter des champs de métadonnées par conversation, scores, sources, labels, directement dans l'interface représente un gain de productivité significatif. Le contexte technique éclaire pourquoi cet outil était nécessaire. Le format Harmony, utilisé pour entraîner la série de modèles open-weight gpt-oss d'OpenAI, est structurellement plus riche qu'un format de chat standard : il supporte des sorties multi-canaux (raisonnement, appels d'outils, réponses normales dans une même conversation), des hiérarchies d'instructions basées sur les rôles (system, developer, user, assistant) et des namespaces d'outils nommés. Cette richesse est précieuse pour l'entraînement et l'évaluation, mais elle rend l'inspection manuelle particulièrement pénible. Euphony est disponible en deux modes : un mode purement frontend sans dépendance serveur, activé via la variable d'environnement VITEEUPHONYFRONTEND_ONLY=true, et un mode assisté par un serveur FastAPI local qui gère le chargement de datasets volumineux et le rendu Harmony côté backend. L'outil est également conçu pour être intégré comme composant web dans d'autres applications, ce qui ouvre la voie à une adoption dans des pipelines d'évaluation ou des interfaces internes d'équipes IA.

OutilsOutil
1 source
684MarkTechPost 

xAI lance des API autonomes de reconnaissance et synthèse vocale Grok pour les développeurs entreprise

xAI, la société d'intelligence artificielle d'Elon Musk, a lancé deux nouvelles API audio autonomes : une API de transcription vocale (Speech-to-Text) et une API de synthèse vocale (Text-to-Speech), toutes deux basées sur la même infrastructure qui alimente Grok Voice sur les applications mobiles, les véhicules Tesla et le support client Starlink. L'API STT est disponible dès maintenant, avec transcription en 25 langues, modes batch et temps réel, à des tarifs de 0,10 dollar par heure en batch et 0,20 dollar en streaming. L'API TTS, elle, est facturée 4,20 dollars par million de caractères, prend en charge 20 langues et propose cinq voix distinctes. Les deux API entrent directement en concurrence avec les acteurs établis du marché : ElevenLabs, Deepgram et AssemblyAI. Ces nouveaux outils s'adressent en priorité aux développeurs qui construisent des agents vocaux, des systèmes de transcription de réunions, des centres d'appels automatisés ou des fonctionnalités d'accessibilité. Sur le plan technique, l'API STT intègre des horodatages au niveau du mot, la diarisation des locuteurs (identification de qui parle à quel moment), le support de 12 formats audio et une normalisation intelligente du texte qui convertit automatiquement les formes orales en formats lisibles. L'API TTS se distingue par sa capacité à injecter des balises expressives dans le texte, comme [laugh], [sigh] ou des balises enveloppantes comme whisper et emphasis, permettant une synthèse vocale naturelle et nuancée, loin de la monotonie des systèmes classiques. Sur les benchmarks internes, xAI revendique un taux d'erreur de 5,0 % pour la reconnaissance d'entités sur appels téléphoniques, contre 12,0 % pour ElevenLabs, 13,5 % pour Deepgram et 21,3 % pour AssemblyAI. Ce lancement s'inscrit dans une stratégie d'expansion agressive de xAI, qui cherche à monétiser ses capacités audio au-delà de l'écosystème Grok et à conquérir un marché entreprise où la qualité de transcription et la latence sont des critères décisifs. Le marché des API vocales connaît une forte croissance portée par l'essor des agents IA conversationnels, des outils de réunion automatisés et des interfaces vocales embarquées. Si les performances annoncées se confirment en production, xAI dispose d'un avantage compétitif tangible face à des concurrents bien établis, mais les développeurs attendront des validations indépendantes avant de migrer leurs infrastructures critiques vers une plateforme encore jeune.

💬 Les chiffres du benchmark STT sont impressionnants, 5% d'erreur contre 21% pour AssemblyAI, bon, sur le papier. Le pricing est agressif et les features (diarisation, balises expressives) montrent qu'ils ont bossé le sujet sérieusement, pas juste un wrapper OpenAI Whisper habillé. Reste à voir si ça tient en prod sur des accents français ou du bruit ambiant réel, parce que les benchmarks internes de xAI, j'attends la validation communautaire avant de migrer quoi que ce soit.

OutilsOutil
1 source
685MarkTechPost 

Implémentation pratique de systèmes multi-agents avec SmolAgents : exécution de code, appels d'outils et orchestration dynamique

SmolAgents, le framework minimaliste d'agents IA publié par HuggingFace, fait l'objet d'un tutoriel technique détaillé montrant comment construire des systèmes multi-agents prêts pour la production. La version stable utilisée est la 1.24.0, couplée au modèle OpenAI gpt-4o-mini via l'interface LiteLLM. Le tutoriel couvre l'ensemble de la chaîne : installation des dépendances (smolagents, duckduckgo-search, wikipedia), configuration sécurisée des clés API, création d'outils personnalisés (conversion de températures, vérification de nombres premiers, stockage clé-valeur en mémoire), puis orchestration de plusieurs agents collaborant entre eux. Deux paradigmes d'agents sont explorés en parallèle : le CodeAgent, qui génère et exécute du code Python dans un environnement sandbox, et le ToolCallingAgent, qui appelle des outils de façon structurée. Depuis la version 1.8.0, la gestion multi-agents se fait en passant directement des sous-agents via le paramètre managedagents, la classe ManagedAgent ayant été supprimée. Ce type de tutoriel révèle l'état réel des pratiques en matière de développement d'agents IA en 2025 : les développeurs cherchent des frameworks légers, modulaires et transparents, en réaction à la complexité des solutions précédentes comme LangChain ou AutoGen. SmolAgents répond à ce besoin en exposant une boucle d'exécution simple (tâche, génération de code, exécution, observation, itération jusqu'à finalanswer()), tout en permettant une gestion dynamique des outils via un dictionnaire agent.tools modifiable à la volée. Pour les équipes qui construisent des applications IA en production, cette approche réduit les abstractions inutiles et facilite le débogage, deux points critiques lorsque les agents opèrent dans des environnements réels avec des données sensibles ou des contraintes de latence. L'essor de SmolAgents s'inscrit dans une tendance plus large : après l'enthousiasme pour les agents autonomes "tout-en-un", l'industrie converge vers des architectures modulaires où des agents spécialisés collaborent plutôt qu'un seul agent tente de tout faire. HuggingFace, fort de sa communauté open-source et de son écosystème de modèles, positionne SmolAgents comme l'alternative légère aux frameworks propriétaires, compatible avec des LLMs locaux ou des API tierces. La suppression de ManagedAgent en v1.8.0 illustre la maturité croissante du framework et sa volonté de simplifier l'API à mesure que les cas d'usage se stabilisent. Les prochaines évolutions attendues portent sur l'intégration native d'outils de recherche, de mémoire persistante et de sandboxing renforcé, des briques essentielles pour déployer des agents dans des contextes d'entreprise.

UEHuggingFace, entreprise fondée en France, consolide son écosystème open-source avec SmolAgents, offrant aux équipes de développement européennes une alternative légère et auditable aux frameworks d'agents propriétaires.

💬 SmolAgents fait exactement ce qu'il promet : rester petit. Après des mois à me battre avec LangChain sur des trucs qui auraient dû prendre 10 lignes, voir un framework qui expose sa boucle d'exécution à plat, sans magie cachée, c'est presque reposant. Reste à voir si ça tient quand les agents tournent avec de vraies contraintes de latence et des données sensibles, mais c'est le bon pari.

OutilsTuto
1 source
686Frandroid 

Un clone virtuel pour le patron : Meta développe une IA de Mark Zuckerberg pour ses employés

Meta développe actuellement une version IA photoréaliste de Mark Zuckerberg destinée à interagir avec les quelque 79 000 employés du groupe à travers le monde. Ce clone numérique permettrait aux collaborateurs d'obtenir des réponses ou des orientations de la part du PDG, même lorsque celui-ci est indisponible. Le projet s'inscrit dans les efforts plus larges de Meta pour déployer des agents conversationnels au sein de ses propres opérations internes. L'initiative soulève des questions profondes sur la nature de la communication managériale en entreprise. Déléguer la voix d'un dirigeant à un système d'IA représente un changement de paradigme majeur : les employés ne sauront plus avec certitude si les réponses qu'ils reçoivent émanent de leur patron réel ou de son avatar algorithmique. Pour une organisation de la taille de Meta, cela pourrait accélérer la diffusion de décisions et de directives, mais au risque de diluer l'authenticité des échanges humains et de créer une confusion sur l'accountability réelle. Cette démarche survient alors que Meta investit massivement dans les agents IA, aussi bien pour ses produits grand public que pour ses usages internes. Zuckerberg lui-même a multiplié les déclarations sur l'intégration de l'IA dans le fonctionnement quotidien de l'entreprise. Plusieurs grands groupes technologiques explorent des systèmes similaires pour automatiser des interactions internes, mais Meta serait l'un des premiers à pousser l'idée jusqu'à créer un double numérique du PDG en personne. Les implications éthiques, notamment en termes de transparence et de consentement des employés, restent entières.

SociétéActu
1 source
687MarkTechPost 

Tutoriel Google ADK : pipeline multi-agents pour chargement de données, tests statistiques, visualisation et rapports en Python

Google a publié son Agent Development Kit (ADK), un framework Python open source permettant de construire des systèmes multi-agents capables de réaliser des analyses de données complexes de bout en bout. Un tutoriel détaillé illustre comment assembler un pipeline complet en Python, en utilisant Google ADK aux côtés de bibliothèques établies comme pandas, numpy, scipy, matplotlib et seaborn, ainsi que le modèle GPT-4o-mini d'OpenAI via l'interface LiteLLM. Le système s'articule autour d'un agent analyste central qui orchestre plusieurs agents spécialisés, chacun responsable d'une tâche précise : chargement des données, exploration statistique, tests d'hypothèses, transformations de tableaux, génération de visualisations et production de rapports. L'installation ne nécessite que quelques commandes pip, et l'accès à l'API est sécurisé dès le départ via des variables d'environnement ou les secrets Colab. Ce type d'architecture multi-agents représente un changement concret dans la façon dont les data scientists et les équipes analytiques peuvent automatiser leurs flux de travail. Plutôt que d'enchaîner manuellement des scripts disparates, un agent coordinateur distribue les tâches à des spécialistes, ce qui rend le pipeline modulaire, testable et extensible sans réécriture complète. L'utilisation d'un DataStore centralisé sous forme de singleton garantit que tous les agents partagent le même état et que les résultats intermédiaires restent accessibles tout au long du processus. Pour les entreprises qui manipulent régulièrement de grands volumes de données, ce modèle réduit la friction opérationnelle et ouvre la voie à des analyses reproductibles pilotées par des LLMs, sans dépendre d'une infrastructure lourde. L'annonce s'inscrit dans une tendance plus large : depuis début 2025, plusieurs acteurs majeurs ont lancé leurs propres frameworks d'agents IA, notamment Microsoft avec AutoGen, Anthropic avec son Model Context Protocol, et OpenAI avec ses Assistants API. Google ADK se distingue par son intégration native avec l'écosystème Google Cloud et sa compatibilité avec des modèles tiers via LiteLLM, ce qui le rend agnostique au fournisseur. Le tutoriel cible explicitement un usage en production, avec gestion des erreurs, sérialisation JSON robuste et sessions en mémoire via InMemorySessionService. La prochaine étape logique serait l'intégration avec des sources de données réelles, des bases de données SQL ou des API métier, transformant ce pipeline pédagogique en socle d'une véritable plateforme d'analyse autonome.

OutilsOutil
1 source
Construire un runtime d'agents local-first sécurisé avec OpenClaw Gateway, skills et exécution contrôlée des outils
688MarkTechPost 

Construire un runtime d'agents local-first sécurisé avec OpenClaw Gateway, skills et exécution contrôlée des outils

OpenClaw Gateway s'impose progressivement comme une solution de référence pour les développeurs souhaitant déployer des agents IA en environnement local, sans dépendance à une infrastructure cloud tierce. Le projet, distribué via npm sous le nom openclaw, s'installe en quelques commandes sur Node.js 22 et expose un serveur de contrôle sur le port 18789 en mode loopback, c'est-à-dire uniquement accessible depuis la machine locale. L'agent communique avec des modèles de langage via une couche de routage configurable, dans les exemples fournis, OpenAI GPT-4o-mini est utilisé comme modèle principal, et orchestre l'exécution d'outils et de compétences personnalisées (appelées « skills ») au travers d'un plan de contrôle centralisé. L'authentification aux APIs de modèles passe par des variables d'environnement, jamais par des secrets codés en dur, et le runtime dispose d'une interface de contrôle web optionnelle accessible via le chemin /openclaw. Ce type d'architecture répond à un besoin croissant dans l'industrie : faire fonctionner des agents autonomes dans des environnements contraints, isolés du réseau public, où la confidentialité des données et la maîtrise des appels aux modèles sont non négociables. Le binding en loopback empêche toute exposition accidentelle du gateway sur le réseau local ou internet, tandis que le mécanisme de timeout configurable sur l'outil exec (1 800 secondes par défaut) et la gestion propre des processus en arrière-plan permettent d'encadrer précisément ce que l'agent est autorisé à faire. Pour les équipes travaillant sur des workflows d'automatisation sensibles, traitement de documents confidentiels, pipelines DevOps internes, assistants métier, cette approche offre un cadre de sécurité que les solutions SaaS ne peuvent garantir par construction. La capacité à définir des skills structurées, découvrables et invocables de manière déterministe par l'agent constitue également un avantage notable pour la reproductibilité des comportements en production. OpenClaw s'inscrit dans une tendance plus large de «local-first AI», portée par des projets comme Ollama pour l'inférence locale ou LM Studio pour la gestion de modèles. Face aux préoccupations réglementaires croissantes autour du traitement des données personnelles, RGPD en Europe, diverses lois sectorielles aux États-Unis, et à la méfiance envers les dépendances cloud critiques, plusieurs startups et équipes d'ingénierie cherchent à rapatrier le cycle complet de raisonnement des agents sur leur propre infrastructure. OpenClaw se positionne sur ce segment en proposant une couche d'abstraction entre le code applicatif Python ou JavaScript et les runtimes de modèles, avec une configuration déclarative en JSON. La prochaine étape logique sera probablement l'intégration native de modèles open source via des backends comme Ollama, pour s'affranchir totalement des API propriétaires tout en conservant la rigueur du contrôle d'exécution.

UELe mode local-first et l'absence de dépendance cloud facilitent la conformité RGPD pour les équipes européennes traitant des données personnelles.

💬 C'est le genre de projet qui arrive au bon moment, quand les DPO commencent à bloquer systématiquement les intégrations SaaS IA dans les grandes boîtes. Le binding loopback par défaut et la définition des skills en JSON déclaratif, c'est exactement ce qu'il faut pour convaincre une équipe sécu que ton agent ne va pas exfiltrer des données sensibles par accident. Reste à voir si l'écosystème grossit assez vite avant qu'un acteur plus connu ne sorte la même chose avec dix fois les ressources derrière.

OutilsOutil
1 source
689Le Big Data 

Comment HubSpot révolutionne le marketing avec l’IA ?

HubSpot a intégré en 2024 et 2025 un écosystème d'agents IA autonomes, baptisé Breeze, directement dans sa plateforme CRM utilisée par plus de 288 000 clients. Lancé officiellement lors de l'INBOUND 2024 puis enrichi jusqu'en 2026, Breeze se décompose en trois couches : un assistant conversationnel généraliste (Breeze Assistant), des agents spécialisés par fonction (Breeze Agents), et plus de 80 fonctionnalités IA intégrées comme l'AI Blog Writer, le Content Remix ou le scoring prédictif de leads. Parmi ces agents, le Prospecting Agent surveille les comptes cibles, détecte les signaux d'intention d'achat et rédige des emails personnalisés en autonomie, déjà adopté par plus de 10 000 clients. Un Customer Agent prend en charge le support client de bout en bout. Ces agents se configurent en quelques heures et restent traçables et contrôlables par les équipes. L'impact est mesurable : selon une enquête interne HubSpot, 72 % des startups utilisant ces outils constatent une amélioration de l'up-sell et du cross-sell, et 37 % observent une baisse significative de leur coût d'acquisition client. Le Prospecting Agent permettrait de presque doubler le volume de rendez-vous qualifiés. Au-delà des chiffres, le changement de paradigme est structurel : les équipes marketing et commerciales passent de l'exécution manuelle de tâches répétitives à une supervision stratégique, pendant que les agents gèrent la prospection, la création de contenu et le support. Pour les PME et startups B2B, l'enjeu est direct, automatiser des workflows complets sans recruter, avec une cohérence de données garantie par le CRM natif. Ce virage s'inscrit dans un contexte où le comportement des acheteurs a profondément changé : plus de six recherches sur dix ne génèrent désormais aucun clic, les réponses étant fournies directement par des assistants IA ou des extraits enrichis dans les moteurs de recherche. Les tunnels de conversion classiques, fondés sur des scénarios "si X alors Y", montrent leurs limites face à des parcours d'achat de plus en plus fragmentés et imprévisibles. HubSpot répond à cette rupture en positionnant Breeze comme une couche d'intelligence unifiée, appuyée sur les données CRM de chaque entreprise, ce qui la différencie des solutions IA génériques. La concurrence avec Salesforce Einstein, Microsoft Dynamics ou des outils comme Clay s'intensifie, et la capacité à proposer des agents prêts à l'emploi, sans développement sur mesure, devient un avantage décisif pour capter les équipes RevOps des entreprises de taille intermédiaire.

UELes PME et startups B2B françaises utilisant HubSpot peuvent automatiser leur prospection et support client via Breeze sans développement sur mesure.

OutilsOutil
1 source
Supervision humaine dans les workflows d'agents autonomes en santé et sciences du vivant
690AWS ML Blog 

Supervision humaine dans les workflows d'agents autonomes en santé et sciences du vivant

Amazon Web Services a publié un guide technique détaillant quatre approches concrètes pour intégrer une supervision humaine dans les workflows d'agents IA déployés dans le secteur de la santé et des sciences du vivant. Ces architectures s'appuient sur le framework Strands Agents, Amazon Bedrock AgentCore Runtime et le Model Context Protocol (MCP), et sont conçues pour répondre aux exigences réglementaires GxP qui imposent une traçabilité complète de chaque décision sensible. Les quatre méthodes présentées couvrent des scénarios différents : interruption via un système de hooks dans la boucle agentique, contrôle intégré directement dans la logique des outils, délégation asynchrone à un approbateur externe via AWS Step Functions et Amazon SNS, et enfin l'élicitation native du protocole MCP pour une approbation interactive en temps réel via des événements server-sent (SSE). L'enjeu est considérable pour les établissements de santé et les laboratoires pharmaceutiques qui automatisent des opérations à fort impact : codification médicale, soumissions réglementaires, accès aux données de patients ou modification de protocoles d'essais cliniques. Sans point de contrôle humain formalisé, ces systèmes ne peuvent pas satisfaire aux exigences GxP, qui imposent une autorisation documentée avant toute action sur des données de santé protégées (PHI). L'architecture proposée distingue explicitement les niveaux de risque : une recherche du nom d'un patient s'exécute sans validation, la consultation de ses constantes vitales ou antécédents médicaux déclenche une demande d'autorisation humaine, et un acte comme une sortie hospitalière nécessite l'approbation d'un superviseur externe notifié par email. Cette gradation permet de préserver les gains d'efficacité de l'automatisation tout en maintenant la sécurité des patients et la conformité réglementaire. L'émergence des agents IA dans les environnements GxP crée une tension fondamentale entre autonomie des systèmes et obligations légales de surveillance. Le secteur pharmaceutique et hospitalier est soumis à des audits stricts qui exigent de pouvoir retracer qui a approuvé quoi, et à quel moment, pour chaque opération sensible. AWS positionne ici ses services managés comme une infrastructure d'entreprise capable d'absorber ces contraintes sans ralentir les pipelines de traitement clinique. Le choix d'une architecture serverless via AgentCore Runtime vise l'isolation des sessions et la scalabilité, deux propriétés critiques pour des environnements multi-établissements. Le code de l'ensemble des patterns est disponible publiquement sur GitHub, ce qui suggère une stratégie d'adoption large : AWS cherche à s'imposer comme la référence d'infrastructure pour l'IA agentique réglementée, un marché en forte croissance à mesure que les hôpitaux et les grands groupes pharmaceutiques passent à l'échelle leurs expérimentations en production.

UELes établissements de santé et laboratoires pharmaceutiques européens soumis aux réglementations GxP et à la certification HDS peuvent adapter ces patterns d'architecture pour conformer leurs déploiements d'agents IA aux exigences de traçabilité et d'approbation documentée imposées par les autorités sanitaires européennes.

OutilsOutil
1 source
Les patterns d'IA à base d'agents renforcent la rigueur d'ingénierie
691InfoQ AI 

Les patterns d'IA à base d'agents renforcent la rigueur d'ingénierie

Paul Duvall a récemment présenté sa bibliothèque de patterns d'ingénierie conçus pour encadrer le développement assisté par IA. Ces modèles visent à structurer les pratiques autour des agents IA afin de garantir une livraison logicielle de haute qualité. Les réflexions de Paul Stack et Gergely Orosz, publiées dans le même contexte, pointent vers une mutation profonde des méthodes de développement, notamment l'émergence du développement piloté par spécifications et du « remixage » de code existant. Cette évolution marque un tournant pour les équipes d'ingénierie : à mesure que les agents IA prennent en charge des tâches de plus en plus complexes, la rigueur disciplinaire — tests, revues, spécifications claires — devient non pas moins nécessaire, mais davantage critique. Sans cadres solides, l'automatisation amplifie les erreurs autant que les gains de productivité. Le débat s'inscrit dans une tendance plus large où des figures influentes du secteur tech cherchent à codifier les bonnes pratiques autour de l'IA générative appliquée au code. Alors que des outils comme GitHub Copilot, Cursor ou les agents autonomes se répandent dans les entreprises, la question n'est plus de savoir si l'IA peut écrire du code, mais comment encadrer ce processus pour éviter la dette technique et les régressions systémiques.

OutilsOutil
1 source
Databricks va investir 850 millions de dollars dans ses opérations d'IA au Royaume-Uni
692AI Business 

Databricks va investir 850 millions de dollars dans ses opérations d'IA au Royaume-Uni

Databricks va investir 850 millions de dollars au Royaume-Uni pour renforcer ses opérations d'intelligence artificielle dans le pays. L'entreprise américaine, spécialisée dans les plateformes de données et d'IA, prévoit d'agrandir son hub londonien, de recruter et former des talents locaux en IA, et de répondre à une demande en forte croissance pour ses outils d'IA agentique — des systèmes capables d'agir de manière autonome pour accomplir des tâches complexes. Cet investissement massif positionne le Royaume-Uni comme un centre stratégique pour Databricks en Europe, au moment où la demande enterprise pour les infrastructures d'IA s'accélère. Pour les entreprises britanniques, cela se traduit par un accès renforcé aux technologies de traitement de données à grande échelle et aux agents IA, qui automatisent des workflows entiers sans intervention humaine continue — un enjeu de compétitivité croissant pour les secteurs finance, santé et industrie. Ce mouvement s'inscrit dans une vague d'investissements technologiques massifs au Royaume-Uni, où le gouvernement cherche activement à attirer les géants de l'IA. Databricks, valorisée à plus de 62 milliards de dollars après sa levée de fonds de 15 milliards en janvier 2025, intensifie sa rivalité avec Snowflake et les clouds hyperscalers sur le segment des données et de l'IA d'entreprise. L'essor de l'IA agentique, nouveau terrain de croissance du secteur, rend ce type d'implantation locale stratégique pour conquérir les grands comptes européens.

UEL'expansion de Databricks au Royaume-Uni crée un hub européen qui renforce l'accès des entreprises françaises et continentales aux plateformes de données et d'IA agentique enterprise.

BusinessActu
1 source
Une implémentation de code pour concevoir un moteur de compétences auto-évolutif avec OpenSpace : apprentissage de compétences, efficacité des tokens et intelligence collective
693MarkTechPost 

Une implémentation de code pour concevoir un moteur de compétences auto-évolutif avec OpenSpace : apprentissage de compétences, efficacité des tokens et intelligence collective

OpenSpace, un moteur de compétences auto-évolutif développé par HKUDS, permet aux agents IA d'apprendre et de réutiliser des compétences accumulées au fil des tâches, réduisant ainsi les coûts de traitement. Le système s'appuie sur trois modes d'évolution (FIX, DERIVED, CAPTURED) et une base de données SQLite pour stocker les compétences réutilisables. Sur le benchmark GDPVal (50 tâches professionnelles réelles), OpenSpace démontre une amélioration de 4,2x des performances et une réduction de 46 % des tokens consommés, avec une plateforme communautaire open-space.cloud permettant le partage de compétences entre agents.

OutilsPaper
1 source
Meta recrute une équipe star de l’IA pour créer les assistants du futur
694Siècle Digital 

Meta recrute une équipe star de l’IA pour créer les assistants du futur

Meta renforce ses capacités en agents IA en recrutant une équipe spécialisée, dans une démarche qui s'apparente à une acquisition sans rachat formel. Cette initiative s'inscrit dans la tendance générale autour des assistants IA, illustrée par des projets comme OpenClaw et NemoClaw (Nvidia). Meta cherche ainsi à rester compétitif dans la course aux agents IA du futur.

BusinessActu
1 source
☕️ Pour le patron de Grammarly, tout expert pourrait tirer profit d’agents d’IA à son nom
695Next INpact 

☕️ Pour le patron de Grammarly, tout expert pourrait tirer profit d’agents d’IA à son nom

Grammarly (rebaptisée Superhuman après une levée de fonds d'un milliard de dollars) a suspendu le 12 mars sa fonctionnalité « Expert Review », qui imitait le style d'auteurs et journalistes réels sans leur consentement — une décision prise par son PDG Shishir Mehrotra, qui reconnaît que l'outil était une « mauvaise fonctionnalité ». La journaliste Julia Angwin et d'autres poursuivent désormais l'entreprise en justice aux États-Unis pour usage non consenti de leur identité. Mehrotra esquisse un nouveau modèle : des agents IA représentant des experts, avec une répartition des revenus à 70 % pour l'auteur et 30 % pour la plateforme.

UELe RGPD et l'AI Act encadrent strictement l'usage de l'identité et des données personnelles sans consentement, rendant une fonctionnalité similaire illégale en Europe avant même tout recours judiciaire.

ÉthiqueOpinion
1 source
Le DSI de Cohesity explique comment l'IA peut rogner les revenus de ServiceNow et Splunk
696The Information AI 

Le DSI de Cohesity explique comment l'IA peut rogner les revenus de ServiceNow et Splunk

Brian Spanswick, DSI de Cohesity (plus de 2 milliards de dollars de chiffre d'affaires), estime pouvoir réduire de moitié les dépenses en outils d'automatisation de son département IT de 400 personnes grâce aux agents IA. Ces économies cibleraient principalement les modules complémentaires vendus par des éditeurs comme ServiceNow, Splunk ou Salesforce. Le vrai risque pour ces acteurs n'est pas le remplacement immédiat de leurs plateformes, mais le gel des dépenses supplémentaires de leurs clients existants.

BusinessOpinion
1 source
World lance un outil pour vérifier les humains derrière les agents d'achat IA
697TechCrunch AI 

World lance un outil pour vérifier les humains derrière les agents d'achat IA

World, la startup de Sam Altman, lance un outil de vérification destiné à confirmer qu'un humain réel se trouve derrière les agents IA qui effectuent des achats en ligne. Face à la montée du commerce agentique, l'entreprise cherche à étendre ses offres de vérification d'identité pour sécuriser les transactions automatisées.

UELe développement de standards de vérification d'identité pour agents IA pourrait influencer les futures réglementations européennes sur le commerce automatisé et l'identité numérique.

OutilsOutil
1 source
OpenClaw séduit massivement, Nvidia veut désormais le rendre plus sûr
698Siècle Digital 

OpenClaw séduit massivement, Nvidia veut désormais le rendre plus sûr

Nvidia, lors de la conférence GTC 2026 avec Jensen Huang, s'est positionné sur la sécurité des agents IA autonomes en s'appuyant sur OpenClaw. Face à l'essor de ces outils capables d'agir seuls sur un ordinateur, la sécurité reste un défi majeur. Nvidia entend structurer l'avenir de l'IA personnelle autour de ce framework tout en renforçant ses garanties de sûreté.

UEL'adoption d'OpenClaw comme standard pour les agents IA autonomes pourrait influencer les exigences de conformité à l'AI Act européen concernant les systèmes à haut risque.

OutilsActu
1 source
Meta rachète Moltbook, le réseau social pour IA : génie ou move idiot comme le métavers ?
699Le Big Data 

Meta rachète Moltbook, le réseau social pour IA : génie ou move idiot comme le métavers ?

Meta a acquis Moltbook, une plateforme expérimentale de type Reddit où des agents IA (connectés via OpenClaw à ChatGPT, Claude, Gemini, Grok) publient et interagissent entre eux — les fondateurs Matt Schlicht et Ben Parr rejoignent Meta Superintelligence Labs. L'objectif de Meta serait de créer un annuaire permanent d'agents IA capables de collaborer automatiquement sur des tâches complexes. La plateforme avait fait polémique suite à un post viral suggérant que des agents créaient un langage chiffré secret, mais des chercheurs en cybersécurité ont révélé que c'était surtout dû à de graves failles de sécurité exposant des données d'authentification.

BusinessActu
1 source
NVIDIA AI dévoile Nemotron-Terminal : un pipeline systématique d'ingénierie des données pour le passage à l'échelle des agents LLM en terminal
700MarkTechPost 

NVIDIA AI dévoile Nemotron-Terminal : un pipeline systématique d'ingénierie des données pour le passage à l'échelle des agents LLM en terminal

NVIDIA dévoile Nemotron-Terminal, un framework complet pour entraîner des agents IA autonomes en ligne de commande, incluant le pipeline Terminal-Task-Gen et le dataset Terminal-Corpus. La solution adopte une approche "coarse-to-fine" : adaptation de datasets existants (163 000 prompts mathématiques, 35 000 prompts code, 32 000 prompts SWE) combinée à une génération synthétique de tâches basée sur une taxonomie de compétences terminal couvrant 9 domaines (sécurité, data science, administration système, etc.). Ce framework vise à résoudre le manque criant de données d'entraînement pour les agents terminal, un problème qui freinait jusqu'ici des projets comme Claude Code ou Codex CLI.

OutilsPaper
1 source