Aller au contenu principal
Conseil sur le feedback des agents
OutilsBen's Bites6sem· 2 min de lecture

Conseil sur le feedback des agents

Source originale ↗·

Un développeur partage une technique récente pour fluidifier ses échanges avec des agents IA : plutôt que de taper ses retours ou d'utiliser la dictée vocale, il enregistre son écran en commentant à voix haute ce qu'il fait, puis fournit cette vidéo directement à l'agent. Ce dernier analyse les images, transcrit la voix, extrait les moments clés horodatés et génère un rapport HTML structuré, avec des GIFs illustrant les points importants et une liste d'actions à accomplir. La méthode permet aussi de naviguer vers d'autres applications pour montrer des exemples de référence, que l'agent intègre dans son analyse. Ben a formalisé cette approche en une "skill" réutilisable baptisée video-to-html, qui instruit l'agent pour convertir n'importe quelle vidéo en document HTML structuré avec keyframes, horodatages et animations courtes. Les fichiers générés servent également de journal de bord du projet, consultables à tout moment.

Cette technique s'attaque à un problème concret dans les workflows avec des agents : la difficulté à communiquer un retour visuel précis et contextualisé. Là où les feedbacks textuels restent abstraits et les captures d'écran statiques, la vidéo permet de montrer l'interface en situation réelle, de naviguer entre applications, et de commenter en temps réel ce qui fonctionne ou non. L'approche consomme davantage de tokens, mais l'auteur note que les agents analysent efficacement les frames extraites, rendant une compression préalable via ffmpeg superflue pour la plupart des usages. Pour les équipes travaillant régulièrement avec des agents de développement ou de design, ce type de boucle de feedback visuel structuré pourrait accélérer les itérations de manière significative, en réduisant les allers-retours d'éclaircissement.

Cette semaine apporte également plusieurs annonces importantes pour l'écosystème IA. Anthropic a annoncé un changement de politique à compter du 15 juin : les utilisateurs de Claude via des outils tiers comme Cursor, Zed ou T3 Code disposeront d'un quota distinct, équivalent en valeur à leur abonnement mensuel, sans report possible ni tokens subventionnés au-delà. En compensation, les limites hebdomadaires augmentent de 50 % pendant les deux prochains mois. Vercel, de son côté, a publié un index de production basé sur l'usage réel de son AI Gateway : Anthropic capte 61 % des dépenses (porté par Opus), Google représente 38 % des volumes de tokens (grâce à Flash), et les workloads agentiques constituent désormais 59 % de la totalité des tokens consommés. Notion a lancé une plateforme développeur avec une API markdown permettant la synchronisation de données externes et l'intégration d'agents comme Claude directement dans l'outil, accompagnée d'un CLI nommé ntn. Google a présenté "Gemini Intelligence" pour Android, incluant l'autocomplétion de formulaires et la transformation de notes vocales en texte structuré, à quelques jours de sa conférence I/O.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Utiliser des agents de code en local
1Ahead of AI 

Utiliser des agents de code en local

Il est désormais possible de faire tourner un agent de programmation complet entièrement en local, sans dépendre d'OpenAI, Anthropic ou d'un autre service propriétaire. Le principe repose sur deux composants : un modèle de langage open-weight hébergé localement via un serveur d'inférence, et un "harness" de codage, c'est-à-dire une couche logicielle qui permet au modèle de lire des fichiers, effectuer des modifications, exécuter des commandes et vérifier les changements produits. Des outils populaires comme Codex CLI ou Claude Code peuvent ainsi être reconfigurés pour pointer vers un modèle local plutôt que vers les API cloud de leurs éditeurs respectifs. Des alternatives plus spécialisées existent également : Qwen-Code (optimisé pour Qwen3.6), OpenCode, Cline ou encore Noumena Code. L'auteur de ce tutoriel, qui utilise toujours Codex et Claude Code comme outils principaux au quotidien, documente en détail comment assembler cette pile locale de bout en bout. Les avantages d'une telle configuration sont multiples et concrets. Sur le plan économique, le coût est ramené aux seules dépenses matérielles et électriques, indépendamment des limites d'abonnement ou des fluctuations tarifaires des API. Sur le plan de la confidentialité, des données sensibles comme des factures ou des documents internes ne transitent jamais hors du poste de travail, ce qui est impossible à garantir avec les services cloud. La reproductibilité constitue un autre atout : un modèle local ne change pas sans que l'utilisateur en décide, alors que des mises à jour silencieuses chez OpenAI (GPT-5.4 vers 5.5, par exemple) peuvent altérer des workflows existants. Enfin, l'usage hors-ligne reste possible, que ce soit en avion ou dans un lieu sans connexion stable. La montée en puissance des solutions locales s'inscrit dans un contexte de tensions croissantes autour des services propriétaires. Anthropic a récemment été accusé de brider les performances de son modèle phare dans certains contextes de recherche sur les LLM, ce qui illustre que les grands fournisseurs peuvent restreindre l'accès à leurs outils pour des raisons qui leur sont propres. Parallèlement, la qualité des modèles open-weight ne cesse de progresser, avec des acteurs comme Qwen (Alibaba) ou Mistral qui publient régulièrement des versions capables de rivaliser avec les offres commerciales sur les tâches de codage. Pour les développeurs soucieux de leur autonomie ou disposant du matériel adéquat, mettre en place un agent local pleinement opérationnel n'est plus une curiosité technique mais une alternative crédible et pérenne aux solutions des grandes plateformes.

UELes développeurs français peuvent s'appuyer sur Mistral comme modèle open-weight local pour garantir la confidentialité de leurs données et s'affranchir des contraintes tarifaires et légales des plateformes américaines.

💬 L'argument qui m'a vraiment convaincu, c'est la reproductibilité : une mise à jour silencieuse chez OpenAI peut casser un workflow qu'on a passé des semaines à fiabiliser, et tu l'apprends en prod. Les modèles open-weight ont atteint le niveau où la question n'est plus "est-ce assez bon pour du code ?" mais "est-ce que j'ai le GPU qu'il faut ?". Pour ceux qui ont le matos, c'est une vraie alternative, pas un bricolage.

OutilsTuto
1 source
Amazon Bedrock AgentCore : créer des agents IA pour le support métier
2AWS ML Blog 

Amazon Bedrock AgentCore : créer des agents IA pour le support métier

Works Human Intelligence (WHI), éditeur japonais du système RH intégré "COMPANY" utilisé par de grandes entreprises et organismes publics nippons, a collaboré avec le AWS Generative AI Innovation Center (GenAIIC) pour développer deux agents d'IA reposant sur Amazon Bedrock AgentCore. Le premier, le Commuting Allowance Agent, automatise la validation des demandes d'indemnités de transport lors d'événements comme les déménagements d'employés. Le second, le Browser Operation Agent, accède au système "COMPANY" au nom des clients pour vérifier des contenus, effectuer des opérations et collecter des preuves. Le résultat le plus marquant de cette collaboration est une réduction des coûts allant jusqu'à 97 %, combinée à une amélioration mesurable de l'efficacité opérationnelle des équipes support. Pour les départements RH de grandes organisations, la gestion quotidienne d'un système comme "COMPANY" génère un volume considérable de tâches répétitives : changements organisationnels, révisions des politiques salariales, mises à jour d'informations employés. L'automatisation via des agents d'IA permet de décharger les équipes opérationnelles de ces traitements routiniers, libérant du temps pour des missions à plus forte valeur ajoutée. La réduction de 97 % des coûts illustre concrètement ce que peut apporter une architecture bien conçue : WHI auto-hébergeait auparavant Langfuse pour surveiller ses agents, ce qui entraînait des coûts d'exploitation récurrents. La migration vers AgentCore Observability a supprimé cette charge. Pour l'industrie RH, ce cas démontre qu'il est possible de déployer des agents multi-tenants fiables, avec authentification via Amazon Cognito et gestion des tenants par Amazon DynamoDB, sans infrastructure monolithique difficile à faire évoluer. WHI avait initialement lancé un proof of concept avec LangGraph, Amazon ECS et AWS Fargate, mais la mise en disponibilité générale d'Amazon Bedrock AgentCore en cours de projet a conduit l'équipe à repenser l'architecture. Plutôt que de maintenir un ECS task monolithique où tous les composants s'exécutaient en bloc, la nouvelle architecture décompose les sous-agents pour les faire tourner individuellement sur l'AgentCore Runtime, ce qui facilite leur évolution future indépendante. Slack a été intégré comme point d'entrée, avec une authentification déclenchée au moment de chaque appel. WHI envisage également de remplacer l'agent superviseur actuel par Strands Agents à terme. Ce projet illustre une tendance croissante : les éditeurs de logiciels métier cherchent à enrichir leurs solutions avec des couches d'IA agentique en s'appuyant sur des services cloud managés pour absorber la complexité opérationnelle, plutôt que de maintenir leur propre outillage d'orchestration.

OutilsOutil
1 source
Anthropic intègre des agents IA dans Slack
3AI News 

Anthropic intègre des agents IA dans Slack

Anthropic a lancé en version bêta une fonctionnalité baptisée Claude Tag, disponible pour les abonnements Enterprise et Team, qui intègre son modèle d'IA directement dans les canaux partagés de Slack. Concrètement, n'importe quel membre d'une équipe peut invoquer l'agent en tapant @Claude dans un fil de discussion actif, lui déléguer une tâche, consulter ses résultats et reprendre la conversation là où elle s'était arrêtée. L'outil repose sur le moteur Opus 4.8 d'Anthropic et fonctionne de manière asynchrone : l'agent décompose les requêtes en étapes séquentielles, interroge les bases de données internes, les dépôts de code et les outils connectés, puis signale sa progression directement dans le canal. En mode "ambient", il surveille même les fils inactifs en autonomie, repère les notifications prioritaires et suit les tâches non résolues sur plusieurs jours sans attendre de sollicitation humaine. Ce lancement intervient peu après une levée de fonds de série H à 65 milliards de dollars qui a porté la valorisation post-money d'Anthropic à 965 milliards de dollars, devant OpenAI évalué à 852 milliards. L'enjeu de cette intégration dépasse le simple confort d'usage : elle repositionne l'IA comme un collaborateur visible et partagé plutôt qu'un outil privé consulté en solo. Jusqu'ici, les employés devaient copier-coller des données entre leur messagerie d'équipe et une fenêtre de chat séparée. Claude Tag supprime ce va-et-vient en loggant l'état des tâches directement dans Slack, ce qui permet à toute l'équipe de suivre l'exécution en temps réel et de ne pas ressaisir en permanence le contexte de leurs projets. Cat Wu, responsable produit de Claude Code chez Anthropic, a décrit à Reuters la puissance du format : "Pouvoir le taguer comme on le ferait avec un collègue, c'est vraiment fort." En interne, Anthropic génère déjà 65 % de son propre code via sa version privée de Claude Tag, signe que l'outil n'est pas qu'un argument commercial. Le lancement s'inscrit dans une bataille d'adoption enterprise qui se resserre. Selon l'AI Index de mai 2026 de la plateforme de dépenses Ramp, Anthropic affiche désormais un taux d'adoption en entreprise de 34,4 %, dépassant OpenAI à 32,3 %, alors que les deux sociétés se disputent les mêmes budgets IT. Anthropic a par ailleurs déposé un S-1 confidentiel en vue d'une introduction en bourse, et la conquête des espaces de travail numériques comme Slack constitue un levier de croissance direct pour valoriser cette perspective. Pour gérer les risques liés à la sécurité des données, des "identités Claude" cloisonnées par département peuvent être configurées par les administrateurs, avec des mémoires et intégrations d'outils strictement limitées aux canaux autorisés. Des journaux de requêtes complets et des plafonds d'utilisation mensuels complètent ce dispositif, ciblant autant les équipes techniques que les équipes non techniques chargées d'analyser des métriques ou de traiter des tickets de support interne.

UELes équipes françaises et européennes disposant d'abonnements Slack Enterprise ou Team peuvent dès à présent tester Claude Tag en bêta et transformer leur workflow collaboratif sans attendre de déploiement supplémentaire.

OutilsOutil
1 source
Des agents IA en production pour la conformite financiere : les lecons de Stripe
4AWS ML Blog 

Des agents IA en production pour la conformite financiere : les lecons de Stripe

Stripe, le géant américain des paiements en ligne, a déployé en production un système d'agents IA dédié à la conformité financière, développé sur Amazon Web Services avec Amazon Bedrock. L'entreprise traite 1 400 milliards de dollars de volume de paiements annuels dans 50 pays, en servant des millions d'entreprises allant des startups aux 62 % des sociétés du Fortune 500. Pour gérer les risques de fraude et respecter les obligations réglementaires à cette échelle, ses équipes de conformité devaient examiner des milliers de transactions chaque jour. Le système d'agents, conçu selon un cadre ReAct, a permis de réduire de 26 % le temps de traitement des dossiers, tout en obtenant un taux de satisfaction de 96 % auprès des analystes internes. Les décisions finales restent systématiquement entre les mains d'experts humains. Ce déploiement illustre un problème structurel que rencontrent toutes les grandes institutions financières : les analystes qualifiés passaient jusqu'à 80 % de leur temps à naviguer entre des systèmes fragmentés pour rassembler des documents, au lieu de réaliser des évaluations de risque à haute valeur ajoutée. L'agent IA automatise cette phase de pré-investigation et d'agrégation documentaire, libérant les équipes pour les jugements complexes. À l'échelle mondiale, le coût de la conformité financière est estimé à 206 milliards de dollars par an. L'approche de Stripe permettrait d'identifier 95 % des attaques par test de carte en temps réel et de réduire de 20 % les frictions inutiles pour les clients légitimes, tout en conservant la traçabilité intégrale exigée par les régulateurs grâce à des journaux d'audit immuables. La croissance rapide de Stripe, qui représente aujourd'hui environ 1,3 % du PIB mondial numérique, a rendu intenable une mise à l'échelle des équipes de conformité proportionnelle au volume de transactions. L'entreprise a opté pour une architecture en trois composantes : décomposition des tâches et orchestration des révisions, cadre d'agents ReAct, et services d'infrastructure dédiés. Une attention particulière a été portée à l'optimisation des coûts via le prompt caching et à la gouvernance, avec des workflows d'approbation configurables et des points de contrôle humains à chaque étape critique. Ce modèle, co-développé par les équipes de Stripe et d'AWS, est présenté comme une référence pour les organisations souhaitant industrialiser la conformité sans sacrifier la qualité ni l'auditabilité, dans un contexte où les régulateurs financiers du monde entier renforcent leurs exigences en matière de traçabilité des décisions assistées par IA.

UELes établissements financiers européens soumis aux obligations KYC/AML et aux futures exigences de traçabilité de l'AI Act peuvent s'appuyer sur ce retour d'expérience pour évaluer l'automatisation de leur conformité via des agents IA.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic