Aller au contenu principal
OutilsLatent Space5h· 2 min de lecture

Analyse dans une boucle de feedback où les agents s'améliorent d'eux-mêmes

Source originale ↗·

Roland Gavrilescu, cofondateur et PDG d'Introspection, s'est exprimé cette semaine lors de l'AI Engineer World's Fair à l'occasion de sa session intitulée « Autoresearch in the Wild ». Avant de lancer sa startup, Gavrilescu travaillait chez xAI sur l'infrastructure des agents et les agents cloud, où il a rencontré son cofondateur Julian Bright. Les deux hommes ont quitté xAI l'an dernier pour fonder Introspection, une entreprise qui construit l'infrastructure nécessaire au déploiement de systèmes dits « auto-améliorants ». Le concept central qu'ils défendent s'appelle l'autoresearch : il s'agit de construire une boucle externe dans laquelle des agents contribuent eux-mêmes à maintenir et améliorer le système principal, en s'appuyant sur des signaux de retour, des évaluations (evals) et des apports humains pour progresser dans le temps, sans dépendre en permanence d'une validation humaine à chaque étape.

Cette approche marque, selon Gavrilescu, un déplacement progressif de l'attention : d'abord centrée sur les modèles, puis sur les harnais applicatifs (harnesses), elle se concentre désormais sur les boucles de rétroaction elles-mêmes, qui deviennent le produit. L'enjeu pour les entreprises est de concevoir les bons mécanismes de feedback afin que les agents absorbent davantage de tâches sans pour autant générer du contenu de mauvaise qualité, ce que l'industrie appelle familièrement le « slop ». Introspection propose un second concept, celui de recette d'agent (agent recipe), un conteneur regroupant les évaluations, les juges automatisés, le traitement des signaux et l'expertise humaine capturée au fil du temps, inspiré des recettes de données utilisées en post-entraînement des modèles. L'objectif est de créer un format portable et indépendant des fournisseurs, que les agents peuvent eux-mêmes faire évoluer, à la manière d'un laboratoire de recherche autonome.

Pour Gavrilescu, la trajectoire empruntée par des entreprises comme Cursor et Cognition démontre déjà la viabilité de ces systèmes en production. La prochaine étape consiste à les rendre plus accessibles, plus rapides et moins coûteux, en distillant progressivement les capacités des modèles de pointe dans des systèmes détenus et personnalisés par chaque organisation. Cette évolution s'inscrit dans un mouvement plus large de l'ingénierie IA, où les équipes cherchent à automatiser non seulement la production de code ou de contenu, mais aussi l'amélioration continue de leurs propres outils, en s'appuyant sur des boucles qui apprennent d'abord des humains avant de gagner en autonomie. Reste à voir si ces « usines logicielles autonomes » sauront limiter les dérives de qualité tout en réduisant les coûts, un équilibre que plusieurs startups du secteur cherchent désormais à démontrer concrètement.

💬 L'analyse de Mathieu

Ce qui change avec Introspection, c'est que la boucle de feedback devient elle-même le produit, plus le modèle ni le harnais. Sur le papier, l'idée de recette d'agent portable et auto-améliorante a de l'allure, mais Cursor et Cognition restent deux exemples, pas une preuve généralisée. Reste à voir combien d'équipes tiendront ce genre de boucle en prod sans se noyer dans le slop.

Dans nos dossiers

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents
1AWS ML Blog 

AgentCore Optimization : AWS lance une boucle d'amélioration des performances des agents

Amazon a annoncé le lancement en préversion d'AgentCore Optimization, une nouvelle fonctionnalité intégrée à sa plateforme Amazon Bedrock AgentCore. Cette brique complète ce qu'Amazon appelle la boucle "observer, évaluer, améliorer" pour les agents IA en production. Concrètement, le système analyse automatiquement les traces de production, génère des recommandations d'optimisation pour les prompts système ou les descriptions d'outils, puis propose deux mécanismes de validation : l'évaluation par lot sur des jeux de données prédéfinis, et les tests A/B en conditions réelles via AgentCore Gateway, avec découpage du trafic en production à un pourcentage configurable et résultats assortis d'intervalles de confiance et de signification statistique. NTT DATA, partenaire annoncé lors du lancement, indique que des processus qui nécessitaient auparavant plusieurs semaines d'ajustement manuel de prompts peuvent désormais s'exécuter en cycles rapides et reproductibles. L'enjeu est de taille pour les équipes produit qui déploient des agents IA : la qualité d'un agent se dégrade silencieusement à mesure que les modèles évoluent, que le comportement des utilisateurs change, et que les prompts sont réutilisés dans des contextes imprévus. Jusqu'ici, la remédiation reposait entièrement sur l'intuition du développeur, lire des traces, formuler une hypothèse, réécrire le prompt, tester quelques cas, déployer, un cycle qui introduit souvent de nouveaux problèmes en corrigeant les anciens. AgentCore Optimization remplace cette boucle artisanale par un processus systématique fondé sur les données : les recommandations sont générées à partir des traces réelles et validées avant tout déploiement, éliminant la part de pari inhérente aux corrections en aveugle. Amazon Bedrock AgentCore, déjà utilisé par des milliers de développeurs pour construire des agents capables de raisonner et d'agir dans des workflows complexes, s'enrichit ainsi d'une couche d'amélioration continue qui manquait jusqu'à présent à l'écosystème. Les grandes équipes disposent certes d'équipes scientifiques dédiées et de benchmarks centralisés, mais ces dispositifs fonctionnent sur des cycles hebdomadaires ou mensuels, pendant que les agents dérivent en production chaque jour. En intégrant la traçabilité OpenTelemetry, les évaluateurs built-in (taux de succès, précision de sélection d'outils, sécurité), et la possibilité de simuler des jeux de données via un acteur LLM jouant le rôle de l'utilisateur final, Amazon positionne AgentCore comme une plateforme complète pour industrialiser l'optimisation des agents, une capacité qui pourrait devenir un critère de choix déterminant face à des concurrents comme Google Vertex AI ou Microsoft Azure AI Foundry.

UELes équipes européennes déployant des agents IA sur Amazon Bedrock peuvent désormais automatiser l'optimisation de leurs prompts et outils, réduisant des cycles d'ajustement manuel qui duraient plusieurs semaines à des itérations rapides et reproductibles.

OutilsOutil
1 source
Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark
2NVIDIA AI Blog 

Hermes permet aux agents IA de s'améliorer eux-mêmes, propulsés par les PC NVIDIA RTX et le DGX Spark

Hermes Agent, le nouveau framework d'agents IA développé par Nous Research, a franchi les 140 000 étoiles sur GitHub en moins de trois mois et s'est imposé la semaine dernière comme l'agent le plus utilisé au monde selon OpenRouter. Conçu pour fonctionner en local et en continu, il est optimisé pour tourner sur les GPU NVIDIA RTX, les stations de travail RTX PRO et les machines DGX Spark. Sa particularité principale est sa capacité d'auto-amélioration : à chaque tâche complexe ou retour utilisateur, Hermes enregistre ses apprentissages sous forme de compétences réutilisables, ce qui lui permet de s'améliorer au fil du temps sans intervention humaine. Il intègre également une architecture de sous-agents isolés, chacun dédié à une sous-tâche précise, ce qui réduit la confusion, minimise la taille des fenêtres de contexte nécessaires et rend le système plus fiable sur des modèles de 30 milliards de paramètres. Nous Research teste et valide chaque outil embarqué, ce qui distingue Hermes de la plupart des frameworks concurrents qui exigent un débogage constant. En parallèle, Alibaba a lancé la série Qwen 3.6, dont les modèles de 27 et 35 milliards de paramètres surpassent les versions précédentes de 120 et 400 milliards de paramètres, tout en nécessitant respectivement environ 20 Go de mémoire au lieu de 70 Go ou plus. L'enjeu est considérable : pour la première fois, des agents IA capables de s'auto-améliorer, de planifier des tâches multi-étapes et d'agir de façon autonome en continu deviennent accessibles sur du matériel grand public ou de gamme professionnelle. Un développeur ou une PME peut désormais faire tourner un agent équivalent à ce qui nécessitait autrefois un datacenter, grâce à des GPU comme le RTX 5090 ou une machine compacte comme le DGX Spark, qui offre 128 Go de mémoire unifiée et 1 pétaflop de performance IA. Les Tensor Cores NVIDIA réduisent le temps d'inférence de minutes à secondes, rendant les workflows autonomes viables à l'échelle d'une journée de travail complète. Cette convergence entre frameworks open source matures et modèles locaux ultra-compressés marque une rupture dans la démocratisation de l'IA agentique. Jusqu'ici, les agents performants dependaient de l'API d'OpenAI ou d'Anthropic, avec les coûts et les questions de confidentialité que cela implique. La montée en puissance de modèles open weight comme Qwen 3.6, combinée à des frameworks comme Hermes qui rivalisent avec les solutions propriétaires sur des benchmarks identiques, repositionne le matériel local comme infrastructure stratégique. NVIDIA profite directement de cette tendance en poussant le DGX Spark comme poste de travail dédié à l'IA agentique permanente, un segment encore embryonnaire mais en croissance rapide à mesure que les entreprises cherchent à internaliser leurs pipelines d'IA.

OutilsOutil
1 source
Conseil sur le feedback des agents
3Ben's Bites 

Conseil sur le feedback des agents

Un développeur partage une technique récente pour fluidifier ses échanges avec des agents IA : plutôt que de taper ses retours ou d'utiliser la dictée vocale, il enregistre son écran en commentant à voix haute ce qu'il fait, puis fournit cette vidéo directement à l'agent. Ce dernier analyse les images, transcrit la voix, extrait les moments clés horodatés et génère un rapport HTML structuré, avec des GIFs illustrant les points importants et une liste d'actions à accomplir. La méthode permet aussi de naviguer vers d'autres applications pour montrer des exemples de référence, que l'agent intègre dans son analyse. Ben a formalisé cette approche en une "skill" réutilisable baptisée video-to-html, qui instruit l'agent pour convertir n'importe quelle vidéo en document HTML structuré avec keyframes, horodatages et animations courtes. Les fichiers générés servent également de journal de bord du projet, consultables à tout moment. Cette technique s'attaque à un problème concret dans les workflows avec des agents : la difficulté à communiquer un retour visuel précis et contextualisé. Là où les feedbacks textuels restent abstraits et les captures d'écran statiques, la vidéo permet de montrer l'interface en situation réelle, de naviguer entre applications, et de commenter en temps réel ce qui fonctionne ou non. L'approche consomme davantage de tokens, mais l'auteur note que les agents analysent efficacement les frames extraites, rendant une compression préalable via ffmpeg superflue pour la plupart des usages. Pour les équipes travaillant régulièrement avec des agents de développement ou de design, ce type de boucle de feedback visuel structuré pourrait accélérer les itérations de manière significative, en réduisant les allers-retours d'éclaircissement. Cette semaine apporte également plusieurs annonces importantes pour l'écosystème IA. Anthropic a annoncé un changement de politique à compter du 15 juin : les utilisateurs de Claude via des outils tiers comme Cursor, Zed ou T3 Code disposeront d'un quota distinct, équivalent en valeur à leur abonnement mensuel, sans report possible ni tokens subventionnés au-delà. En compensation, les limites hebdomadaires augmentent de 50 % pendant les deux prochains mois. Vercel, de son côté, a publié un index de production basé sur l'usage réel de son AI Gateway : Anthropic capte 61 % des dépenses (porté par Opus), Google représente 38 % des volumes de tokens (grâce à Flash), et les workloads agentiques constituent désormais 59 % de la totalité des tokens consommés. Notion a lancé une plateforme développeur avec une API markdown permettant la synchronisation de données externes et l'intégration d'agents comme Claude directement dans l'outil, accompagnée d'un CLI nommé ntn. Google a présenté "Gemini Intelligence" pour Android, incluant l'autocomplétion de formulaires et la transformation de notes vocales en texte structuré, à quelques jours de sa conférence I/O.

OutilsOutil
1 source
Pourquoi les boucles d'agents ont la cote
4The Information AI 

Pourquoi les boucles d'agents ont la cote

Les "agent loops", ou boucles d'agents, s'imposent comme l'une des approches les plus discutées dans la communauté des développeurs IA, notamment sur X et Reddit ces dernières semaines. Le principe consiste à faire tourner un ou plusieurs agents en boucle autonome, sans intervention humaine entre chaque étape : l'agent tente différentes approches pour accomplir une tâche, un second agent évalue son travail, et le processus recommence jusqu'à l'atteinte de l'objectif ou d'une condition d'arrêt prédéfinie. Cette méthode tranche avec l'approche classique qui consiste à soumettre un prompt, attendre la réponse, puis corriger manuellement. Lors de la conférence AI Engineers d'avril 2025, des ingénieurs d'Anthropic ont illustré le potentiel de la technique avec un exemple concret : ils ont demandé à Claude de développer une application générant des jeux vidéo rétro. Avec un prompt minimal, Claude a livré l'application en 20 minutes pour 9 dollars. La même tâche confiée à une boucle d'agents a pris six heures et coûté 200 dollars, mais le résultat était nettement supérieur. L'engouement pour les boucles d'agents tient à leur capacité à traiter des tâches longues ou mal définies, là où une simple requête atteint rapidement ses limites. Pour les développeurs qui construisent des applications complexes, l'approche offre un niveau de qualité qu'un échange ponctuel ne permet pas d'atteindre. Le compromis reste cependant significatif : un rapport de coût de 1 à 22 représente une barrière réelle à l'adoption généralisée. À court terme, cette méthode restera donc réservée aux cas d'usage où la qualité prime sur le budget, plutôt qu'aux tâches routinières à faible enjeu. Cette tendance s'inscrit dans une évolution plus large du secteur vers des systèmes d'IA toujours plus autonomes. L'industrie se déplace progressivement du modèle "prompt-réponse" vers des architectures multi-agents capables de s'auto-corriger et de raisonner sur de longues séquences d'actions. Anthropic, qui développe Claude, figure parmi les acteurs en pointe sur ce terrain, aux côtés d'OpenAI et Google DeepMind. L'enjeu à moyen terme sera de réduire le coût computationnel de ces boucles pour les rendre économiquement accessibles à grande échelle, condition nécessaire pour que les agent loops passent du statut d'expérimentation avancée à celui d'outil standard du développement IA.

💬 Ce qui me frappe dans l'exemple d'Anthropic, c'est pas que ça coûte 200 dollars au lieu de 9, c'est que le résultat est vraiment meilleur, pas juste un peu. Les boucles d'agents ne remplacent pas le prompt classique, elles font autre chose : du travail long et mal défini qui demande de l'itération sans intervention humaine entre chaque étape. Reste à voir quand les coûts tombent assez pour que tu puisses en faire un outil standard plutôt qu'un truc réservé aux projets où t'as un vrai budget.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic