Aller au contenu principal
AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents
OutilsMarkTechPost12sem· 2 min de lecture

AutoAgent : la bibliothèque open source qui permet à une IA d'optimiser son propre système d'agents

Source originale ↗·

Kevin Gu, ingénieur chez thirdlayer.inc, a publié AutoAgent, une bibliothèque open source qui automatise l'optimisation des agents IA. En l'espace de 24 heures d'exécution autonome, le système a atteint la première place sur SpreadsheetBench avec un score de 96,5 %, et la meilleure performance GPT-5 sur TerminalBench avec 55,1 %. Le projet est disponible sur GitHub avec une architecture délibérément minimaliste : un fichier agent.py qui contient l'intégralité du harness sous test, un fichier program.md que l'humain édite pour donner la directive, et un journal d'expériences results.tsv maintenu automatiquement par le méta-agent pour tracer l'historique de chaque run.

Le principe est simple mais radical : là où un ingénieur IA passe des journées à ajuster manuellement les prompts système, les définitions d'outils et la logique d'orchestration de son agent, AutoAgent confie cette boucle d'itération à un second agent, le méta-agent, qui lit la directive, inspecte agent.py, exécute le benchmark, analyse les échecs, réécrit les parties pertinentes et recommence. L'humain ne touche jamais agent.py directement. Ce ratchet loop, proposer une modification, mesurer le score, conserver si meilleur, rejeter sinon, est directement inspiré du projet autoresearch d'Andrej Karpathy, qui applique la même logique à l'entraînement de modèles ML. AutoAgent transpose ce mécanisme au niveau du harness : le prompt système, les outils disponibles, le routage entre sous-agents et la stratégie d'orchestration. Concrètement, toute équipe qui développe des agents complexes pourrait déléguer la phase d'optimisation la plus fastidieuse à un processus nocturne entièrement automatisé, réduisant drastiquement le temps humain consacré au réglage fin.

Cette publication s'inscrit dans une tendance plus large d'automatisation de l'ingénierie IA elle-même, souvent désignée sous le terme "méta-apprentissage" ou "self-improvement". Depuis que les LLMs ont démontré leur capacité à écrire et modifier du code de manière fiable, plusieurs laboratoires et chercheurs indépendants explorent des architectures où un modèle supervise l'amélioration d'un autre, ou de lui-même. AutoAgent se distingue par sa portée pratique immédiate : il ne requiert pas d'infrastructure exotique, s'appuie sur le format Harbor pour exprimer les benchmarks, et peut être adapté à n'importe quel domaine via les dossiers tasks/ et .agent/. Les résultats sur TerminalBench et SpreadsheetBench, deux benchmarks reconnus dans la communauté, donnent une crédibilité concrète à l'approche. La question ouverte reste celle du contrôle : lorsqu'un méta-agent réécrit librement la logique d'orchestration d'un système en production, les garanties de sécurité et de prévisibilité du comportement final deviennent un enjeu non trivial que la bibliothèque n'adresse pas encore explicitement.

💬 L'analyse de Mathieu

C'est exactement la boucle que tout dev d'agents rêve d'automatiser, et là quelqu'un l'a fait en un seul fichier. Le score sur SpreadsheetBench est bluffant, bon, reste à voir ce que ça donne sur des tâches moins balisées qu'un benchmark. La vraie question, c'est quand le méta-agent commence à réécrire l'orchestration en prod sans que tu comprennes pourquoi ça marche.

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch
1MarkTechPost 

RightNow AI publie AutoKernel : un framework open source qui applique une boucle d'agents autonomes à l'optimisation des kernels GPU pour les modèles PyTorch

RightNow AI a publié AutoKernel, un framework open-source qui automatise l'optimisation des kernels GPU pour n'importe quel modèle PyTorch. Le principe est simple : soumettre un modèle avant de dormir et retrouver au matin des kernels Triton plus rapides, sans avoir à maîtriser la programmation GPU de bas niveau. Le système repose sur une boucle agentique autonome : un agent LLM modifie un fichier kernel.py, un banc de test vérifie la correction puis mesure le débit, et le résultat détermine si la modification est conservée ou annulée via un git reset. Chaque itération dure environ 90 secondes, ce qui permet de réaliser 300 à 400 expériences lors d'une session de 10 heures. L'agent suit un manuel d'optimisation en six niveaux encodé dans un document de 909 lignes, couvrant le réglage des tailles de blocs, les patterns d'accès mémoire, les optimisations de calcul comme TF32, les techniques avancées comme split-K, et les stratégies spécifiques aux architectures Hopper et Ampere de NVIDIA. L'enjeu est considérable pour l'industrie du machine learning. Optimiser un kernel GPU de haute performance exige de raisonner simultanément sur l'intensité arithmétique, la coalescence mémoire, la pression sur les registres, la synchronisation au niveau warp et la sélection des instructions tensor core, un ensemble de compétences qui prend des années à acquérir. Un seul kernel de multiplication matricielle performant peut représenter plus de 200 lignes de code CUDA ou Triton avec des dizaines de paramètres interdépendants. La suite de benchmarks KernelBench, qui évalue les grands modèles de langage sur 250 problèmes de kernels GPU, a montré que même les meilleurs modèles n'égalaient la baseline PyTorch que dans moins de 20 % des cas en génération directe. AutoKernel répond précisément à ce déficit en rendant cette expertise accessible sans spécialiste humain, ce qui pourrait accélérer significativement le développement et le déploiement de modèles d'IA. L'approche s'inspire directement du projet autoresearch d'Andrej Karpathy, dans lequel une boucle keep/revert appliquée à du code d'entraînement LLM avait permis de découvrir 20 optimisations en 700 expériences sur deux jours avec un seul GPU. AutoKernel transpose cette logique à l'espace des kernels, en substituant la loss de validation par un benchmark de correction et de débit comme fonction d'évaluation. La traçabilité est assurée par git, les résultats étant stockés dans un fichier TSV lisible directement par l'agent. Ce type de framework illustre une tendance plus large où les tâches d'ingénierie hautement spécialisées deviennent des cibles pour l'automatisation agentique, réduisant la dépendance aux rares experts en optimisation GPU à mesure que les architectures de modèles continuent d'évoluer.

💬 L'idée de laisser tourner une boucle agentique toute la nuit pour sortir des kernels Triton optimisés au matin, c'est exactement ce qu'on attendait depuis qu'on a vu Karpathy faire la même chose sur du code d'entraînement. La partie vraiment bien foutue, c'est le mécanisme d'évaluation : un benchmark de correction avant tout, et le git reset si ça régresse, ce qui évite de passer des heures à débugger des "optimisations" qui cassent tout. Pour les équipes sans expert CUDA dans les jambes, c'est une vraie bouffée d'air.

OutilsOutil
1 source
Anthropic introduit le "dreaming", un système permettant aux agents IA d'apprendre de leurs erreurs
2VentureBeat AI 

Anthropic introduit le "dreaming", un système permettant aux agents IA d'apprendre de leurs erreurs

Anthropic a présenté mardi une série de mises à jour majeures pour sa plateforme Claude Managed Agents lors de sa deuxième conférence annuelle Code with Claude, à San Francisco. La nouveauté phare s'appelle le « dreaming » : un mécanisme qui permet aux agents IA de passer en revue leurs sessions passées, d'en extraire des tendances récurrentes et de générer des notes structurées appelées « playbooks », afin de s'améliorer au fil du temps. En parallèle, deux fonctionnalités jusqu'ici expérimentales passent en bêta publique : « outcomes », qui mesure l'efficacité des agents sur des tâches concrètes, et l'orchestration multi-agents, permettant de faire travailler plusieurs instances de Claude simultanément. Les premiers résultats sont frappants : la société d'IA juridique Harvey a multiplié par six son taux de complétion de tâches après avoir intégré le dreaming ; Wisedocs, spécialisée dans la revue de documents médicaux, a réduit ses délais de traitement de 50 % grâce à outcomes ; et Netflix traite désormais les journaux de centaines de builds en parallèle via l'orchestration multi-agents. Ces annonces s'inscrivent dans un contexte de croissance exponentielle pour Anthropic. Lors d'une discussion à la conférence, le PDG Dario Amodei a révélé que la société avait enregistré au premier trimestre 2026 une croissance annualisée de 80x en revenus et en volume d'utilisation, soit huit fois supérieure aux projections internes qui tablaient sur une multiplication par dix. Le volume d'appels à l'API Claude a progressé de près de 70x en glissement annuel, et les développeurs utilisant Claude Code y consacrent en moyenne vingt heures par semaine. « Nous avions planifié pour un monde à 10x de croissance par an, et nous avons vu 80x », a déclaré Amodei, expliquant ainsi les tensions récentes sur les capacités de calcul de l'entreprise. Le dreaming se distingue volontairement des systèmes de mémoire conventionnels qu'Anthropic avait déjà lancés plus tôt cette année. Il ne modifie pas les poids du modèle sous-jacent et n'effectue aucun réentraînement : il s'agit d'un processus planifié qui analyse les historiques de sessions, identifie les erreurs récurrentes et les méthodes convergentes entre plusieurs agents, puis consigne ces enseignements sous forme de texte lisible par des humains. Alex Albert, responsable du product management recherche chez Anthropic, compare ce mécanisme à la manière dont un professionnel documente une procédure après l'avoir itérée en pratique, sauf que c'est le modèle lui-même qui effectue cette capitalisation. Toutes les mémoires produites restent inspectables et auditables, ce qui répond directement aux exigences de traçabilité des entreprises souhaitant déployer des agents IA en environnement de production.

💬 Le nom est gadget, mais le mécanisme est sérieux. Ce que fait le "dreaming", c'est transformer les erreurs d'un agent en documentation structurée, inspectable, qu'une équipe peut vérifier avant de le laisser tourner en prod, et c'est exactement le truc qui manquait pour convaincre les DSI frileux. Harvey à 6x de taux de complétion, c'est le genre de chiffre qui ouvre des budgets.

OutilsOutil
1 source
Vercel lance Eve, un framework open-source d'agents IA où chaque agent correspond à un répertoire de fichiers
3MarkTechPost 

Vercel lance Eve, un framework open-source d'agents IA où chaque agent correspond à un répertoire de fichiers

Vercel a publié eve, un framework open source sous licence Apache-2.0, disponible en tant que package npm, destiné à la création, l'exécution et le déploiement d'agents d'intelligence artificielle en production. L'entreprise affirme faire déjà tourner plus d'une centaine d'agents sur ce même framework. Son principe central repose sur une approche dite "filesystem-first" : un agent est modélisé comme un répertoire de fichiers sur disque, chaque fichier correspondant à une capacité précise. Le plus petit agent fonctionnel ne requiert que deux fichiers, un pour définir le modèle utilisé (par exemple anthropic/claude-opus-4.8) et un fichier instructions.md servant de prompt système. Les fonctionnalités embarquées incluent l'exécution durable avec points de reprise automatiques, un environnement sandboxé pour le code généré par l'agent, un mécanisme d'approbation humaine pour les actions sensibles, et des connexions sécurisées vers des services tiers comme Slack, GitHub, Snowflake, Salesforce, Notion ou Linear. Un même agent peut être exposé simultanément sur plusieurs canaux, qu'il s'agisse de HTTP, Slack, Discord, Teams, Telegram ou Twilio, à partir d'une seule définition. Ce lancement répond à un problème récurrent dans les équipes qui développent des agents : chaque projet recrée from scratch la même infrastructure de base, gestion des sessions, sandboxing, approbations, connexions API. Eve standardise cette structure sous forme d'une convention de répertoires stricte, éliminant le code répétitif et réduisant le temps de mise en production. Les développeurs ajoutent une capacité en déposant simplement un fichier dans le bon sous-répertoire ; le framework détecte et intègre automatiquement ces ajouts lors du build, sans enregistrement manuel. La durabilité des sessions, qui survivent aux crashs et aux redéploiements en reprenant exactement là où elles s'étaient arrêtées, réduit considérablement la charge opérationnelle pour les équipes gérant des agents à grande échelle. Eve s'inscrit dans un mouvement plus large visant à industrialiser le déploiement d'agents IA, une étape que la plupart des équipes traversent encore de façon artisanale. En open-sourçant son framework interne, Vercel adopte une stratégie comparable à celle qu'il avait employée avec Next.js : proposer une couche d'abstraction susceptible de devenir un standard de facto, tout en restant étroitement liée à son infrastructure pour les déploiements en production. La concurrence est dense dans cet espace, avec LangGraph, CrewAI, AutoGen et le récent Agent Development Kit de Google ciblant tous le même besoin. L'approche "répertoire comme contrat" d'eve se distingue par sa lisibilité et sa convention forte, plus proche de la philosophie Next.js que des frameworks d'orchestration classiques. Les suites probables incluent une adoption croissante dans les équipes utilisant déjà Vercel, et une intégration plus poussée avec Vercel AI Gateway pour le routage multi-modèle.

OutilsOutil
1 source
WebBrain : un agent de navigation IA open-source et local qui lit les pages et automatise des tâches sur Chrome et Firefox
4MarkTechPost 

WebBrain : un agent de navigation IA open-source et local qui lit les pages et automatise des tâches sur Chrome et Firefox

WebBrain est un agent de navigation open source, gratuit et disponible pour Chrome et Firefox, développé par Emre Sokullu sous licence MIT, avec son code source publié sur GitHub. L'extension s'installe dans le panneau latéral du navigateur, en Manifest V3 avec l'API sidePanel sur Chrome et en Manifest V2 avec sidebar_action sur Firefox, et chaque onglet conserve son propre historique de conversation. Elle propose deux modes : le mode Ask, en lecture seule, qui analyse les pages via des scripts de contenu classiques, et le mode Act, capable de cliquer, taper, faire défiler et naviguer, en pilotant la page via le protocole Chrome DevTools et l'API chrome.debugger, ce qui permet de générer des événements reconnus comme fiables par les sites modernes et d'atteindre les iframes cross-origin et le shadow DOM. Les températures sont fixées pour plus de prévisibilité : 0,15 en mode Act, 0,3 en mode Ask et 0 pour les descriptions de captures d'écran. L'outil est disponible en anglais, espagnol, français, turc et chinois, détecte automatiquement la langue du navigateur, ne collecte aucune donnée externe et n'intègre ni télémétrie ni compte utilisateur. Point clé : en connectant WebBrain à un modèle local, aucune donnée de page ne quitte la machine de l'utilisateur, une option rare parmi les agents de navigation IA. Cette approche locale-first change la donne pour la confidentialité des données dans un secteur où la plupart des agents IA de navigateur transitent systématiquement par des API cloud. Les utilisateurs professionnels manipulant des informations sensibles, comptes bancaires, dossiers clients ou données internes d'entreprise, peuvent ainsi automatiser des tâches répétitives comme l'extraction de données depuis des catalogues, le remplissage de formulaires ou le résumé d'articles, sans exposer ces informations à un tiers. WebBrain a aussi été pensé pour limiter les coûts en tokens sur les sessions longues : les captures d'écran sont redimensionnées et compressées en JPEG avant traitement, et l'historique de conversation est tronqué en commençant par les éléments les plus anciens lorsque la fenêtre de contexte se remplit. Il est également possible d'associer un modèle texte économique pour la planification à un modèle de vision distinct pour l'analyse des captures d'écran, une flexibilité qui réduit encore la facture pour les utilisateurs de modèles cloud. Le développement de WebBrain répond à un problème de sécurité identifié dans les agents de navigation : les pages web peuvent dissimuler des injections de prompt destinées à détourner le comportement de l'agent. Face à ce risque, l'outil démarre toujours en mode Ask en lecture seule, demande une confirmation avant toute action jugée conséquente (ces alertes pouvant être désactivées dans les paramètres) et impose une règle stricte pour toute mutation de données : créer, envoyer, soumettre ou acheter passe obligatoirement par l'interface visible du site plutôt que par des appels directs aux API REST ou GraphQL, sauf dérogation ponctuelle via la commande /allow-api en cas d'échec de l'interface. La lecture de contenu, elle, bénéficie de règles plus souples via les outils fetchurl et researchurl puisqu'elle ne modifie rien à distance. WebBrain se positionne ainsi entre les simples extensions IA de navigateur et les frameworks d'agents complets, dans un marché où la question de la confiance et du contrôle utilisateur devient centrale à mesure que ces outils gagnent en autonomie sur des tâches concrètes comme la recherche, le remplissage de formulaires ou l'automatisation multi-étapes.

💬 Reste à voir si ça tient en prod, mais l'idée de base est bonne : un agent qui pilote ton navigateur sans faire transiter tes pages par un cloud tiers, c'est ce que devrait être le standard depuis le début. Là où la plupart des agents web envoient tes onglets bancaires ou tes CRM à une API distante, celui-là tourne en local si tu le branches sur ton propre modèle, ce qui change complètement le calcul risque/bénéfice pour les pros. Le vrai signal du marché, c'est que le contrôle utilisateur (mode lecture par défaut, confirmation avant chaque action, interface visible obligatoire plutôt qu'appels API directs) devient un argument de vente à part entière, pas une case à cocher pour les juristes.

OutilsOutil
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic