
Un nouveau framework d'optimisation IA surpasse Claude Code et Codex de 2,5 fois à budget de calcul égal
Des chercheurs de l'Université Renmin de Chine et de Microsoft Research ont publié Arbor, un nouveau framework d'optimisation autonome qui surpasse de 2,5 fois les agents de codage standard comme Claude Code et Codex d'OpenAI à budget de calcul identique. Le système repose sur une structure arborescente qui organise les hypothèses, les expériences et les résultats accumulés au fil du temps, permettant à l'agent d'apprendre de ses échecs passés plutôt que de les répéter. Jiajie Jin, co-auteur de l'étude, résume le problème central : "L'automatisation peut garder une IA en activité très longtemps, mais une boucle n'est pas la même chose que des progrès."
Le problème qu'Arbor cherche à résoudre est fréquent dans les déploiements d'IA en entreprise : une équipe configure un agent qui fonctionne parfaitement en développement, mais qui hallucine ou ignore des contraintes clés en production. Corriger cela implique d'ajuster simultanément les stratégies de découpage des données, les méthodes de récupération d'information et les instructions systèmes, des paramètres si imbriqués qu'il devient impossible d'identifier quelle modification a réellement résolu le problème. Les agents actuels traitent chaque tentative de manière isolée, sans mécanisme structuré pour capitaliser sur ce qu'ils ont appris. Arbor change cette dynamique en dotant l'agent d'une mémoire durable qui enregistre les directions explorées, les preuves factuelles produites, et la façon dont chaque résultat redéfinit l'espace des hypothèses futures.
Ce travail s'inscrit dans une réflexion plus large sur les limites architecturales des agents IA autonomes. Les systèmes actuels utilisent le transcript de conversation comme mémoire de travail, une approche qui s'effondre sur des tâches longues dépassant les fenêtres de contexte, souvent plusieurs centaines d'échanges. Sans structure de mémoire persistante, ces agents stagnent sur leurs premiers échecs ou se laissent emporter par des oscillations de métriques peu représentatives, un phénomène connu sous le nom de reward hacking. Arbor propose une réponse directe : rendre la recherche algorithmique cumulative comme l'est la recherche humaine, où chaque expérience informe les suivantes. Pour les entreprises qui cherchent à automatiser l'amélioration continue de systèmes d'ingénierie complexes, pipelines de données ou architectures d'agents, cette approche ouvre une voie concrète vers une optimisation fiable et traçable.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



