
Expédier des agents plus intelligents avec chaque nouvelle version
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

L'AGI (intelligence artificielle générale) est un concept ambitieux dans la recherche en IA, cherchant à développer une intelligence artificielle capable de comprendre, apprendre et s'adapter à une large gamme de tâches, comme un humain. Bien que des modèles génératifs prospèrent, l'AGI reste une idée discutée parmi les chercheurs et les leaders de la technologie.

AutoPlay est une approche scalable pour générer automatiquement des datasets de tâches agentiques de haute qualité, destinés à l'entraînement de modèles multimodaux (MLLMs) pour des agents interactifs. Le système explore les environnements en aval (navigation web, utilisation d'ordinateur, robotique) pour produire des tâches diversifiées, faisables et vérifiables, sans recourir à l'annotation humaine coûteuse. Cette méthode résout la limite des approches existantes qui génèrent des tâches à faible couverture faute d'informations suffisantes sur l'environnement cible.
Mamba-3, développé par des chercheurs de CMU, Princeton, Together AI et Cartesia AI, est un modèle innovant qui aborde les contraintes liées à l'efficacité inference dans les Grandes Modèles de Langage (LLM). Il s'appuie sur le cadre des Modèles d'État Espace (SSM) et introduit trois mises à jour méthodologiques clés : la discrétisation exponentielle-trapézoidale, les mises à jour d'état complexes-valeurs et une formulation Multi-Input Multi-Output (MIMO). Ces améliorations permettent à Mamba-3 de fonctionner efficacement avec une taille d'état réduite de moitié par rapport aux précédents modèles, tout en optimisant l'efficacité matérielle pour le décodage.

Les agents de codage dopés à l'intelligence artificielle, comme Claude Code d'Anthropic ou Codex d'OpenAI, souffrent d'un angle mort précis : ils localisent correctement le fichier contenant un bug, mais ratent la majorité des lignes critiques à l'intérieur de ce fichier. C'est ce que révèle SWE-Explore, un nouveau benchmark conçu spécifiquement pour évaluer la phase d'exploration du code, c'est-à-dire la recherche et la navigation dans une base de code, séparément de la phase de correction proprement dite. C'est une première dans l'évaluation des outils de développement automatisé. Ce découplage entre exploration et réparation change la façon d'interpréter les performances des agents de codage. Jusqu'ici, les benchmarks dominants comme SWE-bench mesuraient uniquement le résultat final : le bug est-il corrigé ou non ? SWE-Explore montre qu'un agent peut échouer non pas parce qu'il ne sait pas corriger le code, mais parce qu'il n'a pas identifié les bonnes lignes à modifier. Sans contexte suffisant, même le meilleur algorithme de correction produit un patch inutile. Les développeurs qui s'appuient sur ces outils en production s'exposent donc à des corrections en apparence valides mais ciblant les mauvaises sections. Ce travail s'inscrit dans une dynamique de remise en question des métriques utilisées pour comparer les agents de développement. L'industrie investit massivement dans ces outils, GitHub Copilot, Cursor, Devin, et les entreprises les vendent sur des taux de résolution de tickets. SWE-Explore suggère que ces chiffres masquent une faiblesse structurelle en amont : la compréhension fine d'une base de code existante reste un problème ouvert, et le résoudre conditionne tout le reste.
UELes développeurs français et européens qui s'appuient sur des agents de codage IA en production s'exposent à des corrections en apparence valides mais ciblant les mauvaises sections de code, une limite structurelle à évaluer avant tout usage professionnel critique.
💬 Ça explique des trucs que j'ai vécus : le patch arrive, il compile, les tests passent, et pourtant le bug est toujours là parce que l'agent a retouché le mauvais endroit. SWE-Explore met le doigt dessus avec rigueur, en séparant la phase de navigation de la phase de correction, ce qui n'avait jamais été fait proprement. Les éditeurs vont devoir intégrer ça dans leurs benchmarks marketing, parce que vendre sur des taux de résolution de tickets quand la moitié du problème est en amont, c'est se raconter des histoires.
Recevez l'essentiel de l'IA chaque jour
Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.
Gratuit · 1 email le matin, rédigé par un humain · désinscription en un clic