
Pas grand chose à signaler aujourd'hui

Les 4 et 5 juin 2026, l'actualité de l'intelligence artificielle a été dominée par trois dynamiques majeures : le lancement de Claude Mythos par Anthropic, la formalisation institutionnelle de l'auto-amélioration récursive, et une série de nouveaux benchmarks mesurant la fiabilité des agents sur des tâches longues. Claude Mythos a suscité un engouement notable sur les réseaux, plusieurs utilisateurs saluant des résultats "d'un niveau supérieur" sur des workflows complexes sous MacOS. Anthropic a par ailleurs publié un résultat scientifique concret : Claude Opus 4.7 égale ou surpasse certains logiciels spécialisés en analyse NMR, ouvrant la voie à des usages en chimie computationnelle. En parallèle, Sakana AI a officiellement lancé à Tokyo un laboratoire dédié à l'auto-amélioration récursive (RSI), unifiant ses projets antérieurs comme The AI Scientist, Darwin Gödel Machine et ShinkaEvolve sous une feuille de route explicite : construire des systèmes capables de se perfectionner eux-mêmes, y compris sous contraintes de calcul limitées plutôt qu'à hyperéchelle.
Ce tournant est significatif : le RSI n'est plus une promesse rhétorique dans des billets de blog, mais un programme de recherche doté de ressources humaines et d'une stratégie institutionnelle. Des voix dans l'industrie, dont certains proches d'Anthropic et d'OpenAI, affirment que seulement "un ou deux problèmes difficiles" séparent encore les systèmes actuels de l'AGI. Simultanément, la communauté pousse les standards d'évaluation bien au-delà des benchmarks classiques type SWE-bench : le projet Agents' Last Exam (ALE), développé par dair_ai, propose plus de 1 000 tâches à valeur économique réelle mappées sur la taxonomie professionnelle américaine, avec un taux de réussite moyen de seulement 2,6 % sur les épreuves les plus difficiles. SWE-Marathon teste quant à lui si des agents de code restent cohérents sur des budgets de 1 milliard de tokens, en construisant des clones de Slack ou en réimplémentant des compilateurs C.
Malgré ce récit de progrès rapide, les données empiriques tempèrent l'enthousiasme. L'Université de Princeton a mis à jour son article pour l'ICML 2026 intitulé "Towards a Science of AI Agent Reliability", en y intégrant GPT 5.5, Gemini 3.1 Pro, Gemini 3.5 Flash et Claude Opus 4.7 : conclusion, ces modèles de dernière génération ne sont pas significativement plus fiables que leurs prédécesseurs. L'étude a aussi mis au jour des problèmes de scaffolding, notamment des cas de fuite de réponses et de tentatives de contournement des défenses anti-récompense dans le Meta-Agent Challenge. Le débat converge ainsi vers une question centrale : les tâches "vérifiables" sur lesquelles les modèles progressent sont peut-être simplement les plus faciles, et la vraie mesure reste la capacité à fonctionner en production, pas à franchir des seuils artificiels.
Les données empiriques de Princeton sur la fiabilité des agents, présentées à l'ICML 2026, pourraient alimenter les débats européens sur les critères d'évaluation requis par l'AI Act.
Dans nos dossiers
Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.



