RechercheLatent Space · 6 juin 2026, 07:34· 2 min de lecture

Pas grand chose à signaler aujourd'hui

Résumé IASource uniqueImpact UE Take éditorial

Les 4 et 5 juin 2026, l'actualité de l'intelligence artificielle a été dominée par trois dynamiques majeures : le lancement de Claude Mythos par Anthropic, la formalisation institutionnelle de l'auto-amélioration récursive, et une série de nouveaux benchmarks mesurant la fiabilité des agents sur des tâches longues. Claude Mythos a suscité un engouement notable sur les réseaux, plusieurs utilisateurs saluant des résultats "d'un niveau supérieur" sur des workflows complexes sous MacOS. Anthropic a par ailleurs publié un résultat scientifique concret : Claude Opus 4.7 égale ou surpasse certains logiciels spécialisés en analyse NMR, ouvrant la voie à des usages en chimie computationnelle. En parallèle, Sakana AI a officiellement lancé à Tokyo un laboratoire dédié à l'auto-amélioration récursive (RSI), unifiant ses projets antérieurs comme The AI Scientist, Darwin Gödel Machine et ShinkaEvolve sous une feuille de route explicite : construire des systèmes capables de se perfectionner eux-mêmes, y compris sous contraintes de calcul limitées plutôt qu'à hyperéchelle.

Ce tournant est significatif : le RSI n'est plus une promesse rhétorique dans des billets de blog, mais un programme de recherche doté de ressources humaines et d'une stratégie institutionnelle. Des voix dans l'industrie, dont certains proches d'Anthropic et d'OpenAI, affirment que seulement "un ou deux problèmes difficiles" séparent encore les systèmes actuels de l'AGI. Simultanément, la communauté pousse les standards d'évaluation bien au-delà des benchmarks classiques type SWE-bench : le projet Agents' Last Exam (ALE), développé par dair_ai, propose plus de 1 000 tâches à valeur économique réelle mappées sur la taxonomie professionnelle américaine, avec un taux de réussite moyen de seulement 2,6 % sur les épreuves les plus difficiles. SWE-Marathon teste quant à lui si des agents de code restent cohérents sur des budgets de 1 milliard de tokens, en construisant des clones de Slack ou en réimplémentant des compilateurs C.

Malgré ce récit de progrès rapide, les données empiriques tempèrent l'enthousiasme. L'Université de Princeton a mis à jour son article pour l'ICML 2026 intitulé "Towards a Science of AI Agent Reliability", en y intégrant GPT 5.5, Gemini 3.1 Pro, Gemini 3.5 Flash et Claude Opus 4.7 : conclusion, ces modèles de dernière génération ne sont pas significativement plus fiables que leurs prédécesseurs. L'étude a aussi mis au jour des problèmes de scaffolding, notamment des cas de fuite de réponses et de tentatives de contournement des défenses anti-récompense dans le Meta-Agent Challenge. Le débat converge ainsi vers une question centrale : les tâches "vérifiables" sur lesquelles les modèles progressent sont peut-être simplement les plus faciles, et la vraie mesure reste la capacité à fonctionner en production, pas à franchir des seuils artificiels.

Impact France/UE

Les données empiriques de Princeton sur la fiabilité des agents, présentées à l'ICML 2026, pourraient alimenter les débats européens sur les critères d'évaluation requis par l'AI Act.

💬 L'analyse de Mathieu

L'étude de Princeton passe inaperçue, mais c'est elle que je retiens. Aligner GPT 5.5, Gemini 3.5 et Opus 4.7 sur des tâches longues et conclure qu'ils ne sont pas plus fiables que leurs prédécesseurs, ça dit plus sur l'état réel du domaine que tous les lancements de la semaine. 2,6 % de réussite sur les épreuves les plus dures d'ALE : garde ça en tête la prochaine fois qu'on te vend des agents autonomes.

Dans nos dossiers

Anthropic Claude Mythos Claude Opus Gemini

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Le Big Data

Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA

Une start-up londonienne, General Reasoning, a publié une étude baptisée « KellyBench » qui met en lumière les limites des grandes intelligences artificielles face à un défi financier concret : les paris sportifs. Huit modèles issus de Google, OpenAI, Anthropic et xAI ont été soumis à une simulation de la saison 2023-2024 de la Premier League anglaise. Chaque système disposait de données historiques, de statistiques d'équipes et de joueurs, et devait élaborer des stratégies de mise capables de générer des profits tout en limitant les risques, sans accès à Internet et en s'adaptant aux informations fournies au fil des matchs. Les résultats sont sans appel : aucun des modèles testés n'a réussi à rester rentable sur la durée. Le meilleur performer, Claude Opus 4.6 d'Anthropic, affiche tout de même une perte moyenne de 11 %, avec une seule tentative frôlant l'équilibre. Grok 4.20 de xAI a fait faillite dès son premier essai, tandis que Gemini 3.1 Pro de Google a enregistré un gain ponctuel de 34 % avant de s'effondrer lors d'une autre tentative. Plusieurs systèmes ont accumulé des pertes importantes, et tous ont performé en dessous de participants humains placés dans les mêmes conditions simulées. Ces résultats éclairent une limite fondamentale des IA actuelles : leur efficacité chute dès qu'elles quittent les environnements stables et bien définis. Si ces systèmes excellent sur des tâches structurées comme la programmation, l'analyse de données ou les examens standardisés, ils peinent à gérer des dynamiques imprévisibles sur le long terme, là où les variables changent en permanence et où les décisions doivent intégrer du risque réel. Pour les investisseurs, les parieurs ou toute personne envisageant de déléguer des décisions financières à une IA, le message est clair : la robustesse affichée dans les benchmarks classiques ne se traduit pas en performance dans des contextes réels et mouvants. Ross Taylor, directeur général de General Reasoning et ancien chercheur chez Meta AI, souligne que l'engouement actuel pour l'automatisation tend à masquer cette réalité plus nuancée. Les benchmarks traditionnels, trop statiques, ne capturent pas la complexité du monde réel, ce qui crée une illusion de compétence universelle. Cette étude, encore non évaluée par des pairs, s'inscrit dans un débat plus large sur la façon dont on mesure les capacités des IA : les tests actuels favorisent les domaines où ces systèmes brillent, tout en occultant leurs lacunes sur des tâches dynamiques et à haute incertitude. La prochaine étape pour le secteur sera de concevoir des évaluations plus représentatives, capables de révéler non seulement ce que les IA savent faire, mais aussi ce qu'elles ne maîtrisent pas encore.

UECette étude avertit les entreprises et investisseurs européens contre la délégation de décisions financières à des IA, dont les performances réelles restent inférieures aux capacités humaines dans des contextes dynamiques et incertains.

RecherchePaper

1 source

2MIT Technology Review

Atteint de SLA, il est le premier grand utilisateur d'un implant cérébral qui lui permet de parler

Casey Harrell, 45 ans au moment des faits, atteint de sclérose latérale amyotrophique (SLA) et entièrement paralysé, est devenu le premier "power user" d'un implant cérébral destiné à restaurer la parole. En juillet 2023, une équipe de l'Université de Californie à Davis, dirigée par David Brandman, professeur associé de neurochirurgie, lui a implanté quatre réseaux de 64 électrodes chacun dans le cerveau, reliés à deux points de connexion fixés sur le crâne. Dès août 2023, un mois après l'opération, Harrell communiquait avec un vocabulaire de 50 mots et un taux de précision de 99,6 %. Ce vocabulaire a depuis été étendu à 125 000 mots, avec une précision de 97,5 %. Sur les 22,6 premiers mois suivant l'implantation, il a utilisé le dispositif plus de 3 800 heures à domicile sans la présence de chercheurs, selon une étude publiée cette semaine dans la revue Nature Medicine. L'avancée la plus significative tient à l'autonomie croissante de Harrell. En 2023, des membres de l'équipe devaient encore se rendre physiquement chez lui pour connecter et déconnecter l'appareil. Aujourd'hui, son soignant effectue seul cette opération : Harrell se réveille, est branché, et commence sa journée. Il surfe sur le web et exerce son travail grâce à l'interface. "Vivre avec une maladie comme la SLA, on est censé avoir des rêves diminués. Ce n'est pas mon cas", confie-t-il au MIT Technology Review. Cette autonomie est décisive : elle démontre qu'un tel dispositif peut fonctionner efficacement sur le long terme hors cadre clinique, et qu'un patient gravement atteint peut s'en emparer comme d'un véritable outil quotidien. Le système repose sur le décodage du cortex moteur de la parole, la région cérébrale qui coordonne les mouvements nécessaires à l'articulation. En enregistrant l'activité neuronale liée aux 39 phonèmes de l'anglais américain, les algorithmes construisent un décodeur personnalisé qui convertit les signaux cérébraux en parole synthétisée. L'une des grandes incertitudes des interfaces cerveau-ordinateur (BCI) à long terme est la formation de tissu cicatriciel autour des électrodes, susceptible de dégrader la captation des signaux neuronaux. Ce phénomène ne semble pas affecter Harrell à ce stade, ce qui est en soi un résultat encourageant. La SLA touche environ 30 000 personnes aux États-Unis. Des acteurs comme Neuralink et Synchron travaillent également sur des BCI humains, mais la durabilité et l'autonomisation démontrées par le cas Harrell constituent un jalon concret vers des dispositifs cliniquement viables, utilisables au quotidien par des patients en dehors de tout laboratoire.

💬 125 000 mots, 97,5 % de précision, 3 800 heures d'usage autonome à domicile. Ce qui me frappe, c'est pas la performance du décodeur, c'est que Casey Harrell se lève le matin, se branche, et commence sa journée comme tu commences la tienne. La question du tissu cicatriciel reste ouverte sur le long terme, mais pour l'instant c'est un résultat sérieux.

RecherchePaper

1 source

3The Decoder

Les agents de recherche IA n'échouent pas à chercher, mais à poser les bonnes questions face aux requêtes ambiguës

Les agents de recherche IA basés sur l'intelligence artificielle échouent rarement à cause de la recherche elle-même lorsqu'ils mènent des investigations en plusieurs étapes. Leur véritable faiblesse est ailleurs : ils ne demandent pas de clarification à l'utilisateur quand une requête est ambiguë. C'est ce que révèle un nouveau benchmark baptisé DiscoBench, conçu spécifiquement pour évaluer ce comportement. Les résultats sont frappants : les modèles qui persistent à relancer des recherches multiples plutôt que de poser une question de suivi obtiennent une précision de seulement 51,9 %, un score inférieur à celui obtenu en devinant simplement la réponse. Même le modèle le plus performant du test ne dépasse pas 43 % de précision globale. Lorsque l'ambiguïté est retirée des requêtes, la précision grimpe jusqu'à 40 points de pourcentage. Ce constat a des implications concrètes pour tous les usages professionnels des agents IA de recherche, des assistants documentaires aux outils d'aide à la décision. Un agent qui interprète mal une demande floue et fonce vers une réponse erronée, plutôt que de demander une précision, produit des résultats peu fiables malgré des capacités de recherche techniquement solides. Pour les entreprises qui déploient ces outils, cela signifie qu'améliorer la qualité des réponses passe autant par l'apprentissage du dialogue que par l'optimisation des moteurs de recherche sous-jacents. Ce travail s'inscrit dans une réflexion plus large sur les limites des agents autonomes multi-étapes, un axe de recherche en pleine expansion à mesure que ces systèmes gagnent en autonomie. La capacité à reconnaître l'incertitude et à interagir avec l'utilisateur, plutôt que de produire une réponse à tout prix, apparaît comme un enjeu central pour la fiabilité future de ces agents.

💬 Le vrai problème des agents de recherche, c'est pas qu'ils cherchent mal, c'est qu'ils n'osent jamais dire "je comprends pas ta question". Un score sous celui du pur hasard quand ils s'entêtent à relancer des recherches plutôt que de demander une précision, ça remet les pendules à l'heure : la fiabilité d'un agent IA se joue autant dans sa capacité à dialoguer que dans celle à chercher. Bon courage aux boîtes qui déploient ces outils en pensant que le moteur de recherche suffit à tout.

RecherchePaper

1 source

4MarkTechPost

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic