Aller au contenu principal
Pas grand chose à signaler aujourd'hui
RechercheLatent Space3h

Pas grand chose à signaler aujourd'hui

Résumé IASource uniqueImpact UE
Source originale ↗·
Pas grand chose à signaler aujourd'hui
▶ Voir sur YouTube

Les 4 et 5 juin 2026, l'actualité de l'intelligence artificielle a été dominée par trois dynamiques majeures : le lancement de Claude Mythos par Anthropic, la formalisation institutionnelle de l'auto-amélioration récursive, et une série de nouveaux benchmarks mesurant la fiabilité des agents sur des tâches longues. Claude Mythos a suscité un engouement notable sur les réseaux, plusieurs utilisateurs saluant des résultats "d'un niveau supérieur" sur des workflows complexes sous MacOS. Anthropic a par ailleurs publié un résultat scientifique concret : Claude Opus 4.7 égale ou surpasse certains logiciels spécialisés en analyse NMR, ouvrant la voie à des usages en chimie computationnelle. En parallèle, Sakana AI a officiellement lancé à Tokyo un laboratoire dédié à l'auto-amélioration récursive (RSI), unifiant ses projets antérieurs comme The AI Scientist, Darwin Gödel Machine et ShinkaEvolve sous une feuille de route explicite : construire des systèmes capables de se perfectionner eux-mêmes, y compris sous contraintes de calcul limitées plutôt qu'à hyperéchelle.

Ce tournant est significatif : le RSI n'est plus une promesse rhétorique dans des billets de blog, mais un programme de recherche doté de ressources humaines et d'une stratégie institutionnelle. Des voix dans l'industrie, dont certains proches d'Anthropic et d'OpenAI, affirment que seulement "un ou deux problèmes difficiles" séparent encore les systèmes actuels de l'AGI. Simultanément, la communauté pousse les standards d'évaluation bien au-delà des benchmarks classiques type SWE-bench : le projet Agents' Last Exam (ALE), développé par dair_ai, propose plus de 1 000 tâches à valeur économique réelle mappées sur la taxonomie professionnelle américaine, avec un taux de réussite moyen de seulement 2,6 % sur les épreuves les plus difficiles. SWE-Marathon teste quant à lui si des agents de code restent cohérents sur des budgets de 1 milliard de tokens, en construisant des clones de Slack ou en réimplémentant des compilateurs C.

Malgré ce récit de progrès rapide, les données empiriques tempèrent l'enthousiasme. L'Université de Princeton a mis à jour son article pour l'ICML 2026 intitulé "Towards a Science of AI Agent Reliability", en y intégrant GPT 5.5, Gemini 3.1 Pro, Gemini 3.5 Flash et Claude Opus 4.7 : conclusion, ces modèles de dernière génération ne sont pas significativement plus fiables que leurs prédécesseurs. L'étude a aussi mis au jour des problèmes de scaffolding, notamment des cas de fuite de réponses et de tentatives de contournement des défenses anti-récompense dans le Meta-Agent Challenge. Le débat converge ainsi vers une question centrale : les tâches "vérifiables" sur lesquelles les modèles progressent sont peut-être simplement les plus faciles, et la vraie mesure reste la capacité à fonctionner en production, pas à franchir des seuils artificiels.

Impact France/UE

Les données empiriques de Princeton sur la fiabilité des agents, présentées à l'ICML 2026, pourraient alimenter les débats européens sur les critères d'évaluation requis par l'AI Act.

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

Pas grand-chose à signaler aujourd'hui
1Latent Space 

Pas grand-chose à signaler aujourd'hui

Deux annonces majeures ont dominé l'actualité IA des 3 et 4 juin 2026. NVIDIA a lancé Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres au format MoE, avec 55 milliards de paramètres actifs et une fenêtre de contexte d'un million de tokens. Entraîné sur 20 000 milliards de tokens en précision NVFP4, le modèle repose sur une architecture hybride Mamba/attention avec LatentMoE, et est publié sous licence OpenMDW 1.1 avec poids, données synthétiques, checkpoints et recettes d'entraînement. NVIDIA affirme qu'il est jusqu'à 5 fois plus rapide et 30 % moins coûteux pour les tâches agentiques. Testé indépendamment par Artificial Analysis, il obtient 47,7 sur l'Intelligence Index, ce qui en fait le modèle open weights américain le plus performant à ce jour, bien qu'il reste derrière le modèle chinois Kimi K2.6. Disponible dès le jour du lancement sur vLLM, Modal, Together AI, Fireworks, Ollama et Baseten, il génère plus de 400 tokens par seconde via BlackBox. NVIDIA a également publié Nemotron 3.5 ASR, un modèle de reconnaissance vocale en streaming de 0,6 milliard de paramètres, couvrant 40 combinaisons langue-locale avec une latence inférieure à 100 millisecondes. L'autre annonce marquante vient d'Anthropic, qui a publié une note de recherche affirmant que ses systèmes actuels présentent des signes précoces d'amélioration récursive d'eux-mêmes. Les chiffres opérationnels sont frappants : plus de 80 % du code fusionné en interne chez Anthropic est désormais écrit par Claude, les ingénieurs produisent 8 fois plus de code par trimestre qu'avant, et le taux de succès de Claude sur des tâches d'ingénierie complexes en conditions ouvertes est passé de 26 % à 76 % en six mois. Le point de données le plus saisissant concerne un benchmark interne consistant à optimiser un script d'entraînement : Claude Opus 4 obtient en moyenne une accélération de 3x, tandis que Mythos Preview, un modèle expérimental plus avancé, atteint 52x. Ce même modèle surpasse des chercheurs humains 64 % du temps lorsqu'il s'agit de suggérer la prochaine étape dans une session de recherche ayant pris une mauvaise direction. Ces résultats s'inscrivent dans un contexte où la question de la gouvernance de l'IA devient centrale. Anthropic écrit explicitement qu'il serait "bénéfique pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de frontier", appelant à des mécanismes de vérification et de coordination face à une dynamique auto-accélératrice. La publication intervient alors que ChatGPT vient de franchir le milliard d'utilisateurs actifs mensuels, avec cinq mois de retard sur les prévisions. Ensemble, le lancement d'un modèle open source de cette envergure par NVIDIA et les métriques internes d'Anthropic dessinent un moment charnière : l'IA est désormais un acteur central de sa propre évolution, et les questions de contrôle rejoignent en urgence celles de performance.

UEL'appel explicite d'Anthropic à des mécanismes de vérification et de coordination internationale du développement de l'IA de frontier résonne directement avec les ambitions régulatrices de l'AI Act européen et renforce les partisans d'une gouvernance mondiale contraignante.

💬 Ce qui m'a arrêté, c'est pas Nemotron (solide, disponible sur Ollama dès le lancement, on s'en servira). C'est les chiffres internes d'Anthropic : 80% de leur code écrit par Claude, taux de réussite sur des tâches d'ingénierie complexes passé de 26% à 76% en six mois, et un modèle expérimental qui optimise des scripts d'entraînement à 52x. Quand ceux qui construisent l'outil publient ces chiffres ET appellent dans le même document à ralentir le développement, c'est qu'ils voient quelque chose qu'on ne voit pas encore.

LLMsActu
1 source
Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA
2Le Big Data 

Paris sportifs : Ce qui risque de vous arriver en demandant conseil à l’IA

Une start-up londonienne, General Reasoning, a publié une étude baptisée « KellyBench » qui met en lumière les limites des grandes intelligences artificielles face à un défi financier concret : les paris sportifs. Huit modèles issus de Google, OpenAI, Anthropic et xAI ont été soumis à une simulation de la saison 2023-2024 de la Premier League anglaise. Chaque système disposait de données historiques, de statistiques d'équipes et de joueurs, et devait élaborer des stratégies de mise capables de générer des profits tout en limitant les risques, sans accès à Internet et en s'adaptant aux informations fournies au fil des matchs. Les résultats sont sans appel : aucun des modèles testés n'a réussi à rester rentable sur la durée. Le meilleur performer, Claude Opus 4.6 d'Anthropic, affiche tout de même une perte moyenne de 11 %, avec une seule tentative frôlant l'équilibre. Grok 4.20 de xAI a fait faillite dès son premier essai, tandis que Gemini 3.1 Pro de Google a enregistré un gain ponctuel de 34 % avant de s'effondrer lors d'une autre tentative. Plusieurs systèmes ont accumulé des pertes importantes, et tous ont performé en dessous de participants humains placés dans les mêmes conditions simulées. Ces résultats éclairent une limite fondamentale des IA actuelles : leur efficacité chute dès qu'elles quittent les environnements stables et bien définis. Si ces systèmes excellent sur des tâches structurées comme la programmation, l'analyse de données ou les examens standardisés, ils peinent à gérer des dynamiques imprévisibles sur le long terme, là où les variables changent en permanence et où les décisions doivent intégrer du risque réel. Pour les investisseurs, les parieurs ou toute personne envisageant de déléguer des décisions financières à une IA, le message est clair : la robustesse affichée dans les benchmarks classiques ne se traduit pas en performance dans des contextes réels et mouvants. Ross Taylor, directeur général de General Reasoning et ancien chercheur chez Meta AI, souligne que l'engouement actuel pour l'automatisation tend à masquer cette réalité plus nuancée. Les benchmarks traditionnels, trop statiques, ne capturent pas la complexité du monde réel, ce qui crée une illusion de compétence universelle. Cette étude, encore non évaluée par des pairs, s'inscrit dans un débat plus large sur la façon dont on mesure les capacités des IA : les tests actuels favorisent les domaines où ces systèmes brillent, tout en occultant leurs lacunes sur des tâches dynamiques et à haute incertitude. La prochaine étape pour le secteur sera de concevoir des évaluations plus représentatives, capables de révéler non seulement ce que les IA savent faire, mais aussi ce qu'elles ne maîtrisent pas encore.

UECette étude avertit les entreprises et investisseurs européens contre la délégation de décisions financières à des IA, dont les performances réelles restent inférieures aux capacités humaines dans des contextes dynamiques et incertains.

RecherchePaper
1 source
3MarkTechPost 

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper
1 source
Rendre les chatbots IA plus utiles nuit à leur capacité à simuler le comportement humain, selon une étude à grande échelle
4The Decoder 

Rendre les chatbots IA plus utiles nuit à leur capacité à simuler le comportement humain, selon une étude à grande échelle

Une étude de grande envergure portant sur 208 000 participants et 26 millions de réponses révèle un paradoxe fondamental dans le développement des assistants conversationnels : l'entraînement qui rend les modèles de langage utiles et agréables à utiliser dégrade simultanément leur capacité à reproduire fidèlement les comportements humains. Plus un modèle est optimisé pour être serviable, poli et aligné sur les attentes des utilisateurs, moins il parvient à simuler la diversité réelle des réponses humaines. L'effet s'aggrave à chaque nouvelle génération de modèles. Ce résultat a des conséquences directes pour les chercheurs en sciences sociales, économistes et psychologues qui utilisent de plus en plus les LLM comme substituts aux sondages humains classiques, jugés coûteux et lents. Si ces modèles ne peuvent pas reproduire de manière fiable les comportements individuels, leur valeur comme outils de simulation sociale est sérieusement remise en question. La technique populaire consistant à fournir aux modèles des profils démographiques détaillés, souvent appelée "persona prompting", n'apporte pratiquement aucun gain de précision au niveau individuel. Ce constat s'inscrit dans un débat plus large sur la nature de l'alignement des LLM : en optimisant pour la satisfaction de l'utilisateur via le renforcement humain (RLHF), les entreprises comme OpenAI, Anthropic ou Google créent des modèles qui s'homogénéisent vers un comportement "acceptable" au détriment de la variabilité humaine. Les chercheurs appellent à distinguer clairement les cas d'usage où l'alignement est souhaitable de ceux où la fidélité comportementale est requise.

UELes chercheurs européens en sciences sociales, économie et psychologie doivent revoir leur méthodologie : les LLM alignés ne peuvent pas remplacer fiablement des participants humains dans les études comportementales à l'échelle individuelle.

💬 Résultat presque évident une fois qu'on le lit, sauf que personne ne l'avait mesuré à cette échelle : plus tu rends un LLM utile et poli, moins il ressemble à un humain réel. 208 000 participants, 26 millions de réponses, c'est difficile à contester. Les chercheurs en sciences sociales qui remplaçaient leurs sondages par des LLM vont devoir revoir leurs copies, et pas qu'un peu.

RecherchePaper
1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour