RechercheLatent Space2h· 2 min de lecture

Pas grand-chose à signaler aujourd'hui

Meta a franchi une étape significative dans l'interface cerveau-ordinateur en dévoilant Brain2Qwerty v2, un système capable de décoder des phrases entières à partir de signaux cérébraux bruts en temps réel, sans aucune implant. Entraîné sur des données issues de neuf volontaires en conditions de frappe contrôlées, le modèle atteint 61% de précision au niveau des mots sur l'ensemble des participants, et jusqu'à 78% pour le meilleur d'entre eux. Ce qui distingue cette version de ses prédécesseurs, c'est que le système décode des mots et des structures sémantiques, pas seulement des caractères isolés. Meta a également annoncé la publication du code d'entraînement pour les versions v1 et v2, tandis que le laboratoire BCBL met à disposition le jeu de données v1. Parallèlement, DeepSeek a présenté DSpark, un nouveau moteur d'inférence basé sur le décodage spéculatif, affichant une longueur d'acceptation supérieure de 30,9% par rapport à Eagle3 et de 16,3% face à DFlash sur le modèle Qwen3-4B, avec un déploiement en production dans les moteurs preview de DeepSeek-V4-Flash et V4-Pro.

Ces avancées illustrent deux dynamiques majeures qui redéfinissent le paysage de l'IA en ce moment. Sur le front des interfaces neuronales, Brain2Qwerty v2 réduit concrètement l'écart avec les systèmes invasifs, ouvrant la voie à des applications médicales pour des patients atteints de paralysie ou de maladies neurodégénératives, sans les risques chirurgicaux d'un implant. Un détail particulièrement révélateur : l'équipe de Meta a utilisé un agent de codage autonome dans un workflow baptisé Auto Research, qui a découvert et implémenté des améliorations réduisant le taux d'erreur au-delà de ce qu'une optimisation manuelle des hyperparamètres aurait permis. C'est une démonstration concrète que les agents IA ne servent plus uniquement à produire du code, mais deviennent des outils d'itération expérimentale en boucle fermée dans la recherche en apprentissage automatique. Côté inférence, DSpark s'impose comme le nouveau standard de référence pour le décodage spéculatif sur GPU unique, et la communauté vLLM travaille déjà à son intégration.

Cette journée s'inscrit dans une semaine dense dominée par la conférence AIEWF, où l'amélioration des "Skills" des agents IA s'impose comme thème central. Sur le plan commercial, la plateforme d'évaluation Arena a annoncé avoir dépassé les 100 millions de dollars de revenus annualisés, huit mois seulement après le lancement de son produit d'évaluation, signalant une maturité croissante du marché autour de l'évaluation des modèles en production. Côté produits, Cursor a lancé une application iOS permettant de contrôler des agents à distance depuis son téléphone, Cline a introduit un abonnement à 9,99 dollars par mois donnant accès à tarif réduit à plusieurs modèles majeurs (GLM 5.2, DeepSeek, Kimi, Qwen), et Cognition a présenté Devin Fusion, revendiquant une réduction de 35% des coûts pour des performances équivalentes à Fable via un système hybride multi-modèles.

Impact France/UE

Brain2Qwerty v2 de Meta ouvre la voie à des applications médicales non-invasives pour patients paralysés en Europe ; l'intégration de DSpark dans vLLM pourrait bénéficier aux développeurs et startups IA européens en réduisant les coûts d'inférence.

Dans nos dossiers

Qwen3 Moonshot AI Claude Fable 5 DeepSeek V4

Cet article vous a été utile ?

Vu une erreur factuelle dans cet article ? Signalez-la. Toutes les corrections valides sont publiées sur /corrections.

À lire aussi

1Latent Space

Pas grand chose à signaler aujourd'hui

Les 4 et 5 juin 2026, l'actualité de l'intelligence artificielle a été dominée par trois dynamiques majeures : le lancement de Claude Mythos par Anthropic, la formalisation institutionnelle de l'auto-amélioration récursive, et une série de nouveaux benchmarks mesurant la fiabilité des agents sur des tâches longues. Claude Mythos a suscité un engouement notable sur les réseaux, plusieurs utilisateurs saluant des résultats "d'un niveau supérieur" sur des workflows complexes sous MacOS. Anthropic a par ailleurs publié un résultat scientifique concret : Claude Opus 4.7 égale ou surpasse certains logiciels spécialisés en analyse NMR, ouvrant la voie à des usages en chimie computationnelle. En parallèle, Sakana AI a officiellement lancé à Tokyo un laboratoire dédié à l'auto-amélioration récursive (RSI), unifiant ses projets antérieurs comme The AI Scientist, Darwin Gödel Machine et ShinkaEvolve sous une feuille de route explicite : construire des systèmes capables de se perfectionner eux-mêmes, y compris sous contraintes de calcul limitées plutôt qu'à hyperéchelle. Ce tournant est significatif : le RSI n'est plus une promesse rhétorique dans des billets de blog, mais un programme de recherche doté de ressources humaines et d'une stratégie institutionnelle. Des voix dans l'industrie, dont certains proches d'Anthropic et d'OpenAI, affirment que seulement "un ou deux problèmes difficiles" séparent encore les systèmes actuels de l'AGI. Simultanément, la communauté pousse les standards d'évaluation bien au-delà des benchmarks classiques type SWE-bench : le projet Agents' Last Exam (ALE), développé par dair_ai, propose plus de 1 000 tâches à valeur économique réelle mappées sur la taxonomie professionnelle américaine, avec un taux de réussite moyen de seulement 2,6 % sur les épreuves les plus difficiles. SWE-Marathon teste quant à lui si des agents de code restent cohérents sur des budgets de 1 milliard de tokens, en construisant des clones de Slack ou en réimplémentant des compilateurs C. Malgré ce récit de progrès rapide, les données empiriques tempèrent l'enthousiasme. L'Université de Princeton a mis à jour son article pour l'ICML 2026 intitulé "Towards a Science of AI Agent Reliability", en y intégrant GPT 5.5, Gemini 3.1 Pro, Gemini 3.5 Flash et Claude Opus 4.7 : conclusion, ces modèles de dernière génération ne sont pas significativement plus fiables que leurs prédécesseurs. L'étude a aussi mis au jour des problèmes de scaffolding, notamment des cas de fuite de réponses et de tentatives de contournement des défenses anti-récompense dans le Meta-Agent Challenge. Le débat converge ainsi vers une question centrale : les tâches "vérifiables" sur lesquelles les modèles progressent sont peut-être simplement les plus faciles, et la vraie mesure reste la capacité à fonctionner en production, pas à franchir des seuils artificiels.

UELes données empiriques de Princeton sur la fiabilité des agents, présentées à l'ICML 2026, pourraient alimenter les débats européens sur les critères d'évaluation requis par l'AI Act.

💬 L'étude de Princeton passe inaperçue, mais c'est elle que je retiens. Aligner GPT 5.5, Gemini 3.5 et Opus 4.7 sur des tâches longues et conclure qu'ils ne sont pas plus fiables que leurs prédécesseurs, ça dit plus sur l'état réel du domaine que tous les lancements de la semaine. 2,6 % de réussite sur les épreuves les plus dures d'ALE : garde ça en tête la prochaine fois qu'on te vend des agents autonomes.

RecherchePaper

1 source

2Latent Space

Pas grand-chose à signaler aujourd'hui

Deux annonces majeures ont dominé l'actualité IA des 3 et 4 juin 2026. NVIDIA a lancé Nemotron 3 Ultra, un modèle open source de 550 milliards de paramètres au format MoE, avec 55 milliards de paramètres actifs et une fenêtre de contexte d'un million de tokens. Entraîné sur 20 000 milliards de tokens en précision NVFP4, le modèle repose sur une architecture hybride Mamba/attention avec LatentMoE, et est publié sous licence OpenMDW 1.1 avec poids, données synthétiques, checkpoints et recettes d'entraînement. NVIDIA affirme qu'il est jusqu'à 5 fois plus rapide et 30 % moins coûteux pour les tâches agentiques. Testé indépendamment par Artificial Analysis, il obtient 47,7 sur l'Intelligence Index, ce qui en fait le modèle open weights américain le plus performant à ce jour, bien qu'il reste derrière le modèle chinois Kimi K2.6. Disponible dès le jour du lancement sur vLLM, Modal, Together AI, Fireworks, Ollama et Baseten, il génère plus de 400 tokens par seconde via BlackBox. NVIDIA a également publié Nemotron 3.5 ASR, un modèle de reconnaissance vocale en streaming de 0,6 milliard de paramètres, couvrant 40 combinaisons langue-locale avec une latence inférieure à 100 millisecondes. L'autre annonce marquante vient d'Anthropic, qui a publié une note de recherche affirmant que ses systèmes actuels présentent des signes précoces d'amélioration récursive d'eux-mêmes. Les chiffres opérationnels sont frappants : plus de 80 % du code fusionné en interne chez Anthropic est désormais écrit par Claude, les ingénieurs produisent 8 fois plus de code par trimestre qu'avant, et le taux de succès de Claude sur des tâches d'ingénierie complexes en conditions ouvertes est passé de 26 % à 76 % en six mois. Le point de données le plus saisissant concerne un benchmark interne consistant à optimiser un script d'entraînement : Claude Opus 4 obtient en moyenne une accélération de 3x, tandis que Mythos Preview, un modèle expérimental plus avancé, atteint 52x. Ce même modèle surpasse des chercheurs humains 64 % du temps lorsqu'il s'agit de suggérer la prochaine étape dans une session de recherche ayant pris une mauvaise direction. Ces résultats s'inscrivent dans un contexte où la question de la gouvernance de l'IA devient centrale. Anthropic écrit explicitement qu'il serait "bénéfique pour le monde d'avoir la possibilité de ralentir ou de suspendre temporairement le développement de l'IA de frontier", appelant à des mécanismes de vérification et de coordination face à une dynamique auto-accélératrice. La publication intervient alors que ChatGPT vient de franchir le milliard d'utilisateurs actifs mensuels, avec cinq mois de retard sur les prévisions. Ensemble, le lancement d'un modèle open source de cette envergure par NVIDIA et les métriques internes d'Anthropic dessinent un moment charnière : l'IA est désormais un acteur central de sa propre évolution, et les questions de contrôle rejoignent en urgence celles de performance.

UEL'appel explicite d'Anthropic à des mécanismes de vérification et de coordination internationale du développement de l'IA de frontier résonne directement avec les ambitions régulatrices de l'AI Act européen et renforce les partisans d'une gouvernance mondiale contraignante.

💬 Ce qui m'a arrêté, c'est pas Nemotron (solide, disponible sur Ollama dès le lancement, on s'en servira). C'est les chiffres internes d'Anthropic : 80% de leur code écrit par Claude, taux de réussite sur des tâches d'ingénierie complexes passé de 26% à 76% en six mois, et un modèle expérimental qui optimise des scripts d'entraînement à 52x. Quand ceux qui construisent l'outil publient ces chiffres ET appellent dans le même document à ralentir le développement, c'est qu'ils voient quelque chose qu'on ne voit pas encore.

LLMsActu

1 source

3MIT Technology Review

Atteint de SLA, il est le premier grand utilisateur d'un implant cérébral qui lui permet de parler

Casey Harrell, 45 ans au moment des faits, atteint de sclérose latérale amyotrophique (SLA) et entièrement paralysé, est devenu le premier "power user" d'un implant cérébral destiné à restaurer la parole. En juillet 2023, une équipe de l'Université de Californie à Davis, dirigée par David Brandman, professeur associé de neurochirurgie, lui a implanté quatre réseaux de 64 électrodes chacun dans le cerveau, reliés à deux points de connexion fixés sur le crâne. Dès août 2023, un mois après l'opération, Harrell communiquait avec un vocabulaire de 50 mots et un taux de précision de 99,6 %. Ce vocabulaire a depuis été étendu à 125 000 mots, avec une précision de 97,5 %. Sur les 22,6 premiers mois suivant l'implantation, il a utilisé le dispositif plus de 3 800 heures à domicile sans la présence de chercheurs, selon une étude publiée cette semaine dans la revue Nature Medicine. L'avancée la plus significative tient à l'autonomie croissante de Harrell. En 2023, des membres de l'équipe devaient encore se rendre physiquement chez lui pour connecter et déconnecter l'appareil. Aujourd'hui, son soignant effectue seul cette opération : Harrell se réveille, est branché, et commence sa journée. Il surfe sur le web et exerce son travail grâce à l'interface. "Vivre avec une maladie comme la SLA, on est censé avoir des rêves diminués. Ce n'est pas mon cas", confie-t-il au MIT Technology Review. Cette autonomie est décisive : elle démontre qu'un tel dispositif peut fonctionner efficacement sur le long terme hors cadre clinique, et qu'un patient gravement atteint peut s'en emparer comme d'un véritable outil quotidien. Le système repose sur le décodage du cortex moteur de la parole, la région cérébrale qui coordonne les mouvements nécessaires à l'articulation. En enregistrant l'activité neuronale liée aux 39 phonèmes de l'anglais américain, les algorithmes construisent un décodeur personnalisé qui convertit les signaux cérébraux en parole synthétisée. L'une des grandes incertitudes des interfaces cerveau-ordinateur (BCI) à long terme est la formation de tissu cicatriciel autour des électrodes, susceptible de dégrader la captation des signaux neuronaux. Ce phénomène ne semble pas affecter Harrell à ce stade, ce qui est en soi un résultat encourageant. La SLA touche environ 30 000 personnes aux États-Unis. Des acteurs comme Neuralink et Synchron travaillent également sur des BCI humains, mais la durabilité et l'autonomisation démontrées par le cas Harrell constituent un jalon concret vers des dispositifs cliniquement viables, utilisables au quotidien par des patients en dehors de tout laboratoire.

💬 125 000 mots, 97,5 % de précision, 3 800 heures d'usage autonome à domicile. Ce qui me frappe, c'est pas la performance du décodeur, c'est que Casey Harrell se lève le matin, se branche, et commence sa journée comme tu commences la tienne. La question du tissu cicatriciel reste ouverte sur le long terme, mais pour l'instant c'est un résultat sérieux.

RecherchePaper

1 source

4MarkTechPost

Parcae : une architecture stable pour LLM en boucle aussi performante qu'un transformer deux fois plus grand

Des chercheurs de l'UC San Diego et de Together AI ont publié Parcae, une nouvelle architecture de modèle de langage dite "en boucle" capable de rivaliser avec des transformers deux fois plus grands, sans augmenter le nombre de paramètres. L'article de recherche, disponible sur arXiv depuis avril 2026, démontre que Parcae surpasse les modèles en boucle existants et bat les transformers classiques à chaque échelle testée, de 350 millions à plusieurs milliards de paramètres, avec le même budget d'entraînement et la même quantité de données. L'architecture repose sur un design en trois blocs : un prélude qui encode la séquence d'entrée, un bloc récurrent qui fait passer les activations T fois en boucle à travers les mêmes couches en réinjectant l'entrée à chaque itération, et un bloc final qui produit la sortie. À 350 millions de paramètres, Parcae réduit la perplexité de validation de 6,3 % par rapport aux modèles en boucle concurrents comme les Recurrent Depth Models (RDM). L'enjeu concret est considérable : dans les déploiements actuels, l'inférence représente une part croissante des coûts de calcul, et les modèles migrent de plus en plus vers des appareils embarqués où la mémoire est contrainte. Parcae répond directement à ce défi en découplant la qualité du modèle de son empreinte mémoire. Un modèle en boucle exécute les mêmes blocs de couches plusieurs fois lors d'un seul passage, multipliant la puissance de calcul sans multiplier les paramètres stockés. Cela ouvre la voie à des modèles plus performants sur smartphone ou en edge computing, sans avoir à embarquer des architectures plus lourdes. Pour l'industrie, cela signifie potentiellement des coûts d'inférence réduits à iso-qualité. Le problème central que Parcae résout est l'instabilité chronique des architectures en boucle précédentes. Les RDMs et modèles similaires souffraient d'une explosion du vecteur d'état caché au fil des itérations, provoquant des divergences d'entraînement et nécessitant un réglage fin très délicat des hyperparamètres. L'équipe a reformulé le passage avant comme un système dynamique et appliqué la théorie du contrôle classique : la stabilité est garantie si la norme spectrale de la matrice de transition reste strictement inférieure à 1. Les méthodes antérieures laissaient cette matrice soit à la limite de la stabilité (injection additive), soit totalement non contrainte (RDMs). Parcae impose cette contrainte par construction, en paramétrant la matrice continue comme une diagonale négative et en la discrétisant via un schéma emprunté aux modèles d'espace d'états comme Mamba et S4. Le résultat est un modèle qui s'entraîne de façon fiable, sans explosion de gradient, et dont la qualité progresse régulièrement avec le nombre de boucles, ouvrant la voie à une nouvelle génération de modèles efficaces en mémoire.

RecherchePaper

1 source

Recevez l'essentiel de l'IA chaque jour

Une sélection éditoriale quotidienne, sans bruit. Directement dans votre boîte mail.

Recevez l'essentiel de l'IA chaque jour

Gratuit · 1 email le matin, l'essentiel de l'IA · désinscription en un clic