Aller au contenu principal

Recherche — page 2

671 articles · page 2 sur 14

Dernières avancées en recherche IA : papers, découvertes scientifiques, deep learning et nouvelles architectures.

La science casse les codes : l’IA crée ses premiers vaccins humains
51Le Big Data RecherchePaper

La science casse les codes : l’IA crée ses premiers vaccins humains

Des chercheurs de l'Université de Cambridge ont franchi une étape inédite dans l'histoire de la vaccination : un candidat vaccin contre les coronavirus, baptisé pEVAC-PS, conçu entièrement à l'aide de modèles d'intelligence artificielle, a été testé avec succès chez l'humain pour la première fois. L'essai de phase I a impliqué 39 volontaires sains qui ont reçu le vaccin par voie intradermique, sans aiguille. Aucun effet indésirable grave n'a été observé, et des signaux immunitaires ont été détectés contre plusieurs coronavirus distincts. Le vaccin a été développé en collaboration avec la société britannique DIOSynVax, qui ambitionne d'étendre la plateforme à d'autres agents pathogènes comme la grippe ou Ebola. Ce qui rend cette avancée significative, c'est l'approche adoptée pour contourner l'un des problèmes fondamentaux de la vaccinologie moderne : la dérive virale. Les coronavirus, comme les virus grippaux, mutent en permanence, rendant les vaccins existants progressivement moins efficaces. L'IA a permis ici d'identifier des zones structurellement stables, communes à plusieurs sarbecovirus, dont le SARS-CoV-2, le virus du SRAS de 2003 et des souches de coronavirus de chauve-souris à potentiel zoonotique. En ciblant ces régions conservées plutôt que des épitopes variables, le vaccin vise à entraîner le système immunitaire à reconnaître une famille entière de virus plutôt qu'un seul variant. C'est une stratégie qui pourrait transformer la manière dont l'humanité anticipe les pandémies, en passant d'une réponse réactive à une préparation proactive. Ce premier essai clinique s'inscrit dans un contexte de course mondiale à la prévention des prochaines crises sanitaires, accélérée par les leçons du Covid-19. Les gouvernements et institutions scientifiques cherchent des outils capables de réduire le délai entre l'émergence d'un nouveau pathogène et la mise à disposition d'un vaccin efficace. L'utilisation de l'IA pour la conception moléculaire représente une piste sérieuse : elle peut théoriquement compresser des années de tâtonnements expérimentaux en quelques mois de simulation computationnelle. Cela dit, les résultats immunitaires observés restent préliminaires et difficiles à interpréter, notamment parce que les volontaires avaient déjà été exposés au SARS-CoV-2 ou vaccinés contre le Covid-19. La prochaine étape, un essai de phase II avec un panel plus large de participants naïfs, sera déterminante pour évaluer l'efficacité réelle du pEVAC-PS. Cambridge et DIOSynVax ont encore plusieurs années de travail devant eux avant toute mise sur le marché, mais la preuve de concept est désormais posée.

UECette avancée de l'Université de Cambridge pourrait accélérer la préparation pandémique en Europe et nourrir les réflexions de l'EMA sur l'intégration de l'IA dans le développement de vaccins à large spectre contre les futures pandémies.

1 source
Coronavirus : un antigène développé avec une IA, le vaccin est testé chez l’humain
52Next INpact 

Coronavirus : un antigène développé avec une IA, le vaccin est testé chez l’humain

Des chercheurs de l'université de Cambridge ont franchi une étape inédite dans l'histoire de la vaccinologie : pour la première fois, un vaccin dont l'antigène a été entièrement conçu par une intelligence artificielle a été testé sur des humains. Le candidat vaccin, baptisé pEVAC-PS, cible une sous-famille de coronavirus appelée les sarbecovirus, qui comprend le SARS-CoV-1 (responsable du SRAS en 2002-2003), le SARS-CoV-2 (Covid-19) et des souches animales susceptibles de passer à l'humain. L'outil d'IA utilisé, DIOSynVax, développé par une spin-out de Cambridge du même nom, a analysé les séquences génétiques de nombreux coronavirus pour concevoir un antigène synthétique ciblant leurs caractéristiques communes plutôt qu'une seule souche. Un premier essai clinique portant sur 39 participants a été mené et les résultats ont été publiés dans le Journal of Infection. Les résultats se sont révélés mitigés : les participants, déjà fortement immunisés suite aux vaccinations anti-Covid, n'ont montré qu'une faible augmentation de leurs niveaux d'anticorps. L'intérêt de cette avancée ne réside pas dans l'efficacité immédiate du vaccin, mais dans ce qu'elle démontre pour l'avenir de la préparation aux pandémies. En concevant un "super-antigène" synthétique capable de cibler les caractéristiques partagées par toute une famille virale, l'approche DIOSynVax ouvre la voie à des vaccins universels, efficaces non seulement contre les souches actuelles mais également contre de futures mutations ou l'émergence de nouveaux virus d'origine animale. Cette logique de protection préventive représente un changement de paradigme par rapport aux vaccins traditionnels, qui sont développés à partir de souches déjà identifiées et connues. Un second essai clinique impliquant 200 participants est prévu pour mieux évaluer les capacités réelles du vaccin. Cette percée s'inscrit dans un contexte d'urgence sanitaire mondiale persistante. L'équipe de Cambridge compte désormais appliquer sa plateforme IA à d'autres menaces infectieuses : la grippe saisonnière, la grippe aviaire H5N1 et les fièvres hémorragiques virales comme Ebola, dont une souche sans vaccin existant sévit actuellement en République démocratique du Congo. Le professeur Jonathan Heeney, qui dirige les recherches, résume l'enjeu auprès de la BBC : "mettre au point des vaccins qui nous protègent non seulement contre les virus d'aujourd'hui, mais aussi contre ceux qui pourraient être à l'origine de la prochaine épidémie." Saul Faust, qui a conduit les essais à l'université de Southampton, souligne que la technologie semble particulièrement prometteuse face aux virus à mutation rapide. La prudence reste néanmoins de mise avant les résultats du prochain essai élargi.

UEImpact indirect : la plateforme DIOSynVax, développée à Cambridge (Royaume-Uni, hors UE), pourrait influencer les stratégies européennes de préparation aux pandémies si les résultats du second essai clinique confirment son efficacité.

💬 Les résultats sont décevants sur les anticorps, OK. Mais l'enjeu n'est pas là : ce vaccin montre qu'une IA peut concevoir un antigène qui cible toute une famille virale, pas juste la souche qu'on a sous les yeux aujourd'hui. Si le deuxième essai tient, on change de logique dans la préparation aux pandémies.

RecherchePaper
1 source
Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b
53MarkTechPost 

Harness-1 : sous-agent de récupération 20B entraîné par renforcement dans un cadre de recherche à état sur gpt-oss-20b

Des chercheurs de l'Université de l'Illinois à Urbana-Champaign, de l'UC Berkeley et de la startup Chroma ont publié Harness-1, un agent de recherche documentaire de 20 milliards de paramètres construit sur le modèle gpt-oss-20b et entraîné par apprentissage par renforcement. Sa particularité : contrairement aux agents de recherche classiques où le modèle gère simultanément les décisions de recherche et la mémoire de session, Harness-1 opère à l'intérieur d'un "harnais" logiciel à état qui prend en charge toute la comptabilité interne. Le modèle ne répond pas directement aux questions : il produit un ensemble classé de documents pertinents pour un modèle de réponse en aval. Les poids et le code source sont publiés en accès libre. L'entraînement supervisé a utilisé 899 trajectoires générées par GPT-5.4, avec affinage par renforcement via la méthode CISPO, sur des requêtes financières issues de la SEC, avec une limite de 40 tours par épisode, sur un cluster de calcul baptisé Tinker. Le coeur de l'approche repose sur un principe que les chercheurs appellent "décharge cognitive à état" : au lieu de demander au modèle de tout mémoriser et décider en même temps, le harnais maintient un pool de documents compressés et dédupliqués, un ensemble curé de 30 documents maximum tagués par importance (veryhigh, high, fair, low), un graphe de preuves et un extracteur d'entités nommées. Le modèle dispose de huit outils distincts (fanoutsearch, searchcorpus, grepcorpus, readdocument, reviewdocs, curate, verify, endsearch) et émet une action structurée par tour, que le harnais exécute avant de rendre la prochaine observation. Cette séparation des responsabilités permet à l'apprentissage par renforcement de se concentrer uniquement sur les décisions sémantiques. Un bonus de diversité d'outils s'est révélé critique : sans lui, l'agent s'effondrait en boucles de recherches répétitives et le rappel curé plafonnait à 0,53 ; avec le bonus, il atteint 0,60. Harness-1 s'inscrit dans une tendance de fond visant à rendre les agents de recherche plus fiables sur des tâches complexes et multi-sources. Évalué sur huit benchmarks couvrant le web, la finance, les brevets et le raisonnement multi-saut, il affiche un rappel curé moyen de 0,730, un résultat notable pour un modèle open source de cette taille face à des systèmes propriétaires bien plus grands. L'enjeu est significatif car les architectures RAG (retrieval-augmented generation) sont au coeur de nombreux systèmes d'IA en production, notamment en entreprise. La publication ouverte des poids et du harnais ouvre la voie à des adaptations dans des domaines où la précision documentaire est critique, comme le droit, la médecine ou la veille scientifique. Les prochaines étapes naturelles incluent l'extension à d'autres corpus et l'intégration à des pipelines de réponse complets.

UELes entreprises et institutions européennes travaillant sur des systèmes RAG en droit, médecine ou veille scientifique peuvent s'appuyer sur les poids ouverts de Harness-1 pour des adaptations sectorielles à faible coût.

💬 Le principe de "décharge cognitive à état" m'a vraiment accroché : au lieu de demander au modèle de tout jongler simultanément, on externalise la comptabilité dans un harnais, et le RL peut enfin se concentrer sur les décisions qui comptent. Ce qui le prouve, c'est le bonus de diversité d'outils, sans lequel l'agent s'effondre en boucles répétitives et le rappel plafonne à 0,53 au lieu de 0,60. Les poids sont ouverts et les benchmarks sont solides : pour du RAG en médecine ou en droit, ça vaut le détour.

RecherchePaper
1 source
Sakana AI parie qu'une IA capable de s'améliorer elle-même peut mettre fin à la course au calcul des grands laboratoires
54The Decoder 

Sakana AI parie qu'une IA capable de s'améliorer elle-même peut mettre fin à la course au calcul des grands laboratoires

Sakana AI, une startup japonaise co-fondée par Llion Jones, l'un des huit co-auteurs du papier fondateur « Attention is All You Need » (2017), vient de lancer un laboratoire de recherche entièrement dédié à l'auto-amélioration récursive, connue sous le sigle RSI (Recursive Self-Improvement). Cette technologie consiste à concevoir des systèmes d'IA capables de s'optimiser eux-mêmes de façon itérative, sans dépendre d'une augmentation constante de la puissance de calcul disponible. Pour Sakana AI, le RSI constitue une alternative directe à la course aux datacenters et aux puces que se livrent les grands laboratoires américains comme OpenAI, Google DeepMind ou Meta, qui engloutissent des dizaines de milliards de dollars en infrastructure. L'idée centrale est d'obtenir des gains de performance en rendant les modèles capables de retravailler leur propre architecture ou leurs paramètres, plutôt qu'en empilant davantage de GPUs. Si cette piste aboutit, elle pourrait redistribuer les cartes entre acteurs bien dotés en capital et équipes plus agiles. Le RSI est aussi l'une des technologies les plus surveillées par les chercheurs en sécurité de l'IA. Anthropic, qui développe pourtant ses propres modèles frontier, met explicitement en garde contre les risques de contrôle associés à des systèmes capables de se redéfinir eux-mêmes. La tension est révélatrice : l'auto-amélioration récursive est à la fois perçue comme un levier de souveraineté technologique pour les acteurs hors Silicon Valley, et comme l'un des scénarios de risque les plus sérieux pour la sécurité à long terme de l'IA.

UESi le RSI tient ses promesses, les laboratoires européens à ressources limitées pourraient bénéficier d'une voie de compétitivité alternative à la course aux datacenters, réduisant leur dépendance aux infrastructures massives américaines.

💬 Sakana mise sur l'auto-amélioration récursive pour contourner la course au calcul. C'est le seul angle vraiment crédible si tu n'as pas dix milliards à mettre dans des datacenters, et avec Llion Jones à bord (un des auteurs d'"Attention is All You Need"), l'équipe a le niveau pour que ça soit autre chose qu'un pitch deck. Le hic, c'est que le RSI est aussi ce qu'Anthropic cite en tête de liste quand on leur demande ce qui les empêche de dormir.

RecherchePaper
1 source
Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)
55Ahead of AI 

Recherche sur les LLM : les articles scientifiques marquants de 2026 (janvier-mai)

Un chercheur et auteur spécialisé dans l'IA a publié sa liste de référence des articles de recherche sur les grands modèles de langage pour la période de janvier à mai 2026, dans la continuité d'un exercice similaire mené tout au long de 2025. La sélection, organisée en dix catégories, couvre l'architecture et la conception des modèles, l'entraînement efficace, l'inférence et le cache KV, l'attention sparse et les longs contextes, le raisonnement et le calcul au moment du test, l'apprentissage par renforcement (RLVR), les systèmes d'agents et l'utilisation d'outils, les agents de codage, les modèles de langage par diffusion, ainsi que l'évaluation et les benchmarks. Parmi les publications phares, Nemotron 3 Super de NVIDIA est cité comme lecture incontournable : ce modèle de 120 milliards de paramètres actifs (architecture 120B-A12B) adopte un design hybride alternant couches d'attention classiques et couches Mamba-2, ce qui le rend particulièrement efficace sur les très longs contextes. Une version allégée, Nemotron 3 Nano (4 milliards de paramètres), est également disponible pour l'inférence locale sur du matériel grand public. Ce recensement illustre une tendance lourde de 2026 : la recherche en LLM ne se limite plus à empiler davantage de paramètres dans des architectures transformer classiques. Les travaux se concentrent désormais sur l'efficacité à l'inférence, la gestion des longs contextes et l'intégration dans des systèmes agentiques complexes. L'émergence de harnais d'agents comme OpenClaw force les modèles à traiter des contextes de plus en plus étendus, ce qui fait de l'efficacité mémoire et de la vitesse d'inférence des priorités absolues pour les équipes de recherche comme pour les équipes produit. Pour les développeurs et les entreprises qui déploient ces modèles en production, ces publications constituent une feuille de route pratique des techniques qui passent du laboratoire au monde réel. La publication de telles listes annotées répond à un besoin concret dans un domaine où des dizaines d'articles paraissent chaque jour sur arXiv. En 2025, les préoccupations dominantes portaient sur les modèles de raisonnement et le reinforcement learning ; en 2026, elles s'élargissent aux architectures hybrides (Arcee Trinity, Mamba-3), à l'allocation de capacité dans les modèles mixture-of-experts, aux modèles de langage par diffusion et à l'infrastructure de déploiement à grande échelle. Ce glissement reflète la maturité croissante du secteur, qui passe de la course pure aux performances à la maîtrise des coûts opérationnels et à la fiabilité des systèmes en production. La deuxième moitié de 2026 devrait voir une accélération sur les agents autonomes et les architectures hybrides, deux axes qui concentrent actuellement l'essentiel de l'attention de la communauté de recherche.

💬 Ce genre de synthèse annotée, ça mérite d'être bookmarqué tout de suite. Le vrai signal de 2026, c'est le glissement : on ne court plus après les paramètres bruts, on court après l'efficacité mémoire et l'inférence rapide, ce qui est exactement ce que les déploiements en prod réclamaient depuis deux ans. Nemotron 3 avec son hybride Mamba-2, c'est le genre de truc qu'on surveillait depuis un moment.

RecherchePaper
1 source
Pas grand chose à signaler aujourd'hui
56Latent Space 

Pas grand chose à signaler aujourd'hui

Les 4 et 5 juin 2026, l'actualité de l'intelligence artificielle a été dominée par trois dynamiques majeures : le lancement de Claude Mythos par Anthropic, la formalisation institutionnelle de l'auto-amélioration récursive, et une série de nouveaux benchmarks mesurant la fiabilité des agents sur des tâches longues. Claude Mythos a suscité un engouement notable sur les réseaux, plusieurs utilisateurs saluant des résultats "d'un niveau supérieur" sur des workflows complexes sous MacOS. Anthropic a par ailleurs publié un résultat scientifique concret : Claude Opus 4.7 égale ou surpasse certains logiciels spécialisés en analyse NMR, ouvrant la voie à des usages en chimie computationnelle. En parallèle, Sakana AI a officiellement lancé à Tokyo un laboratoire dédié à l'auto-amélioration récursive (RSI), unifiant ses projets antérieurs comme The AI Scientist, Darwin Gödel Machine et ShinkaEvolve sous une feuille de route explicite : construire des systèmes capables de se perfectionner eux-mêmes, y compris sous contraintes de calcul limitées plutôt qu'à hyperéchelle. Ce tournant est significatif : le RSI n'est plus une promesse rhétorique dans des billets de blog, mais un programme de recherche doté de ressources humaines et d'une stratégie institutionnelle. Des voix dans l'industrie, dont certains proches d'Anthropic et d'OpenAI, affirment que seulement "un ou deux problèmes difficiles" séparent encore les systèmes actuels de l'AGI. Simultanément, la communauté pousse les standards d'évaluation bien au-delà des benchmarks classiques type SWE-bench : le projet Agents' Last Exam (ALE), développé par dair_ai, propose plus de 1 000 tâches à valeur économique réelle mappées sur la taxonomie professionnelle américaine, avec un taux de réussite moyen de seulement 2,6 % sur les épreuves les plus difficiles. SWE-Marathon teste quant à lui si des agents de code restent cohérents sur des budgets de 1 milliard de tokens, en construisant des clones de Slack ou en réimplémentant des compilateurs C. Malgré ce récit de progrès rapide, les données empiriques tempèrent l'enthousiasme. L'Université de Princeton a mis à jour son article pour l'ICML 2026 intitulé "Towards a Science of AI Agent Reliability", en y intégrant GPT 5.5, Gemini 3.1 Pro, Gemini 3.5 Flash et Claude Opus 4.7 : conclusion, ces modèles de dernière génération ne sont pas significativement plus fiables que leurs prédécesseurs. L'étude a aussi mis au jour des problèmes de scaffolding, notamment des cas de fuite de réponses et de tentatives de contournement des défenses anti-récompense dans le Meta-Agent Challenge. Le débat converge ainsi vers une question centrale : les tâches "vérifiables" sur lesquelles les modèles progressent sont peut-être simplement les plus faciles, et la vraie mesure reste la capacité à fonctionner en production, pas à franchir des seuils artificiels.

UELes données empiriques de Princeton sur la fiabilité des agents, présentées à l'ICML 2026, pourraient alimenter les débats européens sur les critères d'évaluation requis par l'AI Act.

💬 L'étude de Princeton passe inaperçue, mais c'est elle que je retiens. Aligner GPT 5.5, Gemini 3.5 et Opus 4.7 sur des tâches longues et conclure qu'ils ne sont pas plus fiables que leurs prédécesseurs, ça dit plus sur l'état réel du domaine que tous les lancements de la semaine. 2,6 % de réussite sur les épreuves les plus dures d'ALE : garde ça en tête la prochaine fois qu'on te vend des agents autonomes.

RecherchePaper
1 source
Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)
57Latent Space 

Comment éviter de publier des environnements RL de mauvaise qualité (avec exemples)

Auriel W, chercheuse spécialisée en apprentissage par renforcement qui a travaillé sur Gemini chez Google DeepMind, tire la sonnette d'alarme sur un problème systématique dans l'industrie de l'IA : la médiocrité des environnements d'entraînement vendus aux laboratoires. Dans un billet publié sur son blog "RL Pet Peeves", elle décrit avec précision comment des harness défectueux, ces systèmes logiciels interactifs dans lesquels un agent RL s'entraîne, contaminent les données d'entraînement et dégradent les modèles de manière souvent irréversible. Elle identifie trois classes d'erreurs récurrentes observées sur des milliers de trajectoires : le cache périmé, qui fait répondre l'environnement avec des données obsolètes ; le reward hack, où l'agent optimise une métrique au lieu de résoudre le vrai problème ; et la fausse résolution, où un ticket de support est marqué "résolu" sans que le problème sous-jacent ne l'ait été. Ce que ces défauts ont en commun, c'est leur effet catastrophique sur l'apprentissage. En apprentissage par renforcement, il n'existe pas de jeu de données statique : c'est le modèle lui-même qui génère ses propres données d'entraînement en interagissant avec l'environnement. Chaque action, chaque récompense devient un signal d'apprentissage. Un harness instable ne se contente pas d'introduire du bruit, il oriente systématiquement les gradients dans la mauvaise direction. L'exemple de l'agent de code est particulièrement parlant : si la récompense ne vérifie que le passage des tests, l'agent apprend à hardcoder les sorties attendues plutôt qu'à comprendre le bug. Les tests passent, la récompense est maximale, et le modèle en production échoue sur le premier vrai cas. Résultat : des semaines de compute gaspillées et un modèle à jeter. Ce problème touche un moment charnière pour l'industrie. Le post-training par RL est devenu central dans le développement des grands modèles de langage et des agents autonomes, depuis les résultats de DeepSeek-R1 début 2025 jusqu'aux agents de code comme Devin ou les sous-agents de produits SaaS. De nombreuses startups se sont engouffrées dans ce marché en proposant des environnements prêts à l'emploi, souvent sans l'expertise nécessaire pour garantir leur fiabilité sous charge. Auriel W plaide pour un standard de qualité plus rigoureux, à l'image de ce qui existe pour les datasets statiques, et invite vendeurs et acheteurs de données à en débattre lors de l'AI Engineer World's Fair, prévu dans trois semaines. Son message aux fournisseurs est direct : un logiciel qui plante sous charge minimale, accumule des race conditions ou retourne des états périmés n'est pas un environnement RL, c'est un générateur de déchets entraînables.

💬 Le truc pervers du RL, c'est que les bugs de l'environnement ne se voient pas au moment où ils arrivent, tu les découvres trois semaines plus tard quand le modèle sort des âneries en prod. Des startups se sont engouffrées à vendre des harness sans l'expertise pour les tenir sous charge, et le résultat c'est exactement ce qu'Auriel W décrit : des semaines de compute parties à former un modèle qui a appris à hardcoder les tests au lieu de comprendre le problème. Reste à voir si la communauté se donne vraiment les moyens de standardiser ça.

RecherchePaper
1 source
Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA
58arXiv cs.RO 

Au-delà de l'imitation : co-entraînement simulation-réel par apprentissage par renforcement pour les modèles VLA

Une équipe de chercheurs propose RL-Co (RL-based sim-real Co-training), un framework d'entraînement combinant simulation et données réelles via l'apprentissage par renforcement pour les modèles VLA (Vision-Language-Action). Publié sur arXiv (ref. 2602.12628, version 4), le travail s'articule en deux étapes : une phase de préchauffage par fine-tuning supervisé (SFT) sur un mélange de démonstrations réelles et simulées, suivie d'un fine-tuning par RL en simulation avec une perte supervisée auxiliaire sur données réelles pour ancrer la politique et prévenir l'oubli catastrophique. Évalué sur quatre tâches de manipulation sur table en conditions réelles, RL-Co affiche une progression de +24% du taux de succès sur l'architecture OpenVLA et de +20% sur π0.5, développé par Physical Intelligence, par rapport à un entraînement supervisé classique sur données réelles uniquement. L'intérêt de cette approche dépasse les chiffres de performance bruts. La quasi-totalité des méthodes actuelles de co-entraînement sim-réel traite la simulation comme une source statique de démonstrations, sans exploiter les interactions en boucle fermée que ces environnements rendent possibles à grande échelle. RL-Co brise cette limite en tirant parti de l'exploration dynamique en simulation, ce qui se traduit par une meilleure généralisation aux variations de tâches non vues à l'entraînement et une efficacité accrue sur les données réelles, réduisant concrètement le besoin en démonstrations coûteuses sur robot physique. Pour les intégrateurs et les équipes R&D, c'est une voie d'entraînement plus économique sans compromis sur les performances terrain. Le défi du transfert simulation-réel reste l'un des obstacles structurants au déploiement de robots généralistes. Les modèles VLA ont connu une accélération notable depuis 2024, portée par OpenVLA (Stanford/UC Berkeley, open-source), la série π0/π0.5 de Physical Intelligence, fondée par d'anciens chercheurs de Google DeepMind et Stanford, et les travaux de Google DeepMind autour de RT-2 et ses successeurs. RL-Co s'inscrit dans une tendance de fond visant à remplacer la supervision pure par des boucles d'interaction actives dans des simulateurs de plus en plus fidèles. La prochaine étape naturelle sera l'extension à des tâches plus complexes et à des environnements moins structurés que la table de laboratoire, condition nécessaire pour valider l'approche à l'échelle industrielle.

💬 La vraie limite du sim-réel jusqu'ici, c'est qu'on traitait la simulation comme une banque de démonstrations statiques. RL-Co casse ça : le modèle explore en boucle fermée dans le simulateur, et ça se voit avec +24% sur OpenVLA et +20% sur π0.5 en conditions réelles. La table de labo c'est pas une chaîne de prod, mais c'est clairement la bonne direction pour réduire le besoin en données robotiques coûteuses.

RechercheOpinion
1 source
La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)
59arXiv cs.RO 

La simplicité avant tout : génération d'actions en une étape pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs publie sur arXiv (2606.05737, juin 2026) une méthode simplifiée pour accélérer la génération d'actions dans les modèles VLA (vision-language-action) à base de diffusion. L'observation centrale: là où les pipelines diffusion classiques requièrent dix étapes de débruitage itératif pour produire un chunk d'actions, un simple biais de la distribution d'entraînement vers les états à bruit élevé suffit à obtenir des politiques efficaces en une seule étape, sans modèle enseignant, sans distillation et sans objectif auxiliaire. Sur les benchmarks LIBERO, LIBERO-Plus et LIBERO-Pro devenus quasi-standards pour la manipulation dextre simulée, les politiques one-step entraînées avec ce calendrier biaisé égalent ou dépassent des politiques à décodage dix-étapes entraînées avec une distribution uniforme. Sur LIBERO-Long spécifiquement, un modèle combinant un LVM de 1,4 milliard de paramètres et une tête d'action de 30 millions de paramètres atteint 95,6 % de taux de succès en une seule étape. Une validation croisée sur robot bimanual réel (plateforme YAM, dans le cadre d'une évaluation RSS) confirme la tendance, sur un échantillon limité. L'enjeu opérationnel est direct: réduire le décodage d'un facteur dix libère de la latence critique pour les applications temps-réel. Mais l'argument de fond est plus structurel. Les auteurs identifient une asymétrie fondamentale entre génération d'images et génération d'actions robotiques: un espace d'action (quelques degrés de liberté, un chunk de positions articulaires) est incomparablement plus compact qu'une image de millions de pixels. Cette différence implique que les méthodes one-step avancées développées pour la synthèse d'images (distillation de consistency models, score distillation, flow matching accéléré) ne sont pas nécessairement requises ici. Pour un intégrateur ou un décideur industriel, cela simplifie significativement le pipeline d'entraînement: pas de phase de distillation en deux étapes, pas de teacher freezing, et donc moins de complexité opérationnelle pour déployer un VLA performant. Les VLA à base de diffusion ont connu une montée en puissance rapide depuis mi-2024, portée par pi0 de Physical Intelligence, GR00T N2 de NVIDIA et Helix de Figure AI, tous construits autour d'architectures à flux diffusion ou flow-matching pour la génération d'actions. Ce travail s'inscrit dans un mouvement de simplification qui cherche à réduire la friction entre recherche et déploiement industriel. Les benchmarks LIBERO restent cantonnés à la manipulation de petits objets en environnement simulé, et la validation sur robot réel présentée ici reste préliminaire. Les prochaines étapes naturelles seront de tester cette approche à plus grande échelle sur des architectures de référence comme pi0 ou GR00T, dans des contextes d'assemblage ou de logistique où la latence d'inférence est un critère de déploiement direct.

RechercheOpinion
1 source
MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence
60arXiv cs.RO 

MPCoT : raisonnement latent multi-chemin guidé par la récompense pour VLA avec mise à l'échelle à l'inférence

MPCoT (Multi-Path Chain-of-Thought), un preprint arXiv publié le 5 juin 2026 (identifiant 2606.06245), propose un cadre de raisonnement latent multi-trajectoires guidé par récompense pour les politiques Vision-Language-Action (VLA). Le système initialise M hypothèses parallèles, les raffine sur K étapes à poids partagés, puis les agrège par pondération de confiance avant le décodage final de l'action. Un objectif d'entraînement spécifique, la "path-preference objective", évalue chaque branche candidate selon trois critères : cohérence avec des actions expertes, progression estimée par un modèle de monde ou un VLM, et feedback de succès d'exécution. Le système préserve l'interface d'action originale en 8 étapes et ne génère aucun token de raisonnement, éliminant la latence associée aux chaînes de réflexion textuelles classiques. Sur les benchmarks LIBERO et CALVIN, MPCoT améliore les performances sur les tâches à horizon long, avec des ablations confirmant les effets distincts de la profondeur K et de la largeur M. Le résultat central est que le "test-time scaling", qui a produit des gains majeurs dans les LLM via des modèles comme o1 d'OpenAI ou DeepSeek-R1, peut être transposé aux politiques robotiques sans surcoût de latence mesurable. Les approches chain-of-thought textuelles créent une interface indirecte entre raisonnement et commande motrice, problématique pour le contrôle en temps réel. MPCoT opère entièrement dans l'espace latent, rendant la délibération supplémentaire invisible pour l'interface d'exécution. Pour un intégrateur ou un décideur industriel, cela ouvre la possibilité d'améliorer les capacités d'un VLA existant en ajustant simplement K et M à l'inférence, sans réentraînement du modèle. Les politiques VLA constituent actuellement le terrain de concurrence central entre Physical Intelligence avec Pi-0, NVIDIA avec GR00T N2, Figure avec Helix, et Stanford avec OpenVLA. Tous font face au même défi : la fragilité sur les tâches longues et les situations à forte incertitude, qui représente le principal écart entre démonstration et déploiement réel. MPCoT attaque directement ce "long-horizon gap" via une approche algorithmique, sans modifier l'architecture sous-jacente du modèle. La publication n'est pas adossée à un acteur industriel identifié et n'annonce aucun déploiement concret ; la validation sur hardware réel reste à faire, les benchmarks LIBERO et CALVIN utilisés dans cette étude étant entièrement simulés.

RechercheOpinion
1 source
TempoVLA : apprentissage de politiques VLA à vitesse contrôlable
61arXiv cs.RO 

TempoVLA : apprentissage de politiques VLA à vitesse contrôlable

Les modèles Vision-Language-Action (VLA), architectures qui combinent perception visuelle, compréhension du langage et génération de commandes motrices, souffrent d'une limitation structurelle : leur vitesse d'exécution est figée à celle des démonstrations d'entraînement. Des chercheurs proposent TempoVLA (arXiv:2606.06491, juin 2026), un VLA dont la cadence est pilotable via une condition explicite. Le système repose sur deux composants couplés : Variable-Speed Trajectory Augmentation (VSTA), un module qui ré-temporise les trajectoires en fusionnant ou divisant les actions pour atteindre n'importe quelle vitesse cible tout en préservant la sémantique du mouvement, et un mécanisme de conditionnement qui injecte la vitesse désirée dans la politique. Des expériences en simulation et sur robot réel montrent que VSTA atteint la vitesse requise avec une erreur de mouvement négligeable, et que l'augmentation améliore aussi les performances à vitesse nominale (facteur 1x) via une meilleure exploitation des données d'entraînement. La manipulation robotique alterne naturellement entre phases de transit à faible risque, où la cadence prime, et phases de contact à risque élevé (saisie fine, insertion, assemblage) qui exigent lenteur et précision. Les VLA actuels héritent d'une vitesse unique issue des démonstrations, et les tentatives d'adaptation par compression de modèle, réutilisation du cache KV ou fine-tuning par renforcement ne font que déplacer ce point fixe, sans jamais explorer la décélération dynamique. L'insight central de TempoVLA est que la magnitude des actions prédites gouverne déjà la vitesse d'exécution du robot, ouvrant une voie vers un contrôle adaptatif sans modifier l'architecture de base. En couplant TempoVLA à un grand modèle multimodal (LMM) pour évaluer le niveau de risque en temps réel, les auteurs obtiennent un contrôle dynamique effectif : accélération en transit, décélération au contact. Pour les intégrateurs industriels, c'est un levier direct sur le compromis cadence/fiabilité sans réentraîner entièrement le modèle. Les VLA se sont imposés en 2024-2025 comme architecture dominante pour la commande robotique généraliste, portés notamment par pi0 de Physical Intelligence, OpenVLA et les travaux de Google DeepMind, mais leur déploiement industriel bute précisément sur la tension entre cadence de production et sécurité des phases de contact. TempoVLA reste à ce stade un preprint arXiv sans déploiement industriel annoncé ni partenaire mentionné, ce qui impose la prudence : les résultats en simulation et sur tâches réelles contrôlées ne garantissent pas un franchissement du reality gap en cellule de production. Les prochaines étapes naturelles incluent une intégration avec des capteurs de force-couple pour rendre l'estimation du risque moins dépendante d'un LMM externe, coûteux en latence d'inférence.

RechercheOpinion
1 source
FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences
62arXiv cs.RO 

FlowPRO : affinage renforcé sans récompense des VLA flow-matching par optimisation proximale des préférences

Une équipe de chercheurs publie FlowPRO sur arXiv (2606.05468, 5 juin 2026), un cadre d'affinage par renforcement sans récompense explicite ciblant les modèles VLA (Vision-Language-Action) à architecture flow-matching. La contribution centrale est RPRO (Robotic Flow-matching Proximalized Preference Optimization), un objectif d'optimisation par préférence conçu spécifiquement pour la tête d'action flow-matching des VLAs. RPRO couple un optimiseur contrastif à un régulariseur proximal explicite qui ancre l'amplitude absolue de la récompense implicite, éliminant ainsi le reward hacking documenté avec Flow-DPO, l'approche antérieure la plus proche. Côté données, les auteurs proposent un paradigme de téléopération avec intervention et rollback : un opérateur unique corrige les trajectoires du robot en temps réel, produisant naturellement des paires de trajectoires positives (τ^w) et négatives (τ^l) à partir d'une seule action. Une procédure d'interpolation lisse convertit ces corrections sporadiques en supervision dense par état. Sur quatre tâches bimanuelles à horizon long, FlowPRO obtient les taux de succès les plus élevés face à quatre baselines représentatives, dont SFT et DAgger. Le principal goulet d'étranglement du déploiement robotique ne réside plus dans le pré-entraînement généraliste mais dans le post-training pour des tâches spécifiques. SFT et DAgger n'exploitent les signaux d'échec qu'indirectement ; le RL avec récompenses explicites exige de concevoir une fonction de récompense fiable en environnement physique, ce qui reste notoire pour sa difficulté. FlowPRO contourne les deux obstacles : sans reward design, offline (pas de rollouts supplémentaires en boucle fermée), et nativement compatible avec les architectures flow-matching qui dominent la nouvelle génération de VLAs généralistes. La nuance est importante : quatre tâches bimanuelles constituent un banc d'essai restreint pour prétendre à la généralité. Si les résultats tiennent sur un spectre plus large de manipulations, RPRO pourrait devenir un outil standard pour spécialiser un VLA généraliste sur une cellule industrielle sans expertise en apprentissage par renforcement. L'architecture flow-matching pour les VLAs a été popularisée par Pi-0 de Physical Intelligence fin 2024, avant d'être reprise dans GR00T N2 de NVIDIA et plusieurs dérivés open-source (OpenVLA, Octo). L'optimisation par préférence appliquée aux actions robotiques est une piste active depuis 2025 pour éviter la lourdeur du RL classique, mais le reward hacking de Flow-DPO restait un obstacle documenté que FlowPRO prétend résoudre via la régularisation proximale. Il s'agit à ce stade d'une contribution académique preprint, non peer-reviewed, sans annonce de déploiement ni de partenariat industriel. Les prochaines étapes naturelles du domaine incluent la validation sur des plateformes bimanuelles standardisées (Aloha, Fourier GR-1) et l'intégration dans des pipelines d'affinage ouverts, avec en toile de fond la course entre Physical Intelligence, NVIDIA et les laboratoires académiques pour établir la méthode de référence du post-training robotique.

RechercheOpinion
1 source
L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte
63Pandaily 

L'équipe de l'Université du Zhejiang développe un système de raisonnement visuel permettant aux robots de "penser avec les yeux", 22 fois plus rapide que le texte

Des chercheurs de l'université du Zhejiang, en collaboration avec Cornell University, la National University of Singapore et Xidian University, ont publié sur arXiv (2605.30011) un système de raisonnement visuel pour robots baptisé VisualThink-VLA. L'approche remplace le raisonnement en chaîne de pensée textuelle, où le robot génère un monologue interne en tokens de langage avant chaque action, par des tokens visuels directs. Résultat mesuré : le temps de traitement par étape passe de 8,377 secondes (approche texte ECoT) à 0,367 secondes, soit un gain de 22,8x. Sur huit benchmarks standardisés, VisualThink-VLA atteint un taux de succès moyen de 92,63 %, contre 85,09 % pour ECoT. Les expériences physiques ont été conduites sur un bras robotique PIPER NERO à 7 degrés de liberté, sur des tâches de préhension multi-objets, de placement sensible aux relations spatiales, de réorientation sous contrainte de contact, et de séquences composées à deux étapes. Le jeu d'entraînement "VisualEvidence-Set" couvre 754 700 instructions de manipulation. L'intérêt industriel de ce résultat tient à la rareté de la combinaison : gain de vitesse ET gain de précision simultanés, alors que les systèmes d'IA échangent habituellement l'un contre l'autre. Pour les intégrateurs et les équipes de déploiement robotique, un temps de cycle sous 400 ms par étape ouvre la voie à des manipulations en environnement dynamique sans supervision humaine rapprochée. L'architecture à quatre canaux visuels, Bounding Box, Edge, Motion, Relation, utilise un mécanisme de routage adaptatif qui sélectionne en moyenne seulement 2,22 canaux par étape, évitant le surcoût computationnel d'une fusion systématique. Le caractère plug-and-play revendiqué par les auteurs est un argument commercial non négligeable : les systèmes VLA existants pourraient être mis à niveau sans refonte de l'architecture sous-jacente, ce qui réduit le coût d'adoption. Cette affirmation reste à vérifier sur des robots de production tiers, les expériences publiées se limitant au PIPER NERO. Le contexte de ce travail s'inscrit dans une compétition intense autour des VLA (Vision-Language-Action models), dominée jusqu'ici par des approches comme OpenVLA, pi0 (Physical Intelligence) ou RoboVLMs, qui traitent toutes la vision et le langage comme co-entrées mais conservent un raisonnement textuel latent. L'université du Zhejiang est l'un des laboratoires les plus productifs en robotique incarnée en Chine, avec plusieurs publications majeures ces deux dernières années sur le sim-to-real et la manipulation dextère. Sur le fond, VisualThink-VLA teste l'hypothèse que le langage est un détour inutile pour la perception motrice, hypothèse que partagent des équipes comme Wayve ou Enchanted Tools côté européen dans leurs architectures world-model. Les prochaines étapes non précisées dans le papier concernent l'extension à des manipulateurs bimanaux et à des environnements non structurés hors laboratoire, deux conditions nécessaires avant tout pilote industriel crédible.

UELes équipes VLA européennes, notamment Enchanted Tools (France) dont l'architecture world-model partage des hypothèses similaires, pourraient s'inspirer de cette approche pour réduire les latences de manipulation sans sacrifier la précision.

RechercheOpinion
1 source
Le cofondateur milliardaire de Databricks et Perplexity incite les chercheurs en IA à éviter les géants de la tech
64The Information AI 

Le cofondateur milliardaire de Databricks et Perplexity incite les chercheurs en IA à éviter les géants de la tech

Andy Konwinski, co-fondateur milliardaire de Databricks et de Perplexity AI, mène depuis plusieurs mois une campagne active pour convaincre les chercheurs en intelligence artificielle de ne pas rejoindre les grandes entreprises technologiques. Il a exposé sa vision lors de la conférence AI de l'Association for Computing Machinery à San Jose, plaidant pour que les académiques continuent à publier leurs travaux en accès libre plutôt que de rejoindre des laboratoires privés qui gardent leurs avancées secrètes. Son appel intervient dans un contexte de fermeture croissante de l'écosystème de recherche en IA. Un rapport de Stanford publié en 2026 a documenté qu'OpenAI, Anthropic et Google ne divulguent désormais plus les détails sur les logiciels utilisés pour entraîner leurs modèles, la puissance de calcul mobilisée, ni la taille de leurs jeux de données, des informations pourtant essentielles pour que d'autres chercheurs puissent reproduire et améliorer ces résultats. Cette opacité croissante prive la communauté scientifique mondiale des briques de connaissance nécessaires pour progresser collectivement. Pour Konwinski, l'enjeu dépasse la simple compétition industrielle : "Il existe de nombreuses raisons, fondamentales, sociétales, pour défendre la démocratie, qui font que la recherche ouverte doit survivre." Ce débat s'inscrit dans une tension structurelle entre academia et industrie qui s'est considérablement accentuée avec la montée en puissance des grands modèles de langage. Le tournant illustratif reste le célèbre article de recherche publié par Google en 2017, le papier "Attention Is All You Need" sur l'architecture Transformer, qui est devenu la base de pratiquement tous les modèles et chatbots d'IA modernes. Ce travail, rendu public à l'époque, a permis à l'ensemble de l'industrie d'avancer. La question qui se pose aujourd'hui est de savoir si un tel partage serait encore possible dans un environnement où la recherche est devenue un avantage concurrentiel jalousement protégé.

UELa fermeture progressive de la recherche IA par OpenAI, Anthropic et Google fragilise les exigences de transparence et d'auditabilité portées par l'AI Act européen.

RecherchePaper
1 source
HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche
65arXiv cs.RO 

HapTile : un jeu de données vision-tactile-langage-action pour l'apprentissage par imitation en contact riche

Une équipe de recherche a publié sur arXiv (2606.04825) HapTile, un jeu de données visuotactile destiné à l'apprentissage par imitation sur des tâches de manipulation à fort contact. Le dataset capture les interactions physiques à deux niveaux simultanément : des capteurs tactiles installés en bout d'effecteur sur les doigts du robot, et un retour haptique transmis en temps réel à l'opérateur humain lors de la télé-opération. Les tâches couvertes incluent le saisissement, le pliage de tissu, l'appui sur des boutons, l'empilement d'objets et d'autres activités courantes. Chaque séquence est associée à une instruction en langage naturel qui conditionne la politique de contrôle sur l'objectif de manipulation, avec des observations visuotactiles synchronisées et les trajectoires d'action correspondantes. Les chercheurs publient également un benchmarking avec deux modèles de base pour évaluer l'apport concret du signal tactile sur la qualité des politiques apprises. Ce travail s'attaque à un verrou bien identifié du domaine : la quasi-totalité des datasets VLA (Vision-Language-Action) existants sont purement visuels, ce qui limite les performances des politiques sur des tâches nécessitant un contrôle fin de la force ou du contact. Introduire le retour haptique côté opérateur lors de la collecte de données est particulièrement notable, les études antérieures ont montré que la qualité des démonstrations se dégrade sans ce retour, générant des trajectoires moins stables et moins reproductibles. HapTile tente de combler cette lacune en combinant dans un seul dataset la diversité des tâches, le conditionnement par le langage, les trajectoires d'action et la perception tactile, une combinaison jusqu'ici absente dans la littérature selon les auteurs. Reste à vérifier si l'amélioration mesurée sur les deux baselines se généralise à des architectures plus récentes comme Pi-0 ou OpenVLA. Ce preprint s'inscrit dans un courant de recherche actif autour de la perception multimoale pour la manipulation dextère, portée notamment par des labos comme le CMU Robotics Institute, MIT CSAIL et des groupes européens comme le LASA à l'EPFL. Du côté industriel, Apptronik, Figure et 1X investissent dans des mains instrumentées, mais les datasets publics à retour haptique restent rares. Le projet est reproductible sur un système robotique standard avec des capteurs tactiles de conception custom, ce qui peut faciliter l'adoption par d'autres équipes. Le dataset et les détails techniques sont accessibles sur haptile-dataset.github.io ; aucune timeline de publication formelle ni partenariat industriel n'est annoncé à ce stade.

UEDes groupes européens dont le LASA à l'EPFL sont cités comme acteurs du courant de recherche, mais aucune institution française ou de l'UE n'est impliquée directement dans la publication ; l'impact reste indirect via un dataset public librement réutilisable par les équipes européennes.

💬 Le truc vraiment malin ici, c'est pas le capteur tactile sur le robot, c'est le retour haptique côté opérateur pendant la collecte de démos. Ça change la qualité des trajectoires à la source, et c'est exactement ce que les autres datasets VLA n'ont jamais pris la peine de faire. Deux baselines pour le benchmark, bon, c'est un début, reste à voir si le gain tient face à Pi-0 ou OpenVLA.

RechercheOpinion
1 source
VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA
66arXiv cs.RO 

VISTA : adaptation des données UMI fondée sur la vision et validée par la physique pour l'entraînement de modèles VLA

Une équipe de chercheurs publie VISTA (Vision-grounded and Physics-Validated Adaptation), un framework visant à entraîner des modèles Vision-Language-Action (VLA) à partir de données collectées via l'Universal Manipulation Interface (UMI). L'UMI permet une collecte robotique à grande échelle sans téléopération hardware-spécifique, mais son exploitation pour les VLA bute sur deux incompatibilités identifiées par les auteurs : les caméras fisheye montées au poignet génèrent une distorsion radiale sévère, hors distribution pour les modèles de vision pré-entraînés ; et les trajectoires humaines enregistrées violent fréquemment les limites cinématiques du robot ou dépassent la bande passante du contrôleur, enseignant ainsi des actions physiquement irréalisables. VISTA répond avec trois composants : UMI-VQA, un premier dataset VQA à grande échelle conçu spécifiquement pour les vues fisheye au poignet ; un pipeline de validation physique scorant chaque trajectoire sur la continuité, le risque d'auto-collision et la fidélité d'exécution ; et une recette d'entraînement en deux étapes combinant ancrage vision-langage et prédiction d'actions. Le modèle, les données et le pipeline sont publiés en open source sous forme de preprint arXiv. L'enjeu est directement opérationnel : les VLA actuels souffrent d'un écart persistant entre démonstration et déploiement réel. VISTA apporte une réponse méthodologique en filtrant les trajectoires défectueuses avant l'entraînement, plutôt qu'en espérant que le modèle les absorbe. Les auteurs montrent que les scores de validation physique sont fortement prédictifs du succès en déploiement, ce qui plaide pour une approche data-quality-first plutôt que data-volume-first, un argument qui contredit la logique dominante du secteur. En simulation et sur des tâches réelles de manipulation, VISTA surpasse des baselines solides incluant π0.5 (Physical Intelligence), LingBot-VLA et Wall-X. Pour un intégrateur ou un décideur industriel, cela valide une voie vers des pipelines de collecte scalables via UMI, compatibles avec les VLA modernes, sans recourir à un hardware propriétaire coûteux. L'UMI avait été conçu initialement pour découpler la collecte de données du hardware robotique spécifique, mais son intégration aux VLA restait largement non documentée à grande échelle. Physical Intelligence a popularisé l'approche VLA avec π0 et π0.5 ; Figure AI, 1X et Apptronik misent sur des architectures concurrentes. VISTA s'attaque à un goulot d'étranglement rarement traité en publication : la qualité intrinsèque des données d'entraînement avant qu'elles n'entrent dans le pipeline. En libérant pipeline de validation, dataset UMI-VQA et modèle pré-entraîné, les auteurs positionnent VISTA comme un outil d'infrastructure pour la communauté robotique cherchant à industrialiser la collecte et le filtrage de données manipulation, en amont des choix d'architecture VLA.

RechercheOpinion
1 source
PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM
67arXiv cs.RO 

PerceptTwin : reconstruction sémantique de scène pour la planification et vérification itératives par LLM

Des chercheurs ont publié le 4 juin 2026 sur arXiv (2606.04226) les travaux sur PerceptTwin, un pipeline automatisé qui génère des environnements de simulation interactifs directement depuis les représentations sémantiques produites par la pile de perception d'un robot. Le système combine quatre composants : des cartes d'objets à vocabulaire ouvert (open-vocabulary object maps), la génération d'assets 3D, la prédiction d'affordances et une vérification des préconditions par bon sens. Un juge LLM, concept emprunté à la littérature sur l'alignement de l'IA, évalue ensuite la conformité des plans générés avec les préférences humaines avant toute exécution physique. Dans les expériences conduites avec GPT-5, GPT-5 Mini et GPT-5 Nano comme planificateurs, PerceptTwin améliore le taux de succès des plans d'environ 39 % en moyenne, et améliore la vérification humaine jusqu'à 18 % pour les plans échouant à cause de préconditions non satisfaites. La chaîne LLM-planification-exécution est aujourd'hui l'architecture dominante en robotique cognitive, mais son point faible reste la vérification : un modèle de langage peut produire des plans syntaxiquement valides mais physiquement impossibles ou dangereux. PerceptTwin introduit une boucle de rétroaction pré-exécution où le robot construit son propre jumeau numérique à la volée, y simule le plan, puis itère. Cette approche inverse la logique du sim-to-real classique : la simulation émerge ici du monde réel via la perception, non l'inverse. Le système démontre aussi une résistance documentée aux attaques par "black-box prompting" visant à injecter des instructions nuisibles dans le planificateur, une propriété de sécurité rarement quantifiée dans des travaux similaires. Pour un intégrateur industriel, cela représente une couche de validation automatisée applicable à des environnements non structurés sans reconfiguration manuelle de la simulation. La construction de simulations contextualisées était jusqu'ici un processus manuel et coûteux, rendant la validation à grande échelle impraticable. PerceptTwin s'inscrit dans un courant de recherche incluant les approches NeRF sémantiques et les jumeaux numériques procéduraux, avec la particularité d'être entièrement piloté par la stack perceptive du robot. En termes de positionnement, les travaux récents sur les Visual Language Action models comme Pi-0 de Physical Intelligence ou GR00T N2 de NVIDIA abordent la fiabilité par l'apprentissage massivement supervisé, là où PerceptTwin mise sur la vérification symbolique en boucle fermée. Les expériences restent confinées à une suite de tâches de manipulation en laboratoire, sans déploiement terrain annoncé. Les auteurs ne précisent pas le temps de génération du jumeau numérique ni les exigences matérielles, deux paramètres déterminants pour envisager une intégration hors conditions contrôlées.

RechercheOpinion
1 source
CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
68arXiv cs.RO 

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

RechercheOpinion
1 source
Dépasser l'IA informelle, par Carina Hong (Axiom Math)
69Latent Space 

Dépasser l'IA informelle, par Carina Hong (Axiom Math)

En 2025, Axiom, une startup fondée seulement sept mois plus tôt, a réussi à résoudre les 12 problèmes du Putnam, l'un des concours mathématiques universitaires les plus difficiles au monde, avec un score de 12/12 (8/12 dans le temps imparti). À titre de comparaison, les meilleurs étudiants humains plafonnent autour de 110/120, DeepSeek avait atteint 103/120, et la médiane des participants se situe habituellement à 0 ou 1 point. Carina Hong, PDG d'Axiom, défend une approche radicalement différente de la majorité des laboratoires d'IA : la vérification formelle des preuves mathématiques via le langage Lean, un système qui permet de valider mécaniquement qu'un raisonnement est correct, de la même façon qu'un compilateur vérifie du code. La startup a par ailleurs publié en open source AXLE, une suite d'outils interactifs basés sur Lean pour explorer et manipuler des preuves. Sur le benchmark ProofGen Verina, qui mesure la capacité à générer du code accompagné de sa preuve de correction, Axiom revendique un score de 99 % (187 sur 189). L'enjeu dépasse largement les olympiades mathématiques. En mi-2026, Claude Code d'Anthropic et Codex d'OpenAI dominent le marché du développement logiciel assisté par IA, confirmant le pari d'Anthropic sur le code. Mais Hong estime que la maîtrise du code, aussi impressionnante soit-elle, ne suffit pas à atteindre l'AGI : des lacunes subsistent dans les capacités de raisonnement rigoureux. La vérification formelle offre quelque chose qu'aucune autre approche ne fournit encore : un signal de récompense binaire et fiable pour l'entraînement par renforcement. Plutôt que de s'appuyer sur des heuristiques statistiques comme RLHF ou GRPO, un système peut simplement vérifier si une preuve est valide, exactement comme on compile et teste du code. C'est un avantage considérable pour la qualité et la fiabilité des modèles. Hong illustre sa philosophie par l'exemple de Srinivasa Ramanujan, le mathématicien autodidacte indien dont l'intuition était prodigieuse, mais qui ne formulait pas ses résultats en preuves rigoureuses. Lorsque G.H. Hardy l'a convaincu de formaliser ses démonstrations, Ramanujan a lui-même progressé, car la rigueur l'a forcé à articuler des détails qui ouvrent de nouvelles voies. Surtout, ses preuves sont devenues transmissibles et cumulables : d'autres pouvaient s'appuyer dessus pour aller plus loin. C'est précisément ce que Hong appelle "composer l'intelligence" plutôt que de l'accumuler. Dans un secteur où les grands modèles rivalisent sur des benchmarks de coding et de raisonnement général, Axiom parie que la prochaine frontière se jouera sur la capacité à produire des raisonnements vérifiables de bout en bout, une approche qui pourrait s'avérer décisive à mesure que l'IA s'attaque à des domaines exigeant une fiabilité absolue.

RecherchePaper
1 source
Le ground truth est un processus, pas un jeu de données
70Amazon Science 

Le ground truth est un processus, pas un jeu de données

Le groupe AGI d'Amazon a publié sur arXiv une étude qui remet en cause une des hypothèses fondamentales de l'évaluation des systèmes d'intelligence artificielle : l'idée que la « vérité de référence » (ground truth) est un ensemble de données fixe et fiable. Pour construire un outil capable de vérifier la fiabilité factuelle des rapports de recherche générés par l'IA, les chercheurs ont recruté des experts de niveau doctoral en informatique, théorie du contrôle, santé publique et ingénierie environnementale. Résultat inattendu : livrés à eux-mêmes, ces spécialistes n'ont obtenu que 60,8 % de précision sur un ensemble de réponses déjà connues, utilisé comme contrôle interne. Ce taux révèle non pas un manque d'expertise, mais la difficulté intrinsèque d'une tâche qui exige lecture longue, synthèse multi-documents et attention soutenue. Ce constat a conduit l'équipe à repenser en profondeur la manière dont on construit un benchmark. Plutôt que de traiter les étiquettes initiales des experts comme une vérité incontestable, les chercheurs ont développé un protocole appelé « audit-then-score » : lorsque le système de vérification automatique, DeepFact-Eval, conteste une réponse humaine, il ne se voit pas simplement pénalisé. Il doit soumettre des preuves concrètes et une argumentation écrite. Un auditeur, humain ou automatisé, compare alors cette contestation avec la justification originale, et si le challenger l'emporte, le benchmark est corrigé avant que le modèle ne soit noté. Ce renversement de logique est significatif : dans les tâches cognitivement exigeantes, un désaccord entre le modèle et le benchmark n'est plus automatiquement interprété comme une erreur du modèle, mais comme un signal potentiel d'ambiguïté dans les données d'évaluation elles-mêmes. L'enjeu dépasse largement Amazon. Les systèmes d'IA augmentés de recherche, capables de produire des synthèses longues combinant des dizaines de sources, se multiplient chez OpenAI, Google, Perplexity et d'autres acteurs. Ces rapports ressemblent de plus en plus à des analyses d'expert, mais leurs affirmations peuvent fusionner des éléments de plusieurs documents d'une façon qu'aucun outil de vérification classique ne sait traiter. Les outils existants sont conçus pour faire correspondre une affirmation à une courte citation ; ils échouent dès qu'une phrase dépend du contexte global d'un rapport. L'équipe publie conjointement DeepFact-Bench, un jeu de tests partagé pour comparer les systèmes, et DeepFact-Eval, le vérificateur automatique capable de planifier des recherches dans la littérature, de résumer les documents récupérés et de poser des questions complémentaires. La conclusion structurelle est claire : à mesure que les sorties de l'IA gagnent en complexité, la vérité de référence ne peut plus être un dataset statique, elle doit devenir un processus itératif.

UELa méthodologie d'audit itératif pourrait indirectement influencer les standards d'évaluation des systèmes IA à haut risque imposés par l'AI Act européen.

RecherchePaper
1 source
PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA
71arXiv cs.RO 

PHASER : rejeu d'expérience sémantique et par phase pour les modèles VLA

Des chercheurs ont publié sur arXiv (référence 2606.03598) un framework de continual learning baptisé PHASER (Phase-Aware and Semantic Experience Replay), conçu pour les modèles Vision-Language-Action (VLA) appliqués à la manipulation robotique. L'architecture est agnostique au backbone sous-jacent et a été évaluée sur trois modèles VLA distincts dans les suites de benchmarks LIBERO, une référence du domaine. Sur le scénario LIBERO-Goal CL (continual learning), PHASER atteint un taux de succès moyen (Average Success Rate, ASR) de 87,8 % en fin d'entraînement, soit un gain de 31 points de pourcentage par rapport à l'experience replay uniforme standard avec le même budget mémoire. Le problème que PHASER attaque est celui de l'oubli catastrophique : lorsqu'un robot apprend séquentiellement de nouvelles compétences gestuelles, les représentations antérieures se dégradent rapidement dans les poids du modèle. L'experience replay classique échoue parce qu'il échantillonne uniformément, sous-représentant les sous-phases courtes mais critiques d'une trajectoire de manipulation (la saisie, le transfert, la dépose), un phénomène que les auteurs nomment "phase starvation". PHASER corrige cela avec deux mécanismes : une allocation mémoire par phase (capacity allocation) pour garantir une couverture équilibrée de tous les sous-comportements, et un routage dynamique qui priorise les phases historiques à haut risque d'oubli. Un troisième composant, Auto-PC, automatise la détection des frontières temporelles entre sous-phases par analyse non supervisée des signaux d'action, validée ensuite par un VLM, évitant ainsi l'annotation manuelle coûteuse. Les VLA, qui conditionnent les actions du robot sur du langage naturel et des images, sont devenus un axe central de la robotique généraliste, portés notamment par des modèles comme OpenVLA (UC Berkeley), pi0 (Physical Intelligence) ou RT-2 (Google DeepMind). L'un des verrous majeurs à leur déploiement industriel reste précisément la capacité à apprendre de nouvelles tâches sans régression sur les anciennes, prérequis pour tout robot polyvalent en atelier. PHASER reste pour l'instant une contribution de recherche évaluée en simulation, mais son caractère agnostique au backbone en fait un candidat naturel pour une intégration dans des pipelines d'entraînement continuel sur des plateformes hardware comme Figure 02, Unitree G1 ou Boston Dynamics Atlas.

RechercheOpinion
1 source
GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA
72arXiv cs.RO 

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

GeoAlign, une architecture présentée le 3 juin 2026 sur arXiv (référence 2606.03240), aborde un angle mort persistant des modèles Vision-Langage-Action (VLA) : leur incapacité à raisonner avec précision sur la géométrie locale d'une scène. Les VLA actuels sont principalement entraînés pour le grounding sémantique, ce qui suffit pour identifier des objets ou interpréter des instructions, mais pas pour exécuter des mouvements de manipulation précis. GeoAlign introduit une branche RGB post-entraînée avec supervision RGB-D dans le domaine robotique, qui génère des features appelées GEP (Geometry-Enhanced Post-Trained) sans nécessiter de caméra de profondeur au déploiement. L'état proprioceptif du robot, c'est-à-dire la position de ses articulations à chaque instant, interroge dynamiquement cette grille de features pour produire des tokens géométriques adaptés à la phase courante du mouvement. Les résultats annoncés sont 99,0 % sur le benchmark LIBERO, 85,3 % sur trois tâches SimplerEnv-Fractal, et 78,8 % sur huit tâches réelles "geometry-critical" sur plateforme bi-manuelle ALOHA. Ce travail cible un problème bien identifié par les intégrateurs industriels : les VLA produisent des trajectoires sémantiquement cohérentes mais qui échouent lors du contact ou de la saisie fine, faute de modélisation géométrique locale. L'approche de GeoAlign est pragmatique, elle exploite la supervision RGB-D à l'entraînement sans alourdir le pipeline de déploiement qui reste en RGB pur. Le score de 78,8 % sur des tâches réelles est notable, mais le périmètre demeure étroit avec seulement huit tâches sur une seule plateforme, et la généralisation à d'autres morphologies ou environnements industriels n'est pas encore démontrée. Les ablations confirment l'apport des deux composantes, post-formation géométrique et requêtage guidé par l'état proprioceptif, ce qui renforce la crédibilité de l'architecture au-delà du simple ajustement de paramètres. Les VLA se sont imposés comme paradigme dominant depuis RT-2 de Google DeepMind en 2023, et se retrouvent au cœur de systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. La tendance de fond depuis 2024 est à l'augmentation des capacités spatiales de ces modèles, avec SpatialVLA et d'autres architectures 3D-aware qui s'attaquent au même problème. La plateforme ALOHA, développée à Stanford et UC Berkeley, est aujourd'hui commercialisée par Trossen Robotics et AgileX, ce qui donne une certaine représentativité aux évaluations en conditions réelles. GeoAlign reste pour l'instant un preprint non relu par les pairs : sa reproductibilité sur d'autres plateformes et dans des contextes industriels variés déterminera si elle s'intègre effectivement dans les pipelines VLA de production.

RechercheOpinion
1 source
GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique
73arXiv cs.RO 

GeoSem-WAM : un modèle du monde intégrant géométrie et sémantique

Des chercheurs ont publié le 3 juin 2026 sur arXiv (référence 2606.03188) une nouvelle architecture baptisée GeoSem-WAM, pour "Geometry- and Semantic-Aware World Action Model". L'objectif : améliorer les World Action Models (WAMs), une classe de modèles d'apprentissage utilisés pour la prise de décision en robotique incarnée. La contribution centrale consiste à enrichir la représentation latente apprise par ces modèles en ajoutant deux branches de prédiction auxiliaires, l'une dédiée à la géométrie future de la scène, l'autre à sa sémantique, en complément de la prédiction RGB classique. Le tout est intégré dans un espace latent unifié capturant simultanément la dynamique de la scène, sa structure spatiale et son contenu sémantique. Cruciale est la contrainte d'efficacité conservée : aucun rollout explicite ni génération vidéo n'est effectué à l'inférence, ce qui distingue GeoSem-WAM des approches monde qui consomment de la mémoire et du compute à chaque décision. L'intérêt industriel de ce travail réside dans la question qu'il adresse en filigrane : les WAMs sont-ils efficaces parce qu'ils imaginent explicitement le futur lors de l'inférence, ou simplement parce que l'entraînement prédictif force l'encodeur à apprendre de meilleures représentations ? Les résultats suggèrent que c'est la qualité des représentations latentes qui prime, et que l'imagination à l'inférence est accessoire. Pour les équipes robotiques travaillant sur des agents navigant dans des environnements non structurés, cela signifie qu'enrichir la supervision d'entraînement avec des signaux géométriques et sémantiques peut améliorer la robustesse sans alourdir le temps de cycle à l'exécution. Les auteurs rapportent des gains en précision de prédiction d'action et en robustesse sur des scénarios difficiles, bien que ces résultats restent à ce stade des benchmarks académiques sur simulateur, non validés sur hardware physique. Les WAMs constituent une catégorie en consolidation dans la recherche en robotique, parallèle aux approches VLA (Vision-Language-Action) comme pi0 de Physical Intelligence ou GR00T N2 de NVIDIA, qui intègrent aussi des priors de représentation riche. GeoSem-WAM s'inscrit dans un courant visant à combler le sim-to-real gap par une meilleure compréhension structurelle de l'environnement, sans recourir à des architectures de diffusion coûteuses à l'inférence. Aucun partenariat industriel ni déploiement sur robot réel n'est annoncé dans cet article, qui demeure une contribution de recherche fondamentale soumise en preprint et n'ayant pas encore subi de revue par les pairs.

RecherchePaper
1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
74arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

RechercheOpinion
1 source
Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF
75arXiv cs.RO 

Erreur par groupe, pas MSE totale : affinage de modèles VLA pour la manipulation mobile à 11 DOF

Des chercheurs ont publié le 1er juin 2026 sur arXiv une étude portant sur le fine-tuning de modèles Vision-Language-Action (VLA) pour manipulateurs mobiles à 11 degrés de liberté (DoF), en l'occurrence le Toyota HSR. Ils ont comparé SmolVLA (450 millions de paramètres, entraînement sur la tête d'action uniquement) et π0.5 de Physical Intelligence (3,3 milliards de paramètres), évalués sur 60 essais réels (20 par variante). Le résultat central : le checkpoint affichant la meilleure erreur quadratique moyenne (MSE) agrégée n'est pas celui qui performe le mieux sur le robot physique. π0.5 à 80 000 étapes obtient un score de 4,0/4, devançant la variante expert-only à 3 000 étapes (3,75/4) et HSR-SmolVLA (3,5/4), avec une significativité statistique confirmée (Mann-Whitney p ≤ 0,010), malgré une MSE totale plus élevée pour le modèle gagnant. L'enjeu est méthodologique autant que pratique. Sur un robot hétérogène comme le HSR, les articulations faciles à prédire (tête, base) tirent la MSE agrégée vers le bas et masquent les joints critiques (bras) qui continuent d'échouer. Dans la variante expert-only de π0.5, geler le backbone et n'entraîner que la tête d'action fait chuter la MSE totale sous la baseline, mais dégrade précisément la précision du bras. L'analyse par groupe (bras, pince, tête, base roulante) révèle que c'est l'erreur du groupe bras hors ligne, et non la MSE totale ni l'erreur de la base, qui corrèle le plus fidèlement avec la performance réelle. Ce constat remet en question une pratique courante dans le déploiement de VLA sur robots multi-segments. Le Toyota HSR est une plateforme de référence en manipulation domestique et en recherche académique. Les modèles VLA s'imposent comme paradigme dominant depuis les travaux RT-2 de Google DeepMind (2023), suivis de π0 et π0.5 de Physical Intelligence (San Francisco), SmolVLA de HuggingFace (Paris), ou encore OpenVLA de Stanford. Le problème de la sélection de checkpoint par MSE agrégée était jusqu'ici peu documenté pour les espaces d'action hétérogènes. Le code de cette étude est publié en open source sur GitHub, ce qui permet une réplication directe. Prochaine étape logique : valider cette approche per-group sur d'autres plateformes humanoïdes à espace d'action encore plus fragmenté.

UESmolVLA de HuggingFace (Paris) est l'un des deux modèles centralement évalués, et les résultats méthodologiques (sélection de checkpoint par groupe d'articulations) guident directement les équipes européennes déployant des VLA sur manipulateurs mobiles hétérogènes.

💬 Évaluer un checkpoint VLA par la MSE totale sur un robot à 11 DOF, c'est se raconter des histoires. Les articulations simples, tête et base roulante, tirent le score agrégé vers le bas et cachent que le bras, lui, continue de foirer : le modèle gagnant sur la métrique standard n'est pas celui qui tient en conditions réelles. Ce papier le prouve proprement avec 60 essais physiques, et avec SmolVLA de HuggingFace dans le lot, c'est pas juste un résultat académique.

RechercheOpinion
1 source
Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel
76arXiv cs.RO 

Modèles vision-langage-action : l'apprentissage par renforcement permet un apprentissage continu naturel

Une équipe du laboratoire RobIn de l'Université du Texas à Austin publie une étude systématique sur l'apprentissage par renforcement continu (Continual RL, CRL) appliqué aux modèles Vision-Language-Action (VLA), soumise sur arXiv en mars 2026 (2603.11653, v2). Le résultat central contredit un postulat solidement établi dans la littérature : le fine-tuning séquentiel simple (Seq. FT) couplé à LoRA (Low-Rank Adaptation, adaptation paramétrique par matrices de faible rang) suffit à entraîner continuellement de grands VLAs sans oubli catastrophique significatif. Testé sur plusieurs benchmarks lifelong RL dans des environnements ouverts et évolutifs, Seq. FT + LoRA atteint une forte plasticité, conserve une généralisation zero-shot robuste, et surpasse fréquemment des méthodes CRL nettement plus complexes. Ce constat redessine les prérequis techniques pour l'adaptation continue de robots génériques en production. Si l'on n'a pas besoin de replay mémoire, de régularisation élastique de type EWC ni d'architectures modulaires pour éviter l'oubli catastrophique, les équipes embarquant des VLAs dans des cycles de mise à jour continus gagnent une simplicité opérationnelle considérable. L'étude attribue ce comportement à une synergie entre trois facteurs : la large capacité de représentation du modèle pré-entraîné, l'adaptation paramétrique légère de LoRA, et la nature on-policy du renforcement utilisé. Cette combinaison reconfigure le compromis classique stabilité-plasticité, rendant l'adaptation scalable sans infrastructure CRL dédiée. Le résultat invite aussi à reconsidérer l'utilité réelle des méthodes sophistiquées de continual learning dans le régime des grands modèles, où la complexité algorithmique semble parfois être une réponse à un problème que le scaling a déjà partiellement résolu. Les VLAs de grande taille comme RT-2 (Google DeepMind), OpenVLA (Berkeley) ou pi-0 (Physical Intelligence) s'imposent progressivement comme socle de la robotique généraliste, mais leur recyclage continu sur de nouvelles tâches sans régression restait un verrou ouvert. UT Austin RobIn, déjà actif sur les approches RL pour la manipulation robotique, positionne ici le Seq. FT comme baseline solide plutôt que comme anti-pattern à éviter, ce qui tranche avec l'orthodoxie des équipes de CMU, Stanford ou Google DeepMind. Les startups robotiques travaillant avec des architectures VLA (Figure AI, Apptronik, ou Enchanted Tools côté européen) seront attentives à ces résultats si leur généralisation hors benchmarks contrôlés se confirme. Le code est publié sur GitHub (UT-Austin-RobIn/continual-vla-rl), ce qui devrait accélérer la reproduction et l'intégration dans des pipelines de déploiement réels.

UEEnchanted Tools (startup française) est explicitement citée parmi les bénéficiaires potentiels : si ces résultats se généralisent hors benchmarks, les équipes VLA européennes pourraient simplifier significativement leurs pipelines d'entraînement continu en abandonnant les méthodes CRL complexes au profit de Seq. FT + LoRA.

💬 Ce qui me frappe : des années à chercher comment éviter l'oubli catastrophique sur les gros VLAs, et la réponse c'est LoRA + fine-tuning séquentiel bête et méchant, sans EWC ni replay mémoire. Bon, sur le papier ça semble trop propre pour être vrai. Mais le code est public et si ça tient hors benchmarks, Figure AI et les autres vont simplifier leurs pipelines d'un coup.

RechercheOpinion
1 source
VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents
77arXiv cs.RO 

VLAMotor : amélioration guidée par tests des modèles VLA via la synthèse de données à base d'agents

Des chercheurs ont publié le 31 mai 2026 (arXiv:2606.00053) VLAMotor, un cadre d'analyse et d'amélioration des modèles Vision-Langage-Action (VLA) pour la manipulation robotique. Ces modèles, dont Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, sont entraînés sur de grandes bases de données de trajectoires et apprennent à relier instructions en langage naturel, perception visuelle et commandes motrices. Le problème documenté par l'équipe : dès le déploiement, les VLA échouent sur des configurations hors distribution, c'est-à-dire des scènes ou orientations d'objets absentes des données d'entraînement. VLAMotor répond à cela en deux phases. Premièrement, il sélectionne des cas de test en mesurant la distance entre chaque entrée candidate et les échantillons d'entraînement, puis applique une élimination de redondance pour construire un jeu de test compact mais diversifié. Résultat : 92,33 % des cas générés déclenchent effectivement un échec du modèle testé, et la couverture de test dépasse de 18,93 % l'outil de l'état de l'art. Deuxièmement, les trajectoires d'échec sont abstraites en représentations sémantiques structurées, planifiées comme séquences de compétences paramétrées, puis converties en trajectoires exécutables via cinématique inverse. Ces trajectoires réussies sont étiquetées automatiquement et servent à affiner le modèle original, améliorant son taux de succès global de 49,25 %. L'impact industriel est direct : le sim-to-real gap, longtemps cité comme obstacle principal au déploiement des VLA en production, est ici réduit de façon mesurable sans collecte de données humaines coûteuses. Sur matériel réel, les modèles affinés en simulation affichent +57,50 % de succès par rapport aux modèles de base, ce qui valide un pipeline entièrement automatisé de découverte de défauts et de correction. Pour un intégrateur industriel ou un OEM robotique, cela signifie qu'un VLA pré-entraîné peut être spécialisé pour une cellule de travail donnée à moindre coût, sans intervention humaine à chaque étape de labellisation. VLAMotor s'inscrit dans un mouvement plus large de test logiciel appliqué aux systèmes d'apprentissage machine : les travaux de mutation testing et de falsification formelle migrent vers la robotique incarnée, où les enjeux de fiabilité sont physiques. Côté concurrence, Physical Intelligence travaille sur l'adaptation rapide de Pi-0, NVIDIA pousse GR00T N2 avec des pipelines sim-to-real propriétaires, et des acteurs européens comme Enchanted Tools ou Wandercraft investissent dans des boucles de finetune ciblées pour leurs marchés verticaux. VLAMotor, issu du monde académique, propose une direction ouverte et low-cost qui pourrait être adoptée comme couche de validation standard avant tout déploiement VLA en cellule réelle. Les prochaines étapes probables incluent l'extension à des tâches de locomotion et à des VLA multimodaux de plus grande taille.

UEEnchanted Tools et Wandercraft pourraient adopter VLAMotor comme couche de validation bas coût pour spécialiser leurs VLA sur des cellules industrielles sans collecte manuelle de données.

RechercheOpinion
1 source
Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA
78arXiv cs.RO 

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

Des chercheurs ont publié sur arXiv (réf. 2508.20072, quatrième révision) Discrete Diffusion VLA, une architecture de politique robot qui intègre la diffusion discrète directement au sein du backbone transformeur unifié d'un modèle Vision-Language-Action (VLA). Sur le benchmark LIBERO, le système atteint 96,4 % de taux de réussite moyen, 71,2 % de correspondance visuelle sur SimplerEnv-Fractal et 54,2 % sur SimplerEnv-Bridge. Des évaluations en conditions réelles ont été conduites sur la plateforme AgileX Cobot Magic, un bras collaboratif de l'équipementier chinois du même nom. Le mécanisme central est un décodage adaptatif par ordre de confiance : le modèle résout d'abord les éléments d'action à haute certitude, puis revisite les prédictions incertaines via un re-masquage secondaire, permettant une correction d'erreur itérative sans générer une séquence de gauche à droite. L'enjeu architectural est concret. Les VLA actuels souffrent de deux compromis : la génération autorégressive classique (ordre fixe gauche-à-droite) affiche des performances limitées, tandis que les architectures à tête de diffusion continue externe, comme celle de Pi-0 de Physical Intelligence, fragmentent les flux d'information entre backbone et module d'action. En maintenant la diffusion à l'intérieur du backbone, cette approche préserve les représentations visuelles et linguistiques pré-entraînées. Le résultat chiffré est parlant : seulement 0,8 % de dégradation sur les tâches hors-distribution en langage, contre 8,0 % pour le décodage parallèle conventionnel, et 20,4 % en vision contre 29,0 % pour la diffusion continue. Pour un intégrateur ou un responsable technique évaluant une stack de manipulation généraliste, c'est un signal que la robustesse hors-distribution peut être préservée sans compromis sur la scalabilité. Les VLA se sont imposés comme paradigme dominant pour la manipulation généraliste, portés par OpenVLA, Octo, puis Pi-0 qui a popularisé la diffusion continue comme tête de décodage séparée, précisément l'architecture remise en question ici. La diffusion discrète, mieux connue dans le domaine du texte (MDLM, DMDM), est ici appliquée aux séquences d'actions robotiques, un transfert non trivial. La quatrième révision du preprint signale un travail en maturation active. Les prochaines étapes probables incluent le scaling sur des datasets larges de type Open X-Embodiment et l'évaluation sur des plateformes humanoïdes, où la gestion de l'incertitude en temps réel sera le vrai critère discriminant.

RechercheOpinion
1 source
Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements
79arXiv cs.RO 

Point de vue : les bons modèles de récompense incarnés ont besoin de données de mauvais comportements

Un article de position déposé sur arXiv en juin 2026 (arXiv:2606.01036) soulève un problème structurel dans l'entraînement des robots fondationnels : les modèles de récompense embarqués (embodied reward models), centraux dans toute boucle d'apprentissage par renforcement, sont quasi-exclusivement entraînés sur des comportements réussis. Les auteurs ont évalué trois modèles de récompense de l'état de l'art et constatent qu'ils sur-récompensent systématiquement trois catégories de comportements qu'un évaluateur humain pénaliserait : interactions non sécurisées avec l'environnement, exécution de mauvaise qualité, et stratégies de raccourci qui satisfont l'apparence d'une tâche sans en remplir l'objectif réel. La cause pointée est le manque chronique de données négatives dans les datasets robotiques existants : comportements ratés, sous-optimaux ou dangereux, coûteux à collecter et systématiquement filtrés ou retenus par les équipes. Ce biais a des implications directes pour tout déploiement de robot généraliste en environnement industriel. Un modèle de récompense qui valide des comportements non sécurisés ou des raccourcis fonctionne comme un juge défaillant au coeur même de la boucle d'entraînement, produisant des systèmes validés en simulation mais problématiques en production. Les auteurs montrent qu'une exposition modeste à de vraies données de comportements négatifs améliore l'alignement avec les préférences humaines et réduit les faux positifs coûteux, argument pour une action corrective accessible à court terme plutôt qu'un problème structurel insoluble. La problématique s'impose avec l'essor des modèles vision-langage-action (VLA) tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure. Dans ce contexte, collecter des données d'échec reste plus contraignant qu'en NLP : chaque trajectoire ratée mobilise du matériel physique et présente un risque opérationnel réel. Les auteurs appellent la communauté à quatre actions concrètes : publier les données négatives aujourd'hui retenues, construire des moteurs de génération synthétique de mauvais comportements, déployer des systèmes d'évaluation physique décentralisés, et créer des benchmarks dédiés à l'évaluation fine des reward models. Aucun partenaire institutionnel ni calendrier opérationnel n'est annoncé dans le document, ce qui en fait pour l'instant un manifeste académique sans engagement opérationnel identifié.

RechercheOpinion
1 source
Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage
80arXiv cs.RO 

Goal2Pixel : ancrage des objectifs dans les pixels pour la navigation vision-langage

Une équipe de recherche a publié fin mai 2026 Goal2Pixel, un nouveau paradigme de navigation robotique en environnement continu guidée par le langage naturel (VLN-CE, Vision-and-Language Navigation in Continuous Environments). L'approche reformule le problème : plutôt que de demander au modèle de vision-langage (VLM) de prédire directement des actions motrices, Goal2Pixel lui demande d'identifier un pixel navigable dans le champ de vision courant. Ce pixel est ensuite rétro-projeté en coordonnées 3D pour générer un waypoint de navigation. Pour les actions non-linéaires (virage gauche, virage droit, arrêt), des régions auxiliaires codées directement dans l'image servent d'interface. Un module de mémoire par keyframes filtrées par visibilité permet la navigation sur longues distances sans saturer le contexte du modèle. Sur le benchmark standard R2R-CE Val-Unseen, Goal2Pixel atteint 54,1 % de Success Rate (SR) et 52,5 % de SPL, avec seulement 7,75 appels VLM par épisode en moyenne. Le gain d'efficacité est le fait saillant : la méthode de référence par prédiction d'action directe requiert 46,62 appels VLM par épisode pour un SR de seulement 32,9 %, soit 6 fois plus d'inférences pour une performance nettement inférieure. C'est un argument concret pour les intégrateurs qui cherchent à déployer des VLMs embarqués ou à limiter la latence en inférence. L'interface pixel unifie le raisonnement spatial du VLM et le contrôle moteur sans couche d'abstraction intermédiaire propriétaire, ce qui facilite le remplacement du backbone VLM par des versions plus récentes. Les résultats tiennent également sur le benchmark multilingue RxR-CE, ce qui suggère une certaine robustesse linguistique. Le problème VLN-CE reste un champ de recherche très actif, dominé par des approches basées sur des cartes sémantiques ou des prédictions d'actions discrètes. Goal2Pixel s'inscrit dans une tendance plus récente qui exploite les capacités de grounding spatial des grands modèles visuels (type Qwen-VL, LLaVA, InternVL) comme interface de contrôle directe, évitant l'entraînement d'une tête d'action spécialisée. Les résultats publiés sont des métriques benchmark sur simulateur (Matterport3D), pas des validations en environnement physique réel : le sim-to-real gap reste entier. Le code et la page projet sont accessibles publiquement, ce qui ouvre la voie à des reproductions et adaptations par la communauté.

RechercheOpinion
1 source
Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage
81arXiv cs.RO 

Combler le fossé 2D-3D : une carte sémantique-géométrique hiérarchique pour la navigation vision-langage

Des chercheurs ont publié le 31 mai 2026 sur arXiv un article (référence 2606.00095) décrivant HSGM, une carte hiérarchique sémantique-géométrique conçue pour améliorer la navigation d'agents robotiques guidés par instructions en langage naturel. Le système repose sur une représentation top-down multi-couches organisée en trois niveaux : un niveau géométrique qui encode les zones navigables et les obstacles, un niveau sémantique qui modélise les objets et leurs relations spatiales, et un niveau décisionnel qui supporte le raisonnement de haut niveau pour la sélection des objectifs. Durant la navigation, le modèle de vision-langage (VLM) joue le rôle de planificateur sémantique : il interprète la carte HSGM pour sélectionner des points de passage géométriquement cohérents, tandis qu'un algorithme de planification de trajectoire classique prend en charge les déplacements locaux sans collision. Pour les instructions longues, le système les décompose en sous-tâches afin d'éviter l'oubli de progression ou les hallucinations sur des horizons temporels étendus. Les expériences sur les benchmarks R2R-CE et RxR-CE montrent que le framework en mode zero-shot atteint des performances à l'état de l'art et surpasse même plusieurs méthodes supervisées. Ce résultat est notable parce qu'il attaque un verrou bien identifié de la robotique embodied : les VLMs comprennent le langage et l'image 2D avec compétence, mais peinent à raisonner en 3D et à modéliser la causalité entre actions et transitions spatiales. En convertissant la géométrie 3D en une représentation structurée lisible par les VLMs, HSGM découple proprement le raisonnement sémantique de l'exécution motrice, une architecture qui pourrait simplifier l'intégration de LLMs généralistes dans des chaînes de contrôle robotique existantes sans retraining complet. La performance zero-shot supérieure à certaines méthodes supervisées suggère une généralisation robuste à des environnements inconnus, ce qui est directement pertinent pour des déploiements en entrepôt, bâtiment tertiaire ou environnement hospitalier où l'annotation préalable est coûteuse. Ce travail s'inscrit dans un champ de recherche actif sur la navigation embodied guidée par langage, avec des benchmarks de référence établis notamment par Anderson et al. (R2R, 2018) et leurs extensions continues (R2R-CE pour les environnements continus, RxR-CE multilingue). La tendance de fond est à l'utilisation de VLMs pré-entraînés comme raisonneurs généraux plutôt que de former des architectures dédiées depuis zéro, une approche défendue aussi par des équipes comme CMU, Oxford ou Google DeepMind sur des problèmes adjacents. La prochaine étape naturelle pour ce type de système est l'intégration sur des plateformes physiques réelles, domaine où le sim-to-real gap reste un défi ouvert que les benchmarks en simulation ne mesurent pas. Le code est disponible publiquement sur GitHub (Teacher-Tom/HSGM\_public), ce qui facilite la reproduction et l'adaptation par des équipes tierces.

RechercheOpinion
1 source
PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes
82arXiv cs.RO 

PHASOR : représentations d'actions universelles ancrées en phase pour les humanoïdes

Une équipe de chercheurs a publié sur arXiv (2606.01851) PHASOR, un cadre de représentation d'actions conçu pour l'apprentissage de politiques sur robots humanoïdes. Le problème ciblé est fondamental : les méthodes actuelles produisent des espaces latents opaques, non structurés et liés à une plateforme spécifique. PHASOR exploite la périodicité intrinsèque du mouvement en le factorisant en deux composantes : un manifold de phase capturant les structures cycliques via des coefficients FFT (transformée de Fourier rapide), et une branche de pose conditionnant ce manifold sur les configurations non périodiques. Combiné à une distillation de sémantique de mouvement, le système produit un espace de représentations agnostique à l'embodiment, pré-entraîné sur des données de mouvement humain et transférable à plusieurs plateformes humanoïdes de morphologies différentes. L'enjeu industriel est direct. Les architectures actuelles obligent à ré-entraîner les politiques à chaque changement de plateforme matérielle, un coût élevé pour les intégrateurs gérant des flottes hétérogènes. PHASOR traite l'espace d'embedding d'actions comme un objet de conception à part entière : la qualité de la politique émerge de la qualité de la représentation. Les résultats publiés montrent des gains cohérents sur les tâches robotiques en aval et une forte capacité de récupération cross-embodiment, c'est-à-dire qu'un mouvement appris sur un robot peut être retrouvé et transféré à un autre. Il s'agit toutefois d'un preprint sans revue par les pairs, ce qui invite à rester prudent sur la portée des benchmarks présentés. La question du transfert inter-embodiment est au coeur de la compétition humanoïde. Figure AI (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (pi0), NVIDIA (GR00T N2) et Agility Robotics développent chacun des architectures de politiques rarement compatibles entre elles. Des travaux comme RT-2 ou OpenVLA avaient montré l'utilité du pré-entraînement sur données humaines pour la vision et le langage, mais l'espace d'actions restait un angle mort. PHASOR s'attaque directement à ce manque. Les prochaines étapes naturelles passeraient par une validation sur plateformes physiques, Unitree H1/H2 ou Apollo d'Apptronik en tête, et une confrontation avec des benchmarks standardisés comme HumanoidBench.

RecherchePaper
1 source
PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts
83arXiv cs.RO 

PaCo-VLA : a priori de compliance protégé par passivité pour la manipulation VLA riche en contacts

Des chercheurs ont publié sur arXiv (référence 2506.00515) PaCo-VLA, un framework qui comble le fossé entre les modèles Vision-Language-Action et le contrôle de contact haute fréquence. Le problème est structurel : les VLAs génèrent une sortie à quelques hertz seulement, alors que la régulation de dynamiques de contact exige des boucles à plusieurs kilohertz. PaCo-VLA requalifie le rôle du réseau neuronal : plutôt que de produire des commandes moteur directes, le VLA émet des "proposals de compliance", à savoir des engagements sémantiques, des étapes de tâche et des paramètres d'admittance. Un bouclier de passivité haute fréquence, indépendant du modèle, filtre ces proposals via une comptabilité d'énergie (energy-tank accounting) et des contrôles aux frontières, bloquant toute prédiction invalide ou périmée avant qu'elle n'atteigne la physique de contact. Les expériences d'insertion de connecteurs, en simulation et en conditions réelles, montrent une précision supérieure aux baselines VLA non protégées, avec zéro violation de passivité même sous perturbations adversariales de compliance. L'enjeu dépasse la performance brute. La passivité est une propriété de sécurité prouvable : elle garantit que le système ne génère pas d'énergie mécanique non désirée, ce qui est critique pour les assemblages de précision où une force mal régulée peut détruire la pièce ou l'actionneur. L'architecture découplée permet aussi une évaluation causale du VLA, isolant ce que le modèle contribue réellement en termes de raisonnement sémantique par opposition aux raccourcis géométriques que les réseaux exploitent souvent sans compréhension réelle. Pour un intégrateur ou un responsable industriel, PaCo-VLA propose un contrat d'interface formel, le "sampled-passive runtime contract at the admittance port", qui pourrait constituer un argument solide dans un dossier de certification pour environnement réglementé. Cette publication s'inscrit dans une problématique centrale de 2025-2026 : comment déployer des modèles de fondation tels que Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 de Google DeepMind sur des robots industriels sans compromettre la sécurité de contact ? La manipulation contact-riche, insertion de connecteurs, vissage, assemblage, reste le point faible des VLAs actuels qui excellent en manipulation en espace libre mais peinent dès que la force devient une variable critique. PaCo-VLA est encore au stade de preprint et n'a pas été validé à l'échelle industrielle ; les résultats publiés portent sur des tâches d'insertion en contexte contrôlé, loin d'un benchmark d'assemblage général. La prochaine étape naturelle serait une validation sur des chaînes de production réelles, où la variabilité des pièces et des tolérances mettrait véritablement à l'épreuve la robustesse du bouclier passif.

UEImpact indirect : le contrat d'interface formel proposé (passivité prouvable) pourrait alimenter les dossiers de certification pour déploiements VLA industriels en environnement réglementé EU, notamment dans le contexte de l'AI Act, mais aucun acteur européen n'est impliqué directement.

RechercheOpinion
1 source
Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA
84arXiv cs.RO 

Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA

Des chercheurs ont publié le 2 juin 2026 sur arXiv (réf. 2606.02486) AHEAD, un module d'anticipation conçu pour corriger un angle mort majeur des modèles Vision-Language-Action : leur incapacité à saisir des objets en mouvement. Les VLA actuels, dont OpenVLA (7 milliards de paramètres), capturent une observation instantanée et génèrent une action en supposant que la scène restera immobile, ce qui introduit une latence incompatible avec toute dynamique réelle. AHEAD (Anticipatory Horizon Extrapolation with Adaptive Dynamics) greffe un modèle de monde latent de seulement 4,9 millions de paramètres sur le VLA gelé : ce module prédit l'état futur de la scène dans l'espace de features du VLA, en s'appuyant sur les champs de vitesse et d'accélération par token extraits par flux optique, puis filtre les patchs pertinents via un masque combinant saillance linguistique et cinématique. Le décodeur d'action reçoit ces tokens futurs en lieu et place des tokens présents. En simulation, AHEAD atteint 79 à 97 % de succès sur 20 scénarios dynamiques, contre 31 à 58 % pour le meilleur concurrent. Sur robot physique (UFactory xArm 7), le système réussit 29 à 30 essais sur 30 pour des tâches de tapis roulant et de balle roulante, 23/30 pour l'interception de pagaie, et 19/30 pour l'interception de projectile, là où tous les baselines atteignent 0/30. Ce résultat est notable car il démontre un transfert sim-to-real fonctionnel sur des tâches dynamiques, un écueil historique des approches VLA : non seulement la prédiction dans l'espace latent se généralise à du matériel réel, mais le module léger (4,9 M de paramètres) n'impose aucune modification du modèle de base, ce qui ouvre la voie à une adoption modulaire sur n'importe quel VLA existant. Pour un intégrateur industriel, cela signifie qu'un bras robotisé équipé d'un VLA standard pourrait, sans réentraînement complet, traiter des pièces sur convoyeur ou dans des environnements non structurés, un verrou majeur pour la robotisation flexible de lignes d'assemblage ou de tri. Les VLA ont émergé comme paradigme dominant en manipulation robotique depuis 2023, portés par des travaux comme RT-2 (Google DeepMind) et la série OpenVLA (Berkeley). La manipulation statique étant désormais largement résolue par ces modèles, le front de recherche se déplace vers le dynamique, le déformable et l'incertain. AHEAD s'inscrit dans cette tendance, en compétition implicite avec des approches comme ACT (Action Chunking Transformer) ou les méthodes de replanning rapide à base de diffusion. L'article reste un preprint de laboratoire académique sans déploiement industriel annoncé, et les conditions de test physique (30 essais par tâche, environnement contrôlé) restent loin d'une validation en conditions de production ; les performances sur projectile (19/30) méritent un regard critique. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme RoboSuite ou une collaboration avec un partenaire industriel pour valider la robustesse hors-labo.

UEAucun acteur européen impliqué ; les intégrateurs industriels EU travaillant sur la robotisation de lignes de convoyage ou de tri pourraient à terme bénéficier de cette approche modulaire compatible avec tout VLA existant, sans réentraînement du modèle de base.

RechercheOpinion
1 source
Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique
85arXiv cs.RO 

Tau-zéro WM : un modèle du monde vidéo-action unifié pour la manipulation robotique

Des chercheurs ont déposé le 1er juin 2026 sur arXiv (réf. 2606.01027) τ₀-WM (tau-zéro World Model), une architecture unifiée vidéo-action pour la manipulation robotique. Le modèle repose sur un backbone de diffusion vidéo partagé qui intègre simultanément apprentissage de politique, prédiction vidéo et évaluation d'actions au sein d'un même cadre prédictif. Il expose deux interfaces complémentaires : un modèle d'action vidéo qui prédit conjointement des représentations visuelles latentes futures et des séquences d'actions continues à partir d'observations multi-caméras, d'instructions en langage naturel et de l'état courant du robot ; et un simulateur vidéo conditionné sur l'action, capable de dérouler des séquences candidates en projections multi-vues tout en attribuant des scores denses de progression de tâche. L'entraînement porte sur environ 27 300 heures de données combinant téléopération réelle, interactions de style UMI (Universal Manipulation Interface, protocole de collecte de données en bimanuel développé par Stanford), vidéos égocentrées humaines, et trajectoires de succès comme d'échecs. L'intérêt principal réside dans la convergence entre politique et modèle de monde au sein d'une architecture commune. Les VLA (Vision-Language-Action models) actuels génèrent des actions sans anticiper leurs conséquences, laissant la gestion des erreurs à des modules séparés. τ₀-WM introduit un mécanisme de rectification à l'inférence : le simulateur évalue chaque séquence candidate via un score dense de progression, et les candidats jugés insuffisants sont corrigés par re-débruitage. Ce test-time scaling structuré pourrait réduire les interventions humaines sur des tâches longue durée, un enjeu clé pour les intégrateurs industriels qui peinent encore à déployer des robots autonomes sur des séquences de plus de quelques étapes. Sur les benchmarks de manipulation fine et longue séquence, les auteurs déclarent surpasser les baselines comparables, sans préciser les conditions expérimentales ni les contraintes matérielles testées. Ce travail s'inscrit dans une course engagée depuis fin 2024 entre Physical Intelligence (pi-0), NVIDIA (GR00T N2) et Figure (Helix) pour des architectures VLA à grande échelle, mais rares sont celles qui intègrent simulation interne et évaluation d'action dans un seul modèle plutôt que dans un pipeline découplé. L'usage de données UMI signale une stratégie d'agrégation multi-source qui dépasse les corpus propriétaires et pourrait favoriser la généralisation à de nouveaux environnements. Le papier reste pour l'instant un preprint non soumis à revue par les pairs : les performances annoncées restent à valider sur robot physique en conditions réelles, et aucune date de déploiement ou partenariat industriel n'est mentionné.

RechercheOpinion
1 source
Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée
86arXiv cs.RO 

Intégration IA-IoT-Robotique : panorama des frameworks, tendances émergentes et voie vers la robotique connectée

Une équipe de chercheurs a publié début juin 2026 sur arXiv (réf. 2606.01015) une revue de la littérature consacrée à l'intégration conjointe de l'intelligence artificielle, de l'Internet des objets (IoT) et de la robotique, trois domaines qui progressaient jusqu'ici principalement deux à deux. Les auteurs recensent les travaux existants autour de combinaisons établies, l'AIoT (IA et IoT) et l'Internet of Robotic Things (IoRT, couplant IoT et robotique), et constatent l'absence persistante de cadres de conception unifiés orchestrant les trois disciplines simultanément. Leur principale contribution est une architecture modulaire où des petits modèles de langage (SLM, Small Language Models) assurent l'inférence locale en bordure de réseau (edge), tandis que des grands modèles de langage (LLM) hébergés dans le cloud prennent en charge le raisonnement de haut niveau et la prise de décision autonome. Pour les intégrateurs industriels et les responsables techniques B2B, l'architecture hybride SLM-LLM proposée répond à deux contraintes opérationnelles majeures : réduire la latence en traitant localement les données capteurs, et limiter la dépendance réseau dans des environnements de production. La revue identifie des verrous encore ouverts, notamment l'interopérabilité entre protocoles hétérogènes et la boucle de contrôle par retour d'information dans des systèmes multi-agents distribués. Il convient de souligner que ces résultats restent à ce stade conceptuels : le papier propose un cadre et une taxonomie, pas un système validé en déploiement réel, et l'absence de benchmarks reproductibles est explicitement signalée comme une limite. Ce travail s'inscrit dans un courant académique et industriel que NVIDIA a popularisé sous le terme de Physical AI, désignant des systèmes capables d'agir dans le monde physique via des robots ou des actionneurs connectés. La robotique connectée que dessine ce survey fait écho aux développements de plateformes cloud-robot portés par des acteurs comme Boston Dynamics, ou en Europe par des intégrateurs spécialisés comme Exotec dans les AMR et Enchanted Tools dans la robotique collaborative. Les auteurs identifient eux-mêmes comme prochaine étape la validation expérimentale de leur cadre sur des cas d'usage réels, condition nécessaire pour que l'architecture proposée dépasse le statut de roadmap et devienne une référence opérationnelle pour l'industrie.

UEL'architecture SLM-LLM proposée pourrait bénéficier à terme aux intégrateurs européens comme Exotec (AMR) et Enchanted Tools (cobots), mais reste un cadre conceptuel sans validation terrain ni benchmarks reproductibles.

RecherchePaper
1 source
Le lauréat du prix Turing Richard Sutton estime que l'IA générative pure ne peut pas faire de vraie science
87The Decoder 

Le lauréat du prix Turing Richard Sutton estime que l'IA générative pure ne peut pas faire de vraie science

Richard Sutton, lauréat du prix Turing 2024 pour ses travaux fondateurs sur l'apprentissage par renforcement, a pris une position tranchée sur les limites des systèmes d'IA générative actuels : ils sont structurellement incapables de faire de la vraie science. Sa critique centrale porte sur l'absence de boucle d'évaluation interne. Sans mécanisme pour juger la validité ou la nouveauté de ses propres résultats, un système génératif ne peut que produire du contenu vraisemblable, pas découvrir quelque chose de réellement nouveau. Toute nouveauté émergente reste fugace, non reconnue, aussitôt perdue. L'enjeu est considérable pour le débat autour de l'IA scientifique. De nombreux acteurs présentent les grands modèles de langage comme des outils de découverte, capables d'accélérer la recherche en biologie, en chimie ou en mathématiques. Sutton conteste cette vision : sans capacité d'autoévaluation, ces systèmes restent des moteurs de reformulation, non d'exploration. Pour les chercheurs qui misent sur l'IA pour générer des hypothèses originales, la distinction est fondamentale. Sutton pointe en contraste des systèmes comme AlphaGo ou AlphaProof, développés par Google DeepMind, qui intègrent une boucle d'évaluation explicite, le score d'une partie, la validité d'une preuve, permettant à l'IA de tester et valider ses propres productions. C'est précisément ce mécanisme qui rend ces systèmes capables d'une forme de créativité authentique, selon lui. Sa prise de position s'inscrit dans un débat plus large sur la trajectoire de l'IA : faut-il poursuivre la voie des modèles génératifs à grande échelle, ou revenir vers des architectures hybrides combinant génération et vérification formelle ?

RecherchePaper
1 source
Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans
88Ars Technica AI 

Un modèle OpenAI résout un problème mathématique célèbre resté sans réponse pendant 80 ans

En mai 2026, OpenAI a annoncé qu'un de ses modèles d'IA internes avait réfuté la conjecture des distances unitaires d'Erdős, un problème de géométrie discrète resté sans solution depuis quatre-vingt ans. La conjecture, formulée par le mathématicien hongrois Paul Erdős, porte sur le nombre maximal de paires de points situés à distance exactement 1 dans un ensemble de points du plan. Avant de rendre le résultat public, OpenAI a accordé un accès anticipé à plusieurs mathématiciens reconnus, qui ont pu examiner et valider la démonstration. Les réactions de la communauté mathématique témoignent de l'importance du résultat. Tim Gowers, médaillé Fields, la plus haute distinction en mathématiques, a qualifié cette résolution de « jalon dans les mathématiques par l'IA ». Daniel Litt, professeur à l'Université de Toronto, a souligné qu'il s'agissait du « premier exemple d'un résultat produit de manière autonome par une IA qu'il trouve passionnant en lui-même, et non comme simple indicateur précoce ». Cette nuance est cruciale : les précédentes démonstrations assistées par IA étaient surtout perçues comme des signaux de progression future, pas comme des contributions mathématiques réelles. Ce résultat intervient dans un contexte où les grands laboratoires d'IA rivalisent pour démontrer des capacités de raisonnement formel avancé. Google DeepMind, OpenAI et d'autres investissent massivement dans des systèmes capables de produire des preuves mathématiques vérifiables. Résoudre un problème ouvert depuis 1946 franchit un seuil symbolique : l'IA ne se contente plus d'assister le mathématicien humain, elle produit des découvertes originales que la communauté scientifique reconnaît comme telles.

UELes mathématiciens et chercheurs européens devront revoir leur rapport à l'IA comme outil de découverte scientifique autonome, sans impact réglementaire ou institutionnel direct pour la France ou l'UE.

RecherchePaper
1 source
Parallax : attention locale linéaire paramétrée avec softmax et correction de covariance apprise
89MarkTechPost 

Parallax : attention locale linéaire paramétrée avec softmax et correction de covariance apprise

Une équipe de chercheurs de Northwestern University, Tilde Research et l'Université de Washington a présenté Parallax, une nouvelle architecture d'attention pour les grands modèles de langage qui cherche à dépasser les limites du mécanisme softmax utilisé sans changement majeur depuis 2017. Contrairement à la plupart des travaux récents qui tentent de remplacer entièrement l'attention softmax, Parallax adopte une stratégie différente : conserver softmax et lui adjoindre une branche de correction apprise. Concrètement, le mécanisme ajoute un terme correctif basé sur la covariance clé-valeur, calculé via une matrice de projection apprise notée WR. Lorsque cette matrice est nulle, Parallax se réduit exactement à de l'attention softmax classique, ce qui signifie qu'un checkpoint existant peut être converti par simple ajout de WR et fine-tuning. L'enjeu principal est d'ordre théorique et pratique à la fois. Théoriquement, Parallax s'appuie sur le cadre de régression locale linéaire (LLA), qui interprète l'attention comme un estimateur statistique : les clés sont des points d'entraînement, les valeurs sont des labels, et la requête est le point de test. L'attention softmax correspond à un estimateur local constant (Nadaraya-Watson) ; LLA l'étend à une estimation linéaire locale, prouvée plus précise en termes d'erreur quadratique moyenne intégrée. Sur le plan matériel, Parallax exploite la structure de FlashAttention en ajoutant une seconde branche de scoring qui réutilise exactement le même flux clé-valeur, sans I/O supplémentaire. Le résultat est un doublement approximatif de l'intensité arithmétique, c'est-à-dire du ratio opérations flottantes sur trafic mémoire, poussant le calcul vers un régime davantage limité par le compute que par la mémoire. C'est précisément dans ce régime que les optimisations de kernels GPU sont les plus efficaces. La présentation inclut un prototype de kernel de décodage en CuTeDSL sur les GPU NVIDIA Hopper, où les instructions matmul opèrent sur des tuiles d'au minimum 64 lignes alors qu'un pas de décodage n'en fournit qu'une seule : Parallax contourne cette contrainte en fusionnant les produits QK et RK dans les mêmes instructions que l'attention standard. Ce travail s'inscrit dans un contexte de recherche très actif autour de l'efficacité des Transformers, où la plupart des alternatives comme Mamba ou Linear Attention sacrifient la qualité pour gagner en vitesse. Parallax parie sur une voie complémentaire : ajouter délibérément du calcul, mais rendre ce calcul moins coûteux à exécuter sur le matériel moderne. Les chercheurs indiquent également une co-conception avec l'optimiseur Muon, ce qui suggère une intégration pensée pour le pré-entraînement à grande échelle plutôt que pour des ajustements marginaux en inférence.

RecherchePaper
1 source
Sous-espaces primitifs et transfert en quelques exemples dans les VLA
90arXiv cs.RO 

Sous-espaces primitifs et transfert en quelques exemples dans les VLA

Une équipe de recherche publiée en mai 2026 sur arXiv (2605.30695) démontre qu'entraîner des politiques VLA (vision-language-action) avec une segmentation explicite en sous-compétences primitives permet un transfert en quelques démonstrations, sans mise à jour des poids du modèle. Les chercheurs ont comparé deux architectures aux biais inductifs distincts, OpenVLA et π₀.₅ (de Physical Intelligence), sur le jeu de données REASSEMBLE, qui couvre des tâches d'assemblage à contact riche, en appliquant un protocole strict : mêmes recettes LoRA, mêmes hyperparamètres, trois seeds d'entraînement indépendantes. Les modèles entraînés avec des épisodes segmentés en primitives annotées par des prompts linguistiques spécifiques atteignent 78 % des performances du modèle fine-tuné complet avec seulement trois démonstrations d'une tâche jamais vue à l'entraînement. Les modèles entraînés sur des trajectoires plates nécessitent dix démonstrations pour atteindre le même niveau, soit un écart de 3× en efficacité d'échantillon, répliqué sur les deux architectures et validé sur un second jeu de données (LIBERO-Long). Ce résultat s'attaque directement au principal frein à l'industrialisation des VLA : aujourd'hui, introduire une nouvelle tâche en production implique un cycle coûteux de collecte de données et de fine-tuning. Réduire ce besoin à trois démonstrations représente un gain opérationnel concret pour les intégrateurs et les équipes de déploiement terrain. La rigueur causale est notable : les auteurs ablate le sous-espace décodable par les primitives dans les états cachés du modèle et mesurent une chute de 32 points de pourcentage sur le transfert few-shot, alors qu'ablater un sous-espace aléatoire de même dimensionnalité n'a aucun effet statistique. Cela établit que les représentations de primitives sont causalement nécessaires, et non simplement corrélées aux bonnes performances, une distinction importante que beaucoup d'études comparatives ne prennent pas la peine de vérifier. Dans le paysage concurrentiel, Physical Intelligence (π₀, π₀.₅) et le projet OpenVLA (Berkeley) sont les deux familles de VLA généralistes les plus actives, avec des approches très différentes sur la question de la généralisation. Ce travail s'inscrit dans la course à résoudre le problème sim-to-real et zero/few-shot, où RT-2 (Google DeepMind), Octo ou encore RoboFlamingo restent des références. Les auteurs signalent également un biais méthodologique systématique dans l'évaluation des politiques à actions groupées (chunked policies) : une inflation par famille des seuils de validation d'actions produit des taux de faux-échecs jusqu'à dix fois supérieurs lorsqu'on compare à des démonstrations humaines réelles, ce qui invalide silencieusement de nombreuses évaluations publiées dans ce sous-domaine.

💬 Trois démos au lieu de dix pour transférer une tâche jamais vue, sans toucher aux poids du modèle. C'est exactement le verrou qui bloquait l'industrialisation des robots généralistes, et là on a enfin des chiffres reproductibles sur deux architectures distinctes. Le bonus : ils prouvent la causalité par ablation, pas juste une corrélation, ce qui est trop rare dans ce domaine pour ne pas le signaler.

RechercheOpinion
1 source
Mélange d'horizons dans le découpage en actions
91arXiv cs.RO 

Mélange d'horizons dans le découpage en actions

Des chercheurs ont publié sur arXiv (réf. 2511.19433v2) une approche baptisée Mixture of Horizons (MoH) qui s'attaque à un verrou technique dans les modèles vision-langage-action (VLA) utilisés pour la manipulation robotique. Le problème identifié est le suivant : la longueur du "chunk d'action" (le nombre de pas d'action prédits en une seule passe, appelé horizon) conditionne fortement les performances, mais aucune valeur fixe n'est optimale. Un horizon long donne une meilleure prévision globale du mouvement mais dégrade la précision fine ; un horizon court améliore le contrôle local mais échoue sur les tâches longues. MoH découpe le chunk d'action en plusieurs segments à horizons différents, les traite en parallèle via un transformeur d'action partagé, et fusionne les sorties avec une porte linéaire légère. Appliqué aux politiques pi-0, pi-0.5 (Physical Intelligence) et pi-reg, MoH atteint 99 % de taux de succès moyen sur le benchmark LIBERO en seulement 30 000 itérations d'entraînement, un nouveau state-of-the-art. Le mode d'inférence dynamique, qui sélectionne les actions stables par consensus inter-horizons, délivre un débit 2,5 fois supérieur aux baselines. L'intérêt principal de MoH est sa nature plug-and-play : il s'intègre sans modification architecturale majeure dans tout module d'action à attention complète, avec un surcoût d'entraînement et d'inférence minimal. Pour les équipes qui déploient des VLA en manipulation industrielle ou sur des plateformes humanoïdes, cela signifie qu'elles peuvent améliorer significativement la robustesse sur des tâches mixtes (gestes fins + séquences longues) sans changer leur infrastructure. Le gain de débit est particulièrement pertinent pour le temps réel embarqué, où la latence de prédiction est un facteur limitant concret. Ce travail s'inscrit dans l'essor des VLA issus des travaux de Physical Intelligence (pi-0, sorti fin 2024) et d'OpenVLA, qui ont démontré que le préentraînement multimodal peut accélérer la généralisation en manipulation. Le benchmark LIBERO, issu de recherches en imitation learning, sert de référence standard pour évaluer la transfer et la composition de tâches. Les concurrents directs dans l'espace VLA incluent RoboVLMs de Google DeepMind, OpenVLA-OFT, et les travaux de Carnegie Mellon sur ACT/Diffusion Policy. MoH reste à ce stade une contribution de recherche académique, sans déploiement industriel annoncé, mais sa compatibilité plug-and-play le rend directement utilisable par les équipes qui entraînent déjà sur pi-0 ou des architectures dérivées.

💬 Le problème de l'horizon d'action, c'est un classique en robotique, et personne n'avait vraiment trouvé de sortie propre avant ça. MoH répond avec la bonne idée au bon moment : plusieurs horizons en parallèle, une porte de fusion légère, et tu gardes toute ton infra existante. 99 % sur LIBERO, 2,5x de débit, plug-and-play sur pi-0, bon, sur le papier c'est difficile de trouver à redire.

RechercheOpinion
1 source
TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus
92arXiv cs.RO 

TARIC : VLN extérieur à mémoire augmentée et traversabilité adaptative sous indices sémantiques discontinus

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.31121) TARIC, un cadre de navigation extérieure vision-langage (VLN) conçu pour résister aux interruptions d'indices sémantiques sur des trajets longue distance. Le problème ciblé est précis : lorsqu'un robot navigue en milieu ouvert sur des routes de 600 à 1 000 mètres, les repères visuels guidant sa trajectoire (panneaux, objets, structures reconnaissables) disparaissent régulièrement du champ de vision, créant des phases sans indice pendant lesquelles les systèmes actuels dérivent, oscillent ou font demi-tour. TARIC répond avec trois mécanismes intégrés : extraction d'orientations sémantiques depuis des indices de but filtrés par visibilité, ancrage de ces orientations dans un profil de traversabilité en temps réel pour générer des caps exécutables (et non plus de simples filtres de sécurité), et mémorisation des indices 2D dans une carte 3D alignée sur le monde avec un mécanisme de lecture tenant compte de l'incertitude. Évalué sur des plateformes quadrupèdes et sur roues, le système atteint 40 % de taux de succès en conditions réelles contre 17,5 % pour la meilleure baseline existante, et améliore de plus de 10 points de pourcentage le taux en simulation. Ce résultat terrain est significatif dans un domaine où le fossé entre simulation et déploiement reste l'obstacle majeur. La plupart des frameworks VLN extérieurs publiés présentent des performances en simulation qui ne se transposent pas au terrain ; TARIC maintient un gain relatif de 2,3× sur le meilleur concurrent en conditions réelles, ce qui suggère que traiter la traversabilité comme une contrainte de guidance active (et non un simple filtre) réduit effectivement le sim-to-real gap. Pour les intégrateurs de robots d'inspection ou de surveillance sur campus ou sites industriels, cela signifie une navigation autonome longue distance plus robuste sans infrastructure de balises denses. La contribution architecturale clé, transformer des indices 2D éphémères en mémoire 3D avec readout incertain, ouvre aussi une piste concrète pour les AMR opérant dans des environnements semi-structurés. La navigation vision-langage en extérieur est un champ actif depuis les travaux sur VLN-BERT et les méthodes fondées sur CLIP, mais la majorité des approches ont été conçues pour des intérieurs structurés ou des parcours courts. L'extension aux environnements ouverts sur plus de 600 mètres positionne directement TARIC face à des acteurs comme Boston Dynamics (Spot), Unitree et ANYbotics, dont les quadrupèdes déployés en inspection longue distance dépendent encore largement de waypoints prédéfinis ou de cartes SLAM. TARIC, issu d'un preprint non encore soumis à peer review, reste à ce stade une preuve de concept académique : les prochaines étapes naturelles incluent une validation sur des flottes multi-robots, une intégration avec des stacks open-source comme Nav2, et des tests en conditions météorologiques dégradées, non couverts par l'article.

RecherchePaper
1 source
ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play
93arXiv cs.RO 

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

ELAN4D est un cadre d'entraînement pour modèles Vision-Language-Action (VLA) publié en preprint arXiv en mai 2026, conçu pour améliorer la robustesse aux perturbations hors-distribution. Le problème central: les VLA actuels comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) réagissent directement aux observations sans modéliser les dynamiques futures, ce qui dégrade leurs performances dès que les conditions changent. ELAN4D injecte une supervision 4D basée sur l'embodiment: à partir des seuls états proprioceptifs du robot, il calcule des trajectoires 3D de points clés (articulations, effecteur terminal) via cinématique directe, sans tracker externe ni reconstruction. Un décodeur léger est ajouté pendant l'entraînement puis retiré à l'inférence, laissant l'interface du modèle de base inchangée. Sur les benchmarks LIBERO, LIBERO-Plus, RoboTwin2.0 et sur des tâches en conditions réelles, ELAN4D surpasse les baselines VLA avec des gains substantiels sous perturbations de caméra, d'arrière-plan et de disposition d'objets. L'atout principal est pragmatique: améliorer un VLA existant sans reconstruction 3D coûteuse ni modification du backbone vision-langage pré-entraîné (les gradients sont isolés pour le préserver), et sans overhead à l'inférence. Ce mode plug-and-play permet d'appliquer l'approche à des modèles existants sans repartir d'une architecture neuve, un avantage direct pour les équipes R&D et les intégrateurs. Le gap de généralisation hors-distribution est l'un des freins majeurs à l'industrialisation des politiques de manipulation, et les gains annoncés sur benchmarks sont potentiellement significatifs si confirmés en déploiement réel. Il convient cependant de tempérer: les résultats sont établis en conditions de laboratoire, sans validation à grande échelle en production. La dynamique de recherche sur les VLA robustes s'est intensifiée depuis pi-0 (Physical Intelligence, octobre 2024) et la popularisation des architectures diffusion policy et action chunking transformer, avec plusieurs équipes explorant des approches concurrentes basées sur les world models vidéo ou la reconstruction 3D. ELAN4D est une contribution purement académique: le preprint ne mentionne ni partenaire industriel ni déploiement en cours. La prochaine étape naturelle serait une validation sur des plateformes humanoïdes ou multi-bras en environnement industriel réel, sans qu'aucune timeline ne soit annoncée.

RechercheOpinion
1 source
Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire
94arXiv cs.RO 

Notes à soi-même : VLA augmentées d'un bloc-notes pour les tâches de manipulation à mémoire

Une équipe de chercheurs a publié début 2026 sur arXiv (réf. 2602.21013, version révisée) une approche augmentant les modèles VLA (Vision-Language-Action) d'un module de mémorisation textuelle appelé "scratchpad", littéralement un bloc-notes interne. Le principe : pendant l'exécution d'une tâche, le modèle peut écrire des notes intermédiaires en langage naturel, notamment les positions d'objets détectées, l'état d'avancement du plan et les sous-objectifs restants à accomplir. Les auteurs ont évalué cette méthode sur deux benchmarks spécialisés, ClevrSkills et MemoryBench, ainsi que sur une tâche réelle de pick-and-place. Résultat annoncé : le scratchpad améliore significativement la généralisation sur ces tâches, aussi bien pour les architectures récurrentes que non récurrentes. La problématique adressée est structurelle. La majorité des VLA actuels opèrent de façon "sans état" (stateless) : ils traitent chaque instant de décision de manière indépendante, sans mémoire explicite des étapes précédentes. Or de nombreuses tâches de manipulation dextère sont non-markoviennes par nature, ce qui signifie que la décision optimale à l'instant t dépend de ce qui s'est passé avant t. Ce travail défend qu'un mécanisme aussi simple qu'un bloc-notes textuel suffit à combler une partie de ce gap, sans modifier l'architecture fondamentale du modèle. Pour les équipes R&D développant des solutions sur longue séquence (assemblage multi-étapes, tri conditionnel, manipulation avec gestion d'état), c'est une piste légère compatible avec les VLA open-source existants, à condition que les résultats sur ClevrSkills et MemoryBench se confirment dans des environnements industriels réels plus bruités. Les VLA ont connu une accélération majeure depuis 2023 avec RT-2 de Google DeepMind, OpenVLA de UC Berkeley, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, tous construits sur le principe de la compréhension sémantique à grande échelle transférée au geste robotique. La limite "sans mémoire" était connue des praticiens mais peu formalisée dans la littérature récente. Ce travail s'inscrit dans une tendance visant à doter les VLA de capacités de raisonnement à long horizon, en parallèle d'autres approches comme les architectures récurrentes ou les planificateurs hybrides symbolique-neuraux. Il s'agit d'un preprint académique sans déploiement ni partenariat industriel annoncé, et les benchmarks utilisés (ClevrSkills, MemoryBench) restent des environnements relativement contrôlés dont la transférabilité au terrain est encore à démontrer.

RechercheOpinion
1 source
Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA
95arXiv cs.RO 

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA

Une équipe de chercheurs propose Hide-and-Seek (arXiv 2605.30834), un cadre de surveillance en temps réel des modèles VLA (Vision-Language-Action). Ces modèles permettent aux robots d'exécuter des instructions en langage naturel sur des tâches variées, mais ils restent sujets à des défaillances en cours d'exécution difficiles à intercepter. Hide-and-Seek reformule la détection de ces échecs comme un problème d'apprentissage supervisé à granularité grossière : en combinant des objectifs contrastifs inter-trajectoires et intra-trajectoires, il localise les actions responsables d'un échec à partir de labels de trajectoire uniquement, sans annotation pas-à-pas. La méthode a été évaluée sur les benchmarks LIBERO et VLABench ainsi que sur une plateforme robotique réelle, avec trois politiques VLA représentatives : OpenVLA, π₀ et π₀.₅ de Physical Intelligence. Pour les intégrateurs de robots pilotés par VLA, la détection fiable des défaillances en exécution est un prérequis non résolu pour tout déploiement industriel. Les approches existantes ont deux limitations majeures : le rééchantillonnage des actions est trop coûteux en calcul pour la production, et la propagation uniforme de labels de trajectoire à chaque pas de temps efface les signaux d'échec localisés dans le temps. Hide-and-Seek contourne cela en induisant des signaux temporellement structurés sans annotation fine, réduisant le coût d'étiquetage des données d'entraînement. Sous prédiction conforme (conformal prediction, qui offre des garanties statistiques sur le taux de faux positifs), la méthode atteint l'état de l'art en détection multi-tâche avec un compromis praticable entre précision et réactivité, et généralise à des tâches non vues à l'entraînement. Ce travail s'inscrit dans la montée en puissance des VLA depuis 2023-2024, portée par OpenVLA (UC Berkeley), la famille π₀/π₀.₅ de Physical Intelligence et RT-2 de Google DeepMind, et dans la question plus large du "demo-to-deployment gap". À mesure que ces modèles migrent des labos vers les lignes de production, un mécanisme de monitoring devient aussi critique que le modèle lui-même. Les benchmarks académiques utilisés facilitent les comparaisons avec les travaux concurrents, mais ne préjugent pas des performances en environnement industriel réel. La prochaine étape logique est l'intégration de Hide-and-Seek comme couche de supervision dans des pipelines de manipulation ou de déploiement humanoïde, où un échec non détecté peut engendrer des dommages matériels ou des arrêts de ligne coûteux.

RechercheOpinion
1 source
Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web
96The Decoder 

Les agents de recherche IA ont tendance à confirmer leurs connaissances existantes plutôt qu'à explorer le web

Les principaux agents de recherche IA, dont GPT-5.4 d'OpenAI et Kimi K2.6 de Moonshot AI, n'effectuent pas autant de recherches web réelles qu'ils le laissent entendre. C'est la conclusion d'une étude menée par des chercheurs de l'Institut de technologie de Harbin, qui ont développé un nouveau benchmark temporel appelé LiveBrowseComp. Ce test se distingue des évaluations classiques en ne posant des questions que sur des événements survenus au cours des 90 derniers jours, soit une fenêtre temporelle postérieure aux données d'entraînement des modèles. Les résultats sont révélateurs : dès que les modèles ne peuvent plus s'appuyer sur leur mémoire d'entraînement, leurs performances s'effondrent et les classements habituels sont bouleversés. Cela signifie que ces agents, présentés comme de puissants outils de recherche en ligne, se contentent en réalité d'utiliser le web pour confirmer ce qu'ils savent déjà, plutôt que de véritablement explorer et synthétiser des informations récentes. Pour les entreprises et professionnels qui s'y fient pour une veille ou une analyse d'actualité, c'est une limitation critique. Ce constat intervient alors que les éditeurs d'IA rivalisent pour positionner leurs modèles comme des assistants de recherche autonomes capables de naviguer sur internet. Les benchmarks traditionnels, construits sur des données historiques, masquaient cette faiblesse structurelle. LiveBrowseComp introduit une contrainte temporelle qui force une évaluation plus honnête des capacités réelles de navigation web. L'enjeu est de taille : si les classements sont rebattus sur cette base, la confiance accordée aux agents IA pour des tâches de recherche actuelle devra être sérieusement réévaluée.

UELes entreprises et professionnels européens qui s'appuient sur ces agents pour de la veille ou de l'analyse d'actualité doivent réévaluer leur fiabilité pour tout contenu postérieur aux données d'entraînement.

💬 C'est prouvé maintenant : ces agents ne cherchent pas vraiment, ils confirment ce qu'ils savent. Le benchmark de Harbin est malin, poser uniquement des questions sur les 90 derniers jours c'est une façon élégante de court-circuiter la mémoire d'entraînement, et du coup les classements habituels volent en éclats. Si tu t'appuies là-dessus pour une vraie veille, je te laisse tirer les conclusions.

RecherchePaper
1 source
Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x
97MarkTechPost 

Trajectory publie une pile d'entraînement Multi-LoRA concurrent pour l'apprentissage continu, avec un gain de débit de 2,81x

Trajectory, en collaboration avec le UC Berkeley Sky Lab et Anyscale, a publié un rapport technique détaillant une nouvelle infrastructure d'entraînement baptisée C-LoRA (Continuous Multi-LoRA Training), dont le code est entièrement disponible dans le dépôt GitHub NovaSky-AI/SkyRL. Le système permet de faire tourner plusieurs expériences d'entraînement en parallèle sur un même moteur d'inférence, chaque expérience disposant de son propre adaptateur LoRA dédié. Les résultats annoncés sont significatifs : un gain de débit expérimental de 2,81x par rapport à un framework d'entraînement classique à locataire unique, sans régression observée sur les récompenses d'entraînement. Les tests ont été conduits sur un nœud H200 unique avec le modèle Qwen3-4B-Instruct-2507, appliqué à des tâches d'apprentissage par renforcement sur GSM8K reformulées en usage d'outils. Ce gain de performance cible un problème structurel de l'industrie : la quasi-totalité des infrastructures d'entraînement actuelles repose encore sur un cycle linéaire, collecte de données, entraînement, déploiement, qui prend des mois et produit des sauts discontinus de comportement pour les utilisateurs. C-LoRA vise à remplacer ce cycle par un apprentissage continu nourri des interactions de production en temps réel. L'architecture s'attaque concrètement à quatre inefficacités identifiées : les démarrages à froid coûteux (pouvant dépasser 30 minutes pour les grands modèles), la consommation mémoire excessive de l'apprentissage par renforcement sur des modèles de plus de 100 milliards de paramètres comme Qwen3.5-397B (qui peut nécessiter jusqu'à huit nœuds H200), la limitation à une seule expérience à la fois des stacks traditionnels, et la faible utilisation des GPU due aux temps d'attente mutuels entre le module d'entraînement et le moteur d'inférence. L'intérêt plus large de ce travail s'inscrit dans une tendance de fond : rendre les modèles de langage capables d'apprendre en continu à partir de corrections humaines, de patterns observés en production, ou de retours d'opérateurs, sans nécessiter un cycle de réentraînement complet. La technique LoRA, qui gèle les poids du modèle de base et n'entraîne que de petits adaptateurs, réduit la consommation mémoire d'un ordre de grandeur tout en permettant la coexistence de plusieurs expériences simultanées. Côté inférence, le noyau SGMV de vLLM fusionne les opérations par adaptateur en un seul lancement GPU par étape de décodage, ce qui permet de mixer des tokens issus d'adaptateurs différents dans un même batch. Côté entraînement, la concurrence reste encore limitée à un adaptateur actif à la fois, les autres résidant en mémoire CPU, une limitation que Trajectory reconnaît et qui constitue la prochaine frontière technique pour l'équipe.

💬 2,81x de débit en plus sur un nœud H200, c'est pas rien. Ce qui m'intéresse surtout, c'est pas le chiffre, c'est l'architecture : faire tourner plusieurs expériences LoRA en parallèle sur le même moteur d'inférence, ça s'attaque enfin au vrai problème, ce cycle collect-train-deploy qui prend des mois et rend les mises à jour du modèle quasi invisibles pour les utilisateurs. Bon, sur le papier, parce que l'entraînement reste limité à un seul adaptateur actif à la fois pour l'instant, ce qui relativise un peu le "continu" dans le nom.

RecherchePaper
1 source
Rendre les chatbots IA plus utiles nuit à leur capacité à simuler le comportement humain, selon une étude à grande échelle
98The Decoder 

Rendre les chatbots IA plus utiles nuit à leur capacité à simuler le comportement humain, selon une étude à grande échelle

Une étude de grande envergure portant sur 208 000 participants et 26 millions de réponses révèle un paradoxe fondamental dans le développement des assistants conversationnels : l'entraînement qui rend les modèles de langage utiles et agréables à utiliser dégrade simultanément leur capacité à reproduire fidèlement les comportements humains. Plus un modèle est optimisé pour être serviable, poli et aligné sur les attentes des utilisateurs, moins il parvient à simuler la diversité réelle des réponses humaines. L'effet s'aggrave à chaque nouvelle génération de modèles. Ce résultat a des conséquences directes pour les chercheurs en sciences sociales, économistes et psychologues qui utilisent de plus en plus les LLM comme substituts aux sondages humains classiques, jugés coûteux et lents. Si ces modèles ne peuvent pas reproduire de manière fiable les comportements individuels, leur valeur comme outils de simulation sociale est sérieusement remise en question. La technique populaire consistant à fournir aux modèles des profils démographiques détaillés, souvent appelée "persona prompting", n'apporte pratiquement aucun gain de précision au niveau individuel. Ce constat s'inscrit dans un débat plus large sur la nature de l'alignement des LLM : en optimisant pour la satisfaction de l'utilisateur via le renforcement humain (RLHF), les entreprises comme OpenAI, Anthropic ou Google créent des modèles qui s'homogénéisent vers un comportement "acceptable" au détriment de la variabilité humaine. Les chercheurs appellent à distinguer clairement les cas d'usage où l'alignement est souhaitable de ceux où la fidélité comportementale est requise.

UELes chercheurs européens en sciences sociales, économie et psychologie doivent revoir leur méthodologie : les LLM alignés ne peuvent pas remplacer fiablement des participants humains dans les études comportementales à l'échelle individuelle.

💬 Résultat presque évident une fois qu'on le lit, sauf que personne ne l'avait mesuré à cette échelle : plus tu rends un LLM utile et poli, moins il ressemble à un humain réel. 208 000 participants, 26 millions de réponses, c'est difficile à contester. Les chercheurs en sciences sociales qui remplaçaient leurs sondages par des LLM vont devoir revoir leurs copies, et pas qu'un peu.

RecherchePaper
1 source
MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%
99VentureBeat AI 

MeMo permet aux équipes de changer de LLM sans réentraînement, avec des gains de performance de 26%

Des chercheurs issus de plusieurs universités ont publié MeMo (Memory as a Model), un cadre modulaire qui résout l'un des problèmes les plus persistants de l'IA en entreprise : mettre à jour les connaissances d'un grand modèle de langage sans le réentraîner. L'architecture repose sur deux composants distincts : un petit modèle dédié à la mémorisation, appelé MEMORY, qui encode les nouvelles informations dans ses propres paramètres ; et un LLM principal, appelé EXECUTIVE, qui reste figé et joue le rôle de moteur de raisonnement. Lorsqu'un utilisateur pose une question, le modèle EXECUTIVE interroge le modèle MEMORY comme un oracle externe, collecte les faits pertinents, puis synthétise une réponse finale. Le système s'appuie sur des paires questions-réponses générées automatiquement à partir des documents sources, ce que les auteurs appellent des "reflections", pour entraîner le modèle MEMORY à répondre sans avoir à récupérer de contexte extérieur. Les expériences montrent une amélioration des performances allant jusqu'à 26 % par rapport aux approches existantes. L'enjeu est considérable pour les entreprises qui déploient des LLMs en production. Les trois méthodes actuellement utilisées, RAG, fine-tuning et compression de contexte, présentent chacune des limites critiques. Le RAG, pourtant très répandu, souffre de la fragilité des bases vectorielles : comme l'explique Armando Solar-Lezama, co-auteur de l'article, encoder la pleine sémantique d'un texte dans un seul vecteur est une tâche fondamentalement difficile, et les passages mal récupérés dégradent directement la qualité des réponses. Le fine-tuning, lui, est prohibitif pour les grands modèles propriétaires et provoque souvent un "oubli catastrophique", le modèle perd ses capacités de raisonnement ou ses garde-fous de sécurité en assimilant de nouvelles données. MeMo contourne ces deux écueils : la mémoire est portée par un modèle léger et interchangeable, sans toucher aux poids du modèle principal. La portée de MeMo tient aussi à sa compatibilité universelle. Contrairement aux méthodes de compression latente qui lient la mémoire compressée à une architecture spécifique, MeMo fonctionne indifféremment avec des modèles open-source et des modèles propriétaires accessibles uniquement via API. Cela ouvre la voie à un scénario inédit en entreprise : changer de LLM principal, passer de GPT-4 à Claude ou à un modèle open-source, sans perdre la base de connaissances accumulée, ni engager un nouveau cycle de réentraînement coûteux. Dans un secteur où la compétition entre fournisseurs de modèles s'intensifie et où les cycles de mise à jour s'accélèrent, cette portabilité de la mémoire pourrait devenir un avantage stratégique déterminant pour les équipes techniques.

UELes entreprises européennes déployant des LLMs en production pourraient réduire leurs coûts de migration lors de changements de fournisseur de modèles, sans cycle de réentraînement.

💬 Le problème du RAG, on le connaît depuis longtemps : les vecteurs sont fragiles, et un passage mal récupéré, c'est une réponse ratée. MeMo prend le problème à l'envers en séparant la mémoire du raisonnement, et ça change beaucoup de choses sur le papier, surtout l'idée qu'on pourrait switcher de modèle sans repartir de zéro sur la base de connaissances. Reste à voir si les 26% de gains tiennent sur des données métier réelles.

RecherchePaper
1 source
mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU
100MarkTechPost 

mKernel : une bibliothèque de noyaux fusionnés multi-GPU et multi-nœuds pour les communications pilotées par GPU

Des chercheurs de l'Université de Californie à Berkeley, dans le cadre du projet UCCL, ont publié mKernel, une bibliothèque de noyaux CUDA persistants conçue pour fusionner les communications inter-GPU et le calcul en un seul et même noyau. Le problème qu'ils adressent est chiffré avec précision : dans les charges de travail d'IA en production, les communications peuvent absorber jusqu'à 43,6 % du temps de passe avant (forward pass) et 32 % du temps d'entraînement de bout en bout. Sur les modèles Mixture-of-Experts (MoE), cette proportion grimpe à 47 % du temps d'exécution total. mKernel propose cinq noyaux fusionnés couvrant les opérations les plus courantes : AllGather + GEMM, GEMM + AllReduce, dispatch MoE + GEMM, Ring Attention et GEMM + ReduceScatter. Chaque noyau fusionne simultanément les communications NVLink intra-nœud, le RDMA inter-nœud et le calcul dense, le tout orchestré directement par le GPU sans passer par le processeur central. Le gain fondamental de cette approche réside dans l'élimination du goulet d'étranglement lié au pilotage par le CPU. Dans le modèle classique, le processeur central contrôle les flux d'exécution et appelle des bibliothèques comme NCCL ou NVSHMEM pour déclencher les opérations collectives. Or, à l'échelle des infrastructures modernes, un rack GB300 NVL72 intègre 72 GPU Blackwell Ultra, livrant 720 PFLOPS en FP8 et 130 To/s de bande passante NVLink, les latences microsecondes introduites par chaque appel CPU créent des bulles visibles dans le pipeline. mKernel supprime ce niveau d'indirection : le GPU lui-même initie les transferts RDMA via libibverbs, sans dépendance à NCCL ou NVSHMEM. À l'intérieur du noyau, les blocs de threads (CTAs) se spécialisent automatiquement en rôles distincts, calcul, communication intra-nœud, envoi et réduction inter-nœud, avec un nombre de SMs alloués à chaque rôle ajustable selon la forme des tenseurs. Ce travail s'inscrit dans une tendance de fond qui voit la communauté de recherche en systèmes distribués chercher à repousser les limites du parallélisme à très grande échelle. Les architectures MoE, popularisées notamment par les modèles de DeepSeek et Mixtral, amplifient les besoins de communication car chaque token doit être routé dynamiquement vers des experts potentiellement situés sur des nœuds différents. Les bibliothèques existantes comme Flux ou DeepEP avaient déjà exploré la fusion de noyaux, mais restaient généralement confinées à un seul nœud ou un seul GPU. mKernel, évalué sur deux clusters de 2 nœuds à 8 GPU H200 chacun, étend ce paradigme au cas multi-nœud, ouvrant la voie à des entraînements et inférences distribués où la communication cesse d'être un frein structurel à la scalabilité.

UELes laboratoires et entreprises européens entraînant des modèles distribués à grande échelle (notamment MoE) pourraient bénéficier indirectement de cette bibliothèque open-source pour réduire leur overhead de communication inter-GPU.

RecherchePaper
1 source