Aller au contenu principal

Dossier Google DeepMind — page 7

714 articles · page 7 sur 15

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances
301arXiv cs.RO RobotiqueOpinion

AffordanceVLA : un modèle VLA qui améliore la génération d'actions grâce à la compréhension des affordances

Des chercheurs ont publié le 6 juin 2026 sur arXiv (réf. 2606.06155) un nouveau framework baptisé AffordanceVLA, conçu pour améliorer la manipulation robotique pilotée par des modèles vision-langage-action (VLA). Le coeur du système repose sur l'introduction de l'affordance comme représentation intermédiaire structurée entre la compréhension sémantique et la génération de commandes motrices. Concrètement, trois modules complémentaires décomposent la tâche : Which2Act identifie l'objet pertinent via une prédiction dans l'espace latent visuel pour filtrer les distracteurs ; Where2Act localise en 2D le point d'interaction via une carte d'affordance estimée ; How2Act raisonne en 3D sur la géométrie de la scène pour guider la politique de manipulation. Ces modules sont intégrés dans une architecture Mixture-of-Transformer (MoT) avec des experts spécialisés, entraînée selon un curriculum progressif en trois étapes. Pour pallier le manque de labels d'affordance denses dans les jeux de données robotiques existants, les auteurs ont développé un pipeline automatisé d'augmentation de données. Les résultats sont validés sur bancs de simulation et en conditions réelles, sans que les métriques quantitatives précises soient encore publiées à ce stade de preprint. Le problème que cible AffordanceVLA est bien documenté dans la communauté VLA : les modèles vision-langage préentraînés encodent une sémantique riche mais abstraite, structurellement incompatible avec les espaces de contrôle moteur continu. Combler ce fossé directement, sans représentation intermédiaire, produit des politiques fragiles face aux variations de scène. L'approche par affordance offre une solution élégante car elle reste géométriquement ancrée tout en restant conditionnée sémantiquement, ce qui facilite la généralisation sim-to-real. Pour les intégrateurs qui déploient des bras manipulateurs en environnement non structuré, ce type de robustesse perceptuelle est un critère clé souvent sacrifié dans les démos labo. Le paysage des VLA pour la manipulation est désormais très concurrentiel : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA issu de Stanford et Berkeley, ou encore RT-2 de Google DeepMind incarnent différentes approches du même défi. AffordanceVLA se distingue en positionnant explicitement l'affordance comme pont structurel, une direction également explorée par des travaux comme RoboAfford ou UniPI. Ce preprint reste une contribution de recherche, pas un produit commercialisé ; aucun déploiement industriel ni partenariat n'est annoncé. Les prochaines étapes naturelles seront une évaluation sur benchmarks standardisés comme LIBERO ou RLBench, et une confrontation aux modèles de référence avec métriques comparatives publiées.

1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
302arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

RechercheOpinion
1 source
Mecka AI obtient 60 millions de dollars pour développer ses robots IA
303Le Big Data 

Mecka AI obtient 60 millions de dollars pour développer ses robots IA

La startup new-yorkaise Mecka AI a annoncé le 1er juin 2026 une levée de fonds totale de 60 millions de dollars pour accélérer le développement de son infrastructure de données destinée à la robotique intelligente. Ce financement se décompose en deux tours menés par Framework Ventures : une série A de 25 millions de dollars bouclée en novembre 2025, suivie d'un second tour de 35 millions. Parmi les autres investisseurs figurent Menlo Ventures, SV Angel, Kindred Ventures et Ted Xiao, ancien chercheur chez Google DeepMind. La société affirme déjà avoir sécurisé des contrats lui permettant de viser 100 millions de dollars de revenus annuels. Fondée par Josh Gao et Mogen Cheng, qui n'ont aucun passé dans les grands laboratoires d'IA mais viennent de la fintech et de la crypto, Mecka AI développe des dispositifs propriétaires combinant capteurs corporels et iPhone pour enregistrer à grande échelle les gestes, déplacements et interactions physiques des humains. L'enjeu central est de résoudre un problème fondamental de la robotique moderne : le manque de données dites "incarnées". Contrairement à l'IA générative, qui s'entraîne sur du texte, des images ou de l'audio, un robot qui doit agir dans le monde physique a besoin de comprendre comment un corps humain coordonne ses mouvements. Mecka AI transforme ces comportements en données d'entraînement structurées, offrant aux modèles robotiques une base plus naturelle et plus riche que la téléopération classique, où un humain pilote directement le robot pour générer des exemples d'apprentissage. Cette approche pourrait accélérer le développement de robots polyvalents capables d'opérer dans des environnements non contrôlés, de l'entrepôt logistique au domicile. Le financement de Mecka AI s'inscrit dans un repositionnement plus large du capital-risque technologique. Après des années d'investissements massifs dans les grands modèles de langage, une fraction croissante du capital se déplace vers l'IA physique, ce segment qui cherche à connecter les capacités algorithmiques à des actions concrètes dans le monde réel. Wayve, de son côté, entraîne ses systèmes de conduite autonome sur des flux vidéo embarqués, tandis que MicroAGI collecte des données dans des foyers américains pour sa robotique domestique. Mecka AI ambitionne d'industrialiser cette collecte à travers des verticales multiples et d'en faire une couche d'infrastructure partagée pour l'ensemble de l'écosystème robotique. L'originalité du profil de ses fondateurs, venus de la fintech plutôt que de la recherche académique, suggère une approche davantage orientée vers la scalabilité commerciale que vers la publication scientifique.

RobotiqueOpinion
1 source
PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique
304arXiv cs.RO 

PLanAR : raisonnement à base d'agents ancré dans la planification et le langage pour la manipulation robotique

Des chercheurs ont présenté PLanAR (Planning-Language-Grounded Agentic Reasoning), un framework agent pour la manipulation robotique long-horizon en environnements ouverts, publié sous forme de préprint arXiv (2602.01662v4). Le système utilise des modèles vision-langage (VLMs) comme moteur de raisonnement, mais les contraint via une interface de planification symbolique structurée en trois composants : des prédicats d'objets encodant l'état de la scène, des schémas d'action définissant les compétences du robot avec leurs préconditions et effets attendus, et des plans symboliques servant de représentations intermédiaires exécutables. Après chaque action, PLanAR vérifie si les effets symboliques attendus ont été atteints via les observations embarquées, ce qui lui permet de détecter les échecs et de replanifier en cas de déviation. Les évaluations couvrent plusieurs morphologies de robots et backends VLM sur des tâches allant de l'empilement d'objets à la résolution de mots croisés, en passant par des séquences cuisine long-horizon. La manipulation long-horizon reste un défi majeur de la robotique incarnée : les architectures VLA (Vision-Language-Action) pures, comme Pi-0 (Physical Intelligence) ou OpenVLA, échouent souvent lorsque les séquences s'allongent et que les conditions d'exécution changent. PLanAR adresse ce problème en introduisant une boucle de vérification étape par étape qui sépare explicitement raisonnement et exécution, une propriété absente des approches end-to-end. Cette architecture hybride neurosymbolique est directement pertinente pour les intégrateurs industriels travaillant en environnements non contrôlés, car elle permet au robot de détecter et corriger ses propres erreurs sans intervention humaine. Les auteurs reconnaissent eux-mêmes que PLanAR révèle des limitations importantes dans le raisonnement incarné des VLMs actuels, une posture analytique rare dans la littérature récente. PLanAR s'inscrit dans une longue tradition d'approches TAMP (Task and Motion Planning) cherchant à combiner planification symbolique et exécution motrice, aux côtés de SayCan (Google DeepMind, 2022), Code as Policies (2023) et GR00T N2 (NVIDIA, 2025) qui intègre également un module de raisonnement symbolique. La distinction clé réside dans l'interface de planification formelle imposée au VLM, qui réduit l'espace de recherche au prix d'une expressivité moindre. Le preprint ne mentionne ni partenariat industriel ni timeline de déploiement, et les expériences restent en laboratoire : le passage à l'échelle en conditions réelles demeure la question ouverte centrale pour valider l'approche au-delà du benchmark académique.

RobotiqueOpinion
1 source
WALL-WM : modélisation des actions du monde aux points d'articulation d'événements
305arXiv cs.RO 

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.01955) les travaux portant sur WALL-WM, un World Action Model (WAM) qui propose de repenser la manière dont les modèles Vision-Language-Action (VLA) sont entraînés pour la robotique généraliste. Là où les approches dominantes, comme celles exploitées par Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2), optimisent des "chunks" d'actions à longueur fixe conditionnés sur l'observation courante, WALL-WM substitue à cette unité temporelle arbitraire l'événement sémantique : une séquence d'actions cohérente du point de vue du sens (attraper un objet, ouvrir un tiroir), extraite automatiquement par des légendes au niveau événementiel et un échantillonnage cluster-balancé. Le modèle expose deux modes d'inférence : un mode "event" qui consomme des descriptions de l'événement suivant et produit des chunks à longueur variable, et un mode "unified" qui applique un mécanisme baptisé Staircase Decoding pour conserver une inférence à longueur fixe tout en maintenant un chemin VLA à gradient continu. Le tout est entraîné à grande échelle via l'optimiseur Muon, et les auteurs revendiquent des performances état de l'art sur une évaluation de généralisation en monde réel à large échelle, sans préciser les benchmarks ni les données de déploiement. L'intérêt de l'approche réside dans le diagnostic qu'elle formule : le désalignement de granularité entre langage (objectifs sémantiques), vision (dynamique de scène continue) et actions (timescales de contrôle) transforme l'entraînement VLA classique en simple fitting de corrélations à court horizon, ce qui explique les difficultés de généralisation observées hors distribution. En traitant l'événement comme unité atomique d'apprentissage, WALL-WM offre une piste sérieuse pour réduire le sim-to-real gap et améliorer le transfer sur des tâches et des scènes non vues, deux verrous majeurs qui bloquent le passage à l'échelle industrielle des robots manipulateurs. Il convient cependant de rester prudent : il s'agit d'un preprint sans revue par les pairs, sans données de déploiement terrain, et sans détail sur les benchmarks précis utilisés pour établir la supériorité annoncée. WALL-WM s'inscrit dans une vague de recherche sur les WAMs qui a pris de l'ampleur depuis 2024, portée notamment par Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2 et ses successeurs, et NVIDIA avec GR00T N2 pour les humanoïdes. Ces modèles partagent l'ambition de pré-entraîner des politiques robotiques générales sur des données hétérogènes avant de les affiner par tâche. La contribution de WALL-WM est théoriquement propre et l'infrastructure Muon suggère un effort de calcul significatif, mais l'absence de résultats quantitatifs détaillés dans le résumé limite l'évaluation externe. Les prochaines étapes attendues sont une publication complète avec benchmarks reproduisibles (LIBERO, OpenVLA-OFT, RoboMimic) et, idéalement, des partenariats industriels pour validation en environnement de production.

RobotiqueOpinion
1 source
Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks
306MarkTechPost 

Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks

La synthèse vocale par intelligence artificielle a connu une accélération spectaculaire en 2026, au point que la frontière entre voix humaine et voix synthétique est devenue difficile à percevoir. Les deux références de l'industrie pour comparer ces modèles sont le classement Artificial Analysis Speech Arena, qui attribue un score ELO basé sur les préférences humaines en aveugle, et le TTS Arena de Hugging Face, qui fonctionne sur le même principe de vote A/B. Au 30 mai 2026, le top 5 de l'Artificial Analysis Speech Arena est occupé par Gemini 3.1 Flash TTS de Google, Realtime TTS-2 d'Inworld (en Research Preview), Sonic 3.5, Realtime TTS 1.5 Max et Fun-Realtime-TTS-Preview. Parmi les acteurs les plus remarquables, Inworld AI, un laboratoire fondé par des anciens de Google et DeepMind, a lancé TTS-1.5 le 21 janvier 2026, suivi de Realtime TTS-2 plus tard dans l'année. Son modèle propose deux niveaux : Mini, optimisé pour la latence avec un temps avant premier audio inférieur à 130 millisecondes au 90e percentile, et Max, sous 250 millisecondes. La tarification va de 25 dollars par million de caractères pour le Mini jusqu'à 5 dollars en offre Enterprise. Google DeepMind, de son côté, a publié Gemini 3.1 Flash TTS le 15 avril 2026, accessible via l'API Gemini, AI Studio et Vertex AI. Ces évolutions ont des implications directes pour les développeurs et les entreprises qui intègrent la voix dans leurs produits. Une latence sous les 100 millisecondes est désormais atteignable pour certains systèmes temps réel, ce qui rend les agents vocaux réellement utilisables dans des contextes grand public, comme le service client automatisé ou les jeux vidéo. Inworld revendique 30 % de plage expressive supplémentaire et 40 % de stabilité en plus par rapport à sa génération précédente, deux critères critiques pour des applications qui ne peuvent se permettre ni monotonie ni erreurs de prononciation. Les tarifs agressifs, notamment l'offre Enterprise à 5 dollars le million de caractères, signalent une course vers la commoditisation du TTS, similaire à ce que le marché des LLM a vécu entre 2023 et 2025. La comparaison entre modèles reste néanmoins complexe, car aucun benchmark ne capture l'ensemble des dimensions pertinentes. La qualité perçue, le taux d'erreur de caractères mesuré par méthode aller-retour (transcription ASR puis comparaison avec l'entrée), la latence de queue et la couverture linguistique obéissent à des logiques distinctes. Inworld couvre 15 langues pour TTS-1.5 mais plus de 100 pour TTS-2, tandis que les classements ELO fluctuent d'une semaine à l'autre. L'enjeu pour les équipes produit est d'identifier l'axe non négociable de leur application, qu'il s'agisse de la latence pour un assistant vocal ou de la fidélité phonétique pour un usage éditorial, avant de choisir leur fournisseur dans un marché qui reste en recomposition permanente.

💬 Le TTS vit ce que les LLM ont traversé entre 2023 et 2025. 5 dollars le million de caractères en Enterprise chez Inworld, Gemini Flash TTS qui s'installe en tête des classements, la course vers la commoditisation est enclenchée et ça va aller vite. La vraie nouveauté, c'est la latence sous 100ms qui rend enfin les agents vocaux utilisables en vrai, pas juste en démo.

CréationOutil
1 source
Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes
307Apple Machine Learning 

Conférence CVPR 2026 sur la vision par ordinateur et la reconnaissance de formes

Apple sera présent à la conférence CVPR 2026 (IEEE/CVF Conference on Computer Vision and Pattern Recognition), qui se tient en présentiel à Denver, au Colorado Convention Center, du 3 au 7 juin 2026. L'entreprise y présente de nouveaux travaux de recherche et en assure la sponsorisation, confirmant ainsi son engagement continu auprès de la communauté scientifique mondiale spécialisée en vision par ordinateur et en reconnaissance de formes. La participation d'Apple à ce type d'événement illustre la montée en puissance de sa stratégie de recherche publique. En publiant ses travaux à CVPR, l'un des rendez-vous académiques les plus influents dans le domaine de l'intelligence artificielle visuelle, Apple signale ses priorités technologiques tout en attirant des talents issus du milieu universitaire. Pour l'industrie, cette visibilité académique est devenue un levier de recrutement et de légitimité scientifique face à des concurrents comme Google DeepMind, Meta AI ou Microsoft Research, qui investissent massivement dans la publication ouverte. CVPR est considéré comme l'une des conférences les plus sélectives et les plus citées en intelligence artificielle, rassemblant chaque année plusieurs milliers de chercheurs du monde entier. Apple, longtemps critiqué pour son opacité scientifique comparée à ses rivaux, a progressivement ouvert sa recherche au cours des dernières années, notamment via son blog officiel et des publications dans des conférences de premier plan. Le contenu précis des travaux présentés à Denver devrait être détaillé lors de l'événement début juin.

RecherchePaper
1 source
L'IA comme prolongement de l'intelligence humaine
308Microsoft Research 

L'IA comme prolongement de l'intelligence humaine

Une nouvelle approche théorique publiée dans le cadre d'une collaboration interdisciplinaire propose de revoir fondamentalement la façon dont on comprend les systèmes d'intelligence artificielle. Intitulée "The Origins of Artificial Intelligence in Natural Intelligence", cette recherche soutient que les grands modèles de langage ne sont ni des esprits humains en devenir, ni de simples outils statistiques sophistiqués, mais des extensions des structures cognitives propres à l'être humain. S'appuyant sur la phénoménologie du philosophe Edmund Husserl, les auteurs avancent que le langage humain contient déjà des structures sédimentées de compréhension du monde, et que les modèles d'IA apprennent précisément à modéliser et prolonger ces structures. Ce cadre théorique rejoint des travaux récents comme "The Blind Spot" d'Adam Frank, Marcelo Gleiser et Evan Thompson, ou encore "The Abstraction Fallacy" du chercheur de DeepMind Alexander Lerchner, qui posent tous la même question de fond : et si l'IA fonctionnait parce qu'elle s'appuie sur ce que les humains ont déjà construit ? Cette perspective permet d'expliquer à la fois les performances remarquables des modèles actuels et leurs limites récurrentes. Les LLM peuvent produire des textes cohérents dans des domaines très variés parce qu'ils ont appris les relations statistiques entre concepts à travers des milliards de textes humains. Mais ils hallucinent parce qu'ils étendent des patterns à l'intérieur du langage, sans être ancrés dans un rapport direct au monde. Là où un humain est constamment corrigé par l'expérience, un modèle prolonge des configurations linguistiques sans pouvoir vérifier leur rapport à la réalité. Cela explique aussi le "compositionality gap" documenté par la recherche : les modèles progressent beaucoup plus vite en fluidité et en rappel factuel qu'en raisonnement compositionnel véritable, c'est-à-dire la capacité à combiner des concepts de façon réellement nouvelle. Ce n'est pas simplement une limite d'ingénierie, disent les auteurs, mais une frontière structurelle. Sur le plan des implications, cette théorie déplace le débat sur la sécurité de l'IA : plutôt que de s'inquiéter d'une "IA renégate" qui surpasserait l'intelligence humaine, elle invite à traiter la sécurité comme un défi de système, relevant à la fois de l'ingénierie et de la gouvernance. Concevoir l'IA comme une extension de l'intelligence humaine, et non comme son remplacement, offre un cadre plus opérationnel pour construire des systèmes fiables. Dans un contexte où les investissements dans les LLM atteignent des niveaux records et où les débats sur l'alignement et les risques existentiels monopolisent l'attention, cette approche phénoménologique propose une voie plus sobre : comprendre ce que l'IA est vraiment avant de décider ce qu'elle pourrait devenir.

RecherchePaper
1 source
Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA
309arXiv cs.RO 

Apprentissage en boucle fermée d'un modèle du monde vidéo et d'une politique VLA

Une équipe de chercheurs a publié en février 2026 sur arXiv (identifiant 2602.06508v2) World-VLA-Loop, un cadre d'entraînement qui couple un modèle de monde vidéo et une politique VLA (Vision-Language-Action) dans une boucle d'amélioration mutuelle. Le problème de départ est concret : raffiner une politique VLA par apprentissage par renforcement (RL) dans le monde physique coûte cher, entre les rollouts répétés, les remises à l'état initial, la supervision humaine et les risques de sécurité. Les approches existantes utilisent des modèles de monde vidéo conditionnés sur les actions comme simulateurs virtuels, mais ces simulateurs peinent à reproduire les échecs proches du succès ("near-success failures") et ne produisent pas nativement de signal de récompense. World-VLA-Loop propose deux innovations fondamentales : SANS, un protocole de curation qui mélange délibérément trajectoires réussies et trajectoires quasi-réussies pour améliorer l'alignement action-résultat ; et un modèle de monde vidéo "state-aware" qui prédit simultanément frames futures et récompenses binaires à partir des latents de diffusion, intégrant l'estimation de récompense directement dans le générateur plutôt que dans un module séparé. L'apport principal est d'adresser le problème du décalage de distribution dynamique. Lorsqu'une politique VLA évolue pendant le RL, un simulateur figé se désaligne progressivement avec la politique mise à jour. World-VLA-Loop ferme cette boucle en réinjectant les rollouts de chaque politique améliorée pour affiner le modèle de monde, lequel alimente à son tour le post-entraînement VLA suivant. Cette co-évolution itérative réduit la dépendance aux interactions physiques coûteuses. Les expériences couvrent des environnements de simulation et des robots réels, avec des améliorations de performance significatives annoncées, bien que les métriques précises et les benchmarks ne soient pas détaillés dans le résumé disponible, ce qui limite l'évaluation indépendante à ce stade. Ce travail s'inscrit dans l'essor rapide des politiques VLA depuis 2024 : Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, OpenVLA ou Helix de Figure AI constituent l'écosystème de référence. L'enjeu commun est de dépasser le behavior cloning pur pour intégrer du RL sans exploser les coûts de collecte de données réelles. World-VLA-Loop reste un preprint académique en attente de révision par les pairs, sans déploiement industriel annoncé. Les concurrents directs sur la thématique des world models appliqués à la robotique incluent DreamerV3 et les approches de Google DeepMind. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes et une comparaison quantitative publiée contre ces baselines.

RechercheOpinion
1 source
GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action
310arXiv cs.RO 

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Des chercheurs ont publié GesVLA, un modèle Vision-Language-Action augmenté d'une modalité gestuelle, dans un preprint arXiv soumis en mai 2026 (arXiv:2605.22812). L'architecture repose sur un double VLM (Vision-Language Model) qui encode les features gestuelles directement dans l'espace latent, permettant aux gestes pointés de la main de participer à la fois au raisonnement de haut niveau et à la génération d'actions motrices. Pour l'entraînement, l'équipe a construit un pipeline de génération de données synthétiques en rendant des modèles 3D de mains sur des images de scènes réelles, produisant des annotations de pointage variées tout en réduisant le sim-to-real gap visuel. Le modèle a été évalué sur plusieurs tâches physiques réelles : manipulation contrôlée de blocs et sélection de produits dans des environnements encombrés. Les expériences montrent une amélioration mesurée de la précision de grounding cible et de l'efficacité de l'interaction humain-robot, particulièrement dans des scènes complexes avec objets similaires. L'apport principal de GesVLA est d'adresser une faiblesse connue des VLA actuels : l'ambiguïté spatiale. Quand plusieurs objets similaires sont présents dans la scène, une instruction textuelle seule (type "prends la bouteille") reste ambiguë. Intégrer le geste de pointage comme modalité parallèle au texte offre un ancrage spatial explicite sans modifier l'interface verbale. L'architecture dual-VLM représente un choix architectural non trivial par rapport aux approches qui traitent les modalités de façon séquentielle. Ce n'est pas la première tentative d'incorporer des signaux humains dans les VLA, mais la formalisation du geste comme modalité de premier rang dans l'espace latent, plutôt qu'en post-processing, est une contribution d'architecture à surveiller pour les intégrateurs qui déploient des cobots en environnements de picking désordonnés. GesVLA s'inscrit dans la vague de recherche post-RT-2 et pi-0 qui cherche à rendre les VLA robustes au-delà du régime de laboratoire. Les modèles concurrents comme OpenVLA (Berkeley), Octo ou RoboFlamingo travaillent essentiellement avec du texte et de la vision, sans modalité gestuelle native. Physical Intelligence (pi) avec pi-0 et Google DeepMind avec RT-2/RT-X restent les références industrielles sur la généralisation des VLA à grande échelle. Le preprint ne mentionne pas de partenariat industriel ni de timeline de déploiement commercial. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (LIBERO, Calvin) pour permettre des comparaisons directes, et une intégration sur des plateformes comme Franka ou UR5 au-delà des configurations de démonstration présentées.

RobotiqueOpinion
1 source
L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables
311IEEE Spectrum AI 

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Wetour Robotics avance que le prochain saut architectural de l'IA physique ne viendra pas des robots eux-mêmes, mais de la façon dont les humains leur communiquent leurs intentions. La startup a développé une approche qu'elle nomme Spatial Intent Fusion : la fusion en temps réel de trois flux d'information centrés sur l'humain, à savoir la position spatiale du corps, le contexte visuel capté par la caméra, et l'intention gestuelle détectée via capteurs musculaires. Ces trois canaux sont traités simultanément par une plateforme matérielle appelée Orchestra, un hub portable embarqué sur processeur NVIDIA Jetson Orin Nano Super, capable d'exécuter l'intégralité de la boucle de contrôle en local, sans dépendance au cloud. Le résultat est traduit en commandes directes pour n'importe quel appareil physique connecté, avec une latence assez basse pour que le système réponde comme une extension naturelle du corps. L'enjeu est concret : les interfaces actuelles, écrans, boutons et commandes vocales, supposent que l'utilisateur peut s'arrêter, regarder vers le bas et formuler une instruction structurée. Cette hypothèse s'effondre dès que le travail se déroule dans un environnement réel. Un technicien de maintenance sur une éolienne, harnais accroché et les deux mains sur une clé, n'a pas la liberté de consulter un écran. Un opérateur logistique sur un quai de chargement, les yeux sur la palette et les mains gantées, ne peut pas dicter une commande vocale dans le bruit ambiant. Une personne en fauteuil motorisé dans une rue animée veut ajuster sa trajectoire sans sortir son téléphone. Pour Wetour Robotics, chaque canal observé isolément, un geste seul, un regard seul, reste ambigu. C'est la fusion de ces canaux au niveau système, avec une inférence d'intention robuste, qui rend l'interface fiable dans des conditions dégradées. Cette approche s'inscrit dans un constat plus large que l'industrie commence à formuler. Depuis trois ans, les progrès côté robot ont été spectaculaires : Boston Dynamics, Figure, Unitree ont repoussé les limites de la locomotion et de la dextérité, tandis que Google DeepMind a redéfini ce que les modèles vision-langage-action peuvent accomplir en environnement non structuré. Mais la boucle humain-machine n'a pas évolué au même rythme. Les mêmes trois modalités d'entrée dominent depuis quarante ans. Wetour Robotics parie que le vrai goulot d'étranglement se situe désormais du côté humain, et que faire de l'opérateur un noeud à part entière du réseau de calcul, avec la même qualité de participation que les capteurs embarqués sur le robot, constitue le prochain levier de performance. Le positionnement commercial de la société résume l'ambition en une formule : votre corps est l'interface.

RobotiqueActu
1 source
OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique
312arXiv cs.RO 

OHP-RL : guidage par préférences humaines en ligne pour l'apprentissage par renforcement en manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2605.15971) un cadre appelé OHP-RL (Online Human Preference as Guidance in Reinforcement Learning) pour améliorer l'apprentissage par renforcement appliqué à la manipulation robotique en conditions réelles. L'approche introduit une "preference gate" dépendante de l'état du robot, qui détermine dynamiquement quand et dans quelle mesure les interventions humaines doivent influencer l'apprentissage de la politique de contrôle. Contrairement aux méthodes existantes qui traitent ces interventions comme de simples signaux d'imitation, OHP-RL les interprète comme des expressions de préférences relatives entre comportements, intégrant des contraintes de sécurité et de tâche. Le système a été évalué sur trois tâches de manipulation en contact réel sur un robot Franka, où il obtient des taux de réussite élevés, une convergence plus rapide et un volume d'interventions humaines significativement réduit par rapport aux approches antérieures. L'enjeu est bien connu des équipes de robotique industrielle : le RL en environnement réel souffre d'une exploration inefficace et potentiellement dangereuse, ce qui freine son déploiement hors laboratoire. Les méthodes humain-dans-la-boucle existantes comme HIRL ou IWR exploitent les corrections humaines comme des démonstrations à imiter, une hypothèse qui surestime la précision et la cohérence des opérateurs réels. OHP-RL change de paradigme en traitant l'intervention non pas comme une action idéale à reproduire, mais comme un signal de préférence entre deux comportements, ce qui correspond mieux à la réalité opérationnelle. Un opérateur peu expert ou fatigué génère ainsi un signal utile, et le système tolère une supervision intermittente. Pour un intégrateur ou un responsable de production, cela signifie un coût de supervision réduit pendant l'apprentissage et un déploiement potentiellement plus rapide sur des tâches de manipulation en contact, vissage, assemblage, insertion, que les pipelines de programmation classiques peinent encore à automatiser. OHP-RL se positionne à l'intersection du RLHF (Reinforcement Learning from Human Feedback, popularisé par les LLMs) et du HiL-RL pour la robotique physique, un rapprochement conceptuel qu'explorent aussi Physical Intelligence avec pi0, Google DeepMind sur les plateformes Aloha et Franka, et plusieurs labos académiques travaillant sur les VLA (Vision-Language-Action models). L'utilisation du Franka Research 3, référence académique mondiale, facilite la comparaison directe avec ces concurrents. Le papier reste un preprint arXiv sans revue par les pairs confirmée, il convient donc de lire les résultats comme prometteurs plutôt que validés ; les prochaines étapes naturelles seraient une validation sur des bras industriels à plus fort payload et une intégration dans des pipelines de déploiement continu.

UEImpact indirect : les intégrateurs européens spécialisés en manipulation en contact (assemblage, vissage, insertion) pourraient suivre cette approche pour réduire le coût de supervision lors du déploiement de RL en production, sans lien direct avec une entreprise ou réglementation française ou européenne.

RecherchePaper
1 source
PhysBrain 1.0 : rapport technique
313arXiv cs.RO 

PhysBrain 1.0 : rapport technique

PhysBrain 1.0 (arXiv:2605.15298, mai 2026) est un pipeline VLA (vision-language-action) qui convertit de la vidéo égocentrique humaine à grande échelle en supervision de commonsense physique structuré, avant de transférer ce savoir vers le contrôle robotique. Un moteur de données extrait quatre types d'informations depuis ces vidéos (éléments de scène, dynamiques spatiales, exécution d'actions, relations géométriques tenant compte de la profondeur) et les transforme en paires questions-réponses pour entraîner les VLM PhysBrain. Les priors physiques résultants sont ensuite injectés dans des politiques VLA via un mécanisme d'adaptation qualifié de "capability-preserving et language-sensitive". Évalué sur cinq benchmarks (ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, RoboCasa), le modèle revendique des résultats état de l'art, avec des performances hors domaine particulièrement fortes sur SimplerEnv. L'abstract ne fournit pas de métriques chiffrées; le rapport complet reste nécessaire pour valider ces affirmations. L'argument central est que les trajectoires robot constituent une source de supervision trop étroite pour acquérir une compréhension physique générale: coûteuses à collecter par téléopération et peu diversifiées, elles limitent structurellement la généralisation des VLA. La vidéo égocentrique humaine, disponible en volumes bien supérieurs, couvre une variété d'interactions physiques avec le monde (saisies, contacts, équilibre, textures) que les datasets robot n'atteignent pas. La robustesse hors domaine sur SimplerEnv est le signal le plus intéressant: si elle se confirme à la lecture du rapport complet, cela suggère que cette stratégie atténue le problème de généralisation qui frappe la majorité des VLA entraînés uniquement sur données robot. Pour un intégrateur ou un COO industriel, cela laisse entrevoir une réduction du volume de démonstrations téléopérées nécessaires lors de chaque nouveau déploiement. PhysBrain s'inscrit dans une compétition dense autour des VLA physiques. Physical Intelligence (pi0, pi0.5) capitalise sur de larges datasets de téléopération multi-robot; NVIDIA GR00T N2 cible la compréhension physique via simulation massive; Google DeepMind (RT-2) et le modèle open-source Octo ont posé les bases de la catégorie. L'angle de PhysBrain, passant par un intermédiaire de commonsense structuré en QA plutôt que par un entraînement direct sur trajectoires, rappelle les stratégies de pre-training visuel comme R3M ou MVP, mais va plus loin avec un pipeline d'extraction supervisée à quatre dimensions. Le modèle est pour l'instant validé sur robot WidowX, une plateforme de manipulation accessible; la prochaine étape logique serait de tester le transfert sur des architectures humanoïdes ou à plus haute dextérité, là où la compréhension physique générale apporte le plus de valeur.

💬 Le vrai problème des VLA, c'est qu'ils apprennent à partir de données robot trop étroites et trop chères à collecter. PhysBrain contourne ça en allant chercher le commonsense physique dans des vidéos humaines à grande échelle, et je trouve les perfs hors domaine sur SimplerEnv plus convaincantes que les benchmarks habituels. Testé sur WidowX seulement pour l'instant, donc on attend la suite.

RobotiqueOpinion
1 source
ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul
314FrenchWeb 

ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul

Séoul accueille du 6 au 12 juillet 2026 la 43e édition de l'International Conference on Machine Learning (ICML), l'une des conférences scientifiques les plus influentes au monde dans le domaine de l'intelligence artificielle. Organisée dans la capitale sud-coréenne, cet événement rassemble chaque année des milliers de chercheurs, ingénieurs et représentants de l'industrie venus présenter et débattre des dernières avancées en apprentissage automatique. L'édition 2026 marque la première fois que la conférence se tient en Corée du Sud, témoignant de la montée en puissance de l'Asie dans l'écosystème mondial de la recherche en IA. ICML est un point de convergence incontournable pour la communauté scientifique : les papiers acceptés y définissent souvent les directions de recherche pour les années suivantes. Les grandes entreprises tech, Google DeepMind, Meta AI, Microsoft Research, Anthropic, y dévoilent des travaux qui alimentent directement leurs produits. Pour les chercheurs académiques, une publication à ICML constitue une validation de premier rang, et la conférence sert de baromètre pour identifier les tendances émergentes, des architectures de modèles aux questions d'alignement et d'efficacité computationnelle. Le choix de Séoul s'inscrit dans une dynamique plus large de reconnaissance des pôles asiatiques d'excellence en IA, la Corée du Sud investissant massivement dans ce secteur via des géants comme Samsung et LG, mais aussi via des startups et universités de rang mondial. ICML 2026 devrait notamment concentrer des débats autour des modèles multimodaux, de l'IA générative post-transformeurs et des approches d'apprentissage à faible coût énergétique, des enjeux devenus centraux dans un contexte de pression croissante sur les ressources de calcul.

UELes chercheurs et labos européens participant à ICML bénéficieront des échanges scientifiques, mais la conférence n'a pas d'impact institutionnel direct sur la France ou l'UE.

💬 Séoul pour ICML, c'est un signal que l'Asie est vraiment dans la course, pas juste comme marché. Ce qui m'intéresse surtout, c'est les débats annoncés sur les architectures post-transformeurs et l'efficacité énergétique, parce que le vrai goulot maintenant c'est le coût de calcul, pas les idées. Les papiers ICML dessinent ce qu'Anthropic et Google mettent en prod 18 mois après.

RecherchePaper
1 source
NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement
315NVIDIA AI Blog 

NVIDIA et Ineffable Intelligence s'associent pour bâtir l'infrastructure de l'apprentissage par renforcement

NVIDIA et Ineffable Intelligence, le laboratoire d'IA londonien fondé par David Silver, l'architecte d'AlphaGo, ont annoncé un partenariat technique approfondi pour concevoir l'infrastructure nécessaire à l'apprentissage par renforcement à grande échelle. Des ingénieurs des deux sociétés travaillent conjointement sur la construction d'un pipeline d'entraînement optimisé, en démarrant sur la plateforme NVIDIA Grace Blackwell et en préparant l'intégration de la prochaine architecture Vera Rubin, encore inédite. Jensen Huang, fondateur et PDG de NVIDIA, a qualifié les systèmes d'apprentissage continu par expérience de "prochaine frontière de l'IA", tandis que Silver, sorti du mode furtif la semaine dernière seulement avec Ineffable Intelligence, entend pousser ce paradigme bien au-delà de ses applications actuelles. L'enjeu technique est significatif. Contrairement au pré-entraînement classique, qui consomme un jeu de données fixe de textes et d'images humaines, l'apprentissage par renforcement génère ses propres données en temps réel : l'agent agit, observe les résultats, évalue et se met à jour en boucle serrée. Ce mode de fonctionnement impose des contraintes très différentes sur les interconnexions, la bande passante mémoire et l'inférence. S'y ajoutent des formes d'expérience potentiellement étrangères au langage humain, ce qui pourrait nécessiter des architectures de modèles et des algorithmes d'entraînement entièrement nouveaux. Résoudre ces contraintes à l'échelle est ce que visent conjointement les deux équipes. David Silver est l'une des figures centrales de l'apprentissage par renforcement depuis des décennies : il a co-développé DQN chez DeepMind avant de concevoir AlphaGo, le premier programme à battre un champion du monde de go en 2016. Son raisonnement est direct : les chercheurs ont "largement résolu le problème facile de l'IA", soit apprendre à partir de ce que les humains savent déjà, mais le vrai défi reste de construire des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. Ce virage, de la donnée humaine vers la simulation et l'expérience autonome, est au coeur de la mission d'Ineffable Intelligence. Si le partenariat tient ses promesses, il pourrait débloquer une nouvelle génération d'agents capables de progresser dans des environnements complexes sans plafond de données humaines, ouvrant potentiellement des découvertes dans des domaines allant de la recherche scientifique à la robotique.

RecherchePaper
1 source
Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots
316arXiv cs.RO 

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

Des chercheurs ont publié sur arXiv (2603.17510v2) une architecture permettant à un robot mobile de naviguer en environnement partagé en tenant compte des préférences exprimées en langage naturel par ses utilisateurs. Le système repose sur trois couches distinctes : un modèle vision-langage (VLM) qui analyse en continu les images de la caméra embarquée pour extraire un contexte environnemental structuré, un grand modèle de langage (LLM) qui traduit les retours verbaux des utilisateurs en règles comportementales interprétables, stockées dans une mémoire persistante et modifiable, puis un module de traduction des préférences qui convertit ces règles et ce contexte en vecteurs numériques injectés à la volée dans une politique de navigation par apprentissage par renforcement multi-objectif (MORL) préentraînée. L'évaluation couvre des déploiements réels dans plusieurs environnements intérieurs, une étude utilisateur et des mesures quantitatives par composant, sans que l'abstract précise les effectifs ni les métriques chiffrées de performance. Ce travail adresse un verrou concret pour les déploiements en milieu professionnel : aujourd'hui, un robot de livraison intérieure ou un AMR logistique optimise vitesse et sécurité selon des paramètres fixes, incapable d'adapter son comportement si un opérateur lui dit "ralentis dans la zone de picking" ou "évite le couloir principal le matin". L'architecture proposée résout ce problème sans réentraînement : la mémoire de règles est mise à jour à chaud via langage naturel, ce qui réduit dramatiquement le coût d'intégration pour un déploiement B2B. La séparation claire entre raisonnement sémantique de haut niveau (VLM/LLM) et contrôle temps-réel (MORL) est également un argument industriel sérieux, car elle permet de changer le backbone LLM sans toucher à la politique de bas niveau. Ce type d'approche s'inscrit dans une tendance académique forte depuis 2023 : l'utilisation de fondational models comme couche d'interprétation au-dessus de politiques de contrôle classiques, popularisée notamment par les travaux sur les VLA (Vision-Language-Action models) chez Google DeepMind ou Stanford. La différence ici est la persistance explicite des règles en mémoire et l'utilisation de MORL plutôt que d'une politique end-to-end, ce qui offre davantage de contrôle et de transparence. Aucun partenaire industriel ni timeline de commercialisation ne sont mentionnés, ce travail restant pour l'instant une contribution de recherche. La prochaine étape naturelle serait de valider le système sur des robots commerciaux comme le Spot de Boston Dynamics ou des AMR de Locus Robotics, et d'étendre les expériences aux environnements extérieurs ou aux contextes multi-utilisateurs.

RechercheOpinion
1 source
Agent View débarque sur Claude Code : votre armée d’agents IA en une vue
317Le Big Data 

Agent View débarque sur Claude Code : votre armée d’agents IA en une vue

Anthropic a lancé une nouvelle fonctionnalité appelée Agent View pour son outil Claude Code, disponible dès la version 2.1.139 de l'application. Accessible via la commande claude agents dans le terminal, cette interface regroupe l'ensemble des sessions d'agents actives dans un tableau de bord unique intégré directement à l'environnement de développement. Elle est disponible pour tous les abonnements Pro, Max, Team et Enterprise, ainsi que via l'API Claude, dans le respect des limites de débit habituelles. Les administrateurs d'organisation disposent par ailleurs de la possibilité de désactiver la fonctionnalité depuis les paramètres centraux. Chaque ligne du tableau de bord représente une session Claude Code avec son état en temps réel : en cours, en attente de réponse humaine, terminée, inactive, arrêtée ou en échec. Pour les équipes de développeurs qui orchestrent plusieurs tâches simultanées, Agent View change concrètement la façon de travailler. Jusqu'ici, gérer plusieurs agents en parallèle signifiait jongler entre de multiples fenêtres de terminal, sans vue d'ensemble claire sur l'état de chaque processus. Désormais, un développeur peut lancer en parallèle des agents chargés de correctifs, de tests, de revues de code ou de mises à jour, passer de l'un à l'autre sans friction, reprendre une session suspendue à tout moment, et surtout identifier immédiatement les agents qui nécessitent une intervention humaine. Ce gain de visibilité est particulièrement précieux dans les environnements d'intégration continue où le temps perdu à chercher quelle tâche est bloquée peut coûter cher. Cette mise à jour s'inscrit dans une stratégie plus large qu'Anthropic mène depuis plusieurs mois pour transformer Claude Code en véritable plateforme de gestion d'agents IA pour les équipes techniques. L'entreprise avait déjà introduit successivement les sous-agents, les équipes d'agents, les compétences personnalisées, les hooks, les commandes à distance, les tâches programmées et une version web de Claude Code. Agent View est en quelque sorte la pièce qui manquait : elle consolide tous ces blocs épars en une interface cohérente. Anthropic cherche clairement à sortir Claude Code du statut d'assistant à l'écriture de code pour en faire un outil d'orchestration de workflows autonomes, en concurrence directe avec des environnements comme GitHub Copilot Workspace ou les solutions agentiques de Google DeepMind. La question qui reste ouverte est celle de la fiabilité à grande échelle : plus les agents sont nombreux et autonomes, plus la capacité à détecter rapidement les échecs devient critique, et c'est précisément ce que vise Agent View.

OutilsOutil
1 source
Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs
318arXiv cs.RO 

Manipulation dextérique multi-doigts guidée par le langage grâce à la compliance physique et la commutation de contrôleurs

Une équipe de chercheurs a publié sur arXiv (référence 2410.14022v2) une architecture de contrôle combinant des modèles Vision-Langage-Action (VLA) à grande échelle avec des politiques d'imitation légères pour la manipulation dextère multi-doigts. Le système repose sur une main robotique anthropomorphique propriétaire à 13 degrés de liberté (DOF), dotée d'une compliance mécanique modulable au niveau des doigts. Le cœur de l'approche est un contrôleur à commutation piloté par événements : le VLA assure la planification de haut niveau à partir d'instructions en langage naturel, tandis que des politiques dextères légères, entraînées par imitation sur des sous-tâches spécifiques, prennent le relais pour l'exécution précise. Les transitions entre les deux niveaux sont déclenchées par des signaux d'événement que le VLA apprend à prédire lui-même après fine-tuning sur un volume minimal de démonstrations. Ce travail s'attaque à un verrou bien identifié du secteur : les VLA (Pi-0, OpenVLA, GR00T N2) excellent en planification multi-tâches mais opèrent typiquement avec des préhenseurs pince à 2 DOF, insuffisants pour la manipulation fine. À l'inverse, les politiques d'imitation pour mains multi-doigts restent cantonnées à des tâches étroitement définies, sans généralisation par langage. En montrant que la compliance matérielle, soit la capacité d'une main à absorber passivement les perturbations de contact, améliore la stabilité sans complexifier le contrôle logiciel, les auteurs fournissent un argument concret en faveur de la co-conception hardware-software, encore trop souvent négligée dans la course au sim-to-real. La modularité revendiquée, à savoir l'ajout de nouvelles compétences ou le changement de main sans réentraîner le VLA, constitue une propriété potentiellement intéressante pour les intégrateurs industriels, même si les conditions d'évaluation restent strictement laboratoire. L'approche s'inspire de la "two-channel hypothesis" du contrôle moteur humain, qui distingue la planification corticale des réflexes spinaux. Sur le plan concurrentiel, elle se positionne face aux travaux de Physical Intelligence (Pi-0), de Google DeepMind sur la manipulation dextère, et aux architectures ACT ou Diffusion Policy appliquées à des mains haute-DOF. Ni institution d'appartenance ni métriques de performance chiffrées ne figurent dans l'abstract disponible, ce qui limite toute évaluation externe sérieuse de la contribution. La prochaine étape crédible serait une validation sur des benchmarks standardisés comme YCB et une comparaison directe avec des mains tierces commerciales, pour confirmer que la cross-embodiment claim tient hors du cadre contrôlé des auteurs.

RechercheOpinion
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
319arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

RobotiqueOpinion
1 source
IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence
320arXiv cs.RO 

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Une équipe de chercheurs a déposé sur arXiv en février 2026 (réf. 2602.21198, v2) un framework baptisé Reflective Test-Time Planning (RTTP), conçu pour résoudre un angle mort structurel de la robotique pilotée par LLM : les agents embarqués traitent chaque essai de façon indépendante, ce qui fait répéter les mêmes erreurs au lieu d'en tirer une expérience cumulative. Le RTTP introduit deux mécanismes : la reflection-in-action, où l'agent génère et évalue plusieurs actions candidates via un scaling à l'inférence avant d'agir, et la reflection-on-action, qui met à jour le modèle de réflexion interne et la politique d'action après exécution via un entraînement à l'inférence. Une troisième composante, la réflexion rétrospective, permet de réévaluer des décisions antérieures pour corriger l'attribution de crédit sur des tâches à long horizon. Les expériences portent sur deux benchmarks : Long-Horizon Household (tâches domestiques séquentielles) et MuJoCo Cupboard Fitting (manipulation en simulation physique), avec généralisation zero-shot vers les environnements HM3D photoréalistes et validation sur bras réel Franka Panda. L'enjeu industriel est direct : le déploiement de robots pilotés par VLA (Vision-Language-Action models) bute sur le demo-to-reality gap, où les modèles performent en laboratoire mais dégradent en conditions variables. RTTP propose une boucle fermée d'adaptation pendant le déploiement, sans fine-tuning offline coûteux. Les ablations confirment que les deux modes de réflexion sont mutuellement dépendants, et que la réflexion rétrospective surpasse le feedback step-wise classique avec un overhead computationnel inférieur, un avantage concret pour les intégrateurs soucieux de maîtriser les coûts d'inférence à l'échelle. Cette contribution s'inscrit dans la vague du test-time scaling, popularisée par les modèles de raisonnement d'OpenAI et Google DeepMind, mais appliquée à l'action robotique incarnée plutôt qu'au raisonnement abstrait. Les auteurs ne mentionnent ni partenariat industriel ni timeline commerciale : c'est un preprint de recherche, pas un produit shipé. Les travaux concurrents dans cette direction incluent les VLAs de Physical Intelligence (pi0), le programme RT-2-X de Google DeepMind et les recherches sur l'apprentissage online menées à Carnegie Mellon et Berkeley. Aucun acteur français ou européen n'est impliqué dans cette publication.

RechercheOpinion
1 source
LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)
321arXiv cs.RO 

LoopVLA : l'amélioration itérative par suffisance apprise pour les modèles vision-langage-action (VLA)

Une équipe de chercheurs a déposé en mai 2026 sur arXiv un préprint décrivant LoopVLA, une nouvelle architecture de modèle Vision-Language-Action (VLA) conçue pour la manipulation robotique en boucle fermée. L'idée centrale : les VLA actuels utilisent systématiquement la représentation la plus abstraite de leur backbone vision-langage pour prédire les actions, ce qui se révèle sous-optimal pour les ajustements spatiaux fins et répétitifs qu'implique la manipulation de précision. LoopVLA remplace cette logique par un bloc Transformer partagé appliqué de manière récurrente : à chaque itération, le modèle produit à la fois une action candidate et un score de suffisance estimant si un raffinement supplémentaire est nécessaire. L'apprentissage de ce score, en l'absence de supervision directe, repose sur un objectif d'alignement de distribution auto-supervisé : les scores de confiance intermédiaires sont entraînés à refléter la qualité relative des actions produites à chaque étape de raffinement. Sur les benchmarks LIBERO, LIBERO-Plus et VLA-Arena, LoopVLA réduit le nombre de paramètres de 45 % et améliore le débit d'inférence jusqu'à 1,7 fois, tout en atteignant ou surpassant les baselines de référence sur les taux de réussite aux tâches. Le gain est concret pour les équipes qui déploient des VLA sur matériel embarqué ou sous contraintes de latence : un facteur 1,7x sur le throughput d'inférence peut faire la différence entre un robot capable de répondre en boucle de contrôle serrée et un système trop lent pour la production. L'approche remet également en question un postulat dominant dans le domaine, à savoir que la représentation la plus profonde est toujours la meilleure pour l'action. En montrant qu'une sortie anticipée guidée par un signal appris suffit à maintenir les performances, LoopVLA plaide contre le dogme "plus profond égale meilleur" pour la manipulation de précision, où les indices géométriques bas-niveau (position du préhenseur, orientation d'un objet) sont souvent dégradés par une abstraction excessive. Les VLA sont au coeur d'une compétition intense depuis l'émergence de Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenVLA et Octo (UC Berkeley). La plupart de ces modèles héritent d'une logique "backbone figé + tête d'action" sans remettre en question la profondeur de représentation utilisée. LoopVLA s'inscrit dans la lignée des travaux sur l'early exit et le calcul adaptatif, comparable aux Mixture of Depths de DeepMind, mais appliqués à la politique robotique. Il n'y a pas de déploiement industriel annoncé : il s'agit d'un résultat de recherche avec évaluations uniquement en simulateur (LIBERO est un benchmark sim). La prochaine étape naturelle serait une validation sur robot réel pour mesurer le sim-to-real gap, en particulier sur des tâches de manipulation fine.

RechercheOpinion
1 source
IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique
322arXiv cs.RO 

IA incarnée : PathPainter transfère les capacités de généralisation des modèles génératifs à la navigation robotique

Des chercheurs ont publié en mai 2026 sur arXiv (référence 2605.07496) PathPainter, un système de navigation autonome pour robots terrestres et aériens à basse altitude. Le principe central consiste à utiliser des images en vue aérienne (BEV, Bird's-Eye-View) comme prior global de l'environnement. Un modèle génératif d'images interprète une instruction en langage naturel, identifie la destination cible, puis génère automatiquement un masque de traversabilité indiquant les zones navigables. Pendant l'exécution, un module de localisation croisée (cross-view localization) aligne l'odométrie du robot sur la carte BEV pour compenser la dérive à long terme, défaut classique des systèmes odométriques conventionnels. Le système a été validé sur un drone UAV qui a complété une navigation extérieure de 160 mètres en environnement réel, en s'appuyant uniquement sur un planificateur de mouvement local standard. Ce travail illustre une tendance de fond dans la robotique : extraire la capacité de généralisation des grands modèles de fondation (ici un modèle de génération d'images) pour l'injecter dans des pipelines embarqués, sans les réentraîner de zéro. Le transfert de compréhension du monde vers la navigation incarnée (embodied navigation) est l'un des verrous techniques les plus discutés dans le secteur. PathPainter montre qu'un modèle génératif peut jouer le rôle de module de perception sémantique et de planification de haut niveau, réduisant la dépendance à des capteurs 3D coûteux ou à des cartes métriques préconstruites. La validation sur 160 mètres en extérieur reste modeste et les conditions précises du test ne sont pas détaillées dans l'abstract, ce qui invite à relativiser les conclusions avant une évaluation sur benchmarks standardisés. PathPainter s'inscrit dans l'essor des architectures VLA (Vision-Language-Action) appliquées à la navigation, un domaine où plusieurs groupes travaillent simultanément, notamment autour de modèles comme RT-2 (Google DeepMind), OpenVLA ou des travaux issus de Carnegie Mellon et Berkeley sur la navigation en langage naturel. L'usage de la vue aérienne comme prior global rappelle les approches de navigation par carte sémantique de haut niveau, mais ici la carte n'est pas fournie par un opérateur humain : elle est générée à la demande par le modèle. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks de navigation intérieure (Habitat, R2R) et une extension à des plateformes terrestres en environnement industriel ou logistique.

RobotiqueOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
323arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

RechercheOpinion
1 source
TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable
324arXiv cs.RO 

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, langage naturel et génération d'actions motrices, butent sur un problème connu : leur incapacité à généraliser à des scènes ou des objets non vus à l'entraînement. Une équipe de chercheurs propose TriRelVLA (arXiv:2605.05714, mai 2026), une architecture qui remplace les représentations visuelles implicites des VLA actuels par une structure relationnelle triadique explicite articulée autour de trois pôles : l'objet manipulé, la main du robot, et la tâche à accomplir. En pratique, le système construit ces représentations triadiques depuis des entrées multimodales, les organise dans un graphe relationnel via un graph transformer, puis compresse la structure dans un espace goulot (bottleneck) avant de l'injecter dans le LLM pour la prédiction d'action. Les auteurs introduisent également un jeu de données robotiques en environnement réel pour le fine-tuning et rapportent des gains en généralisation inter-scènes, inter-objets et inter-tâches. L'enjeu pour les intégrateurs industriels est direct : un système de manipulation qui échoue dès que la lumière change ou qu'une nouvelle référence produit apparaît n'est pas déployable à l'échelle. En découplant la structure relationnelle action-pertinente de l'apparence visuelle brute, TriRelVLA vise à rendre les politiques de contrôle portables entre environnements et configurations. La compression en espace bottleneck force le modèle à abstraire plutôt qu'à mémoriser, une approche qui, si elle tient à l'échelle, réduirait significativement les coûts de redéploiement dans de nouveaux ateliers ou avec de nouvelles références produit. Ce travail s'inscrit dans une vague de recherches sur les représentations structurées pour VLA, après des approches qui objectifiaient le contenu visuel sans capturer les relations pertinentes pour l'action. Les concurrents directs incluent pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), RT-2 et sa suite chez Google DeepMind, et GR00T N2 de NVIDIA, qui partagent tous le même défaut de sensibilité visuelle que TriRelVLA cherche à corriger. Ce papier reste un preprint non relu par les pairs, et les gains en généralisation annoncés n'ont pas encore été reproduits de manière indépendante. La mise à disposition du jeu de données réel représente la prochaine étape clé pour que la communauté puisse valider ces résultats.

RobotiqueOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
325arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

RobotiqueOpinion
1 source
Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP
326MarkTechPost 

Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP

Zyphra a publié une nouvelle technique d'entraînement et d'inférence pour les grands modèles de langage baptisée TSP, pour Tensor and Sequence Parallelism. Testée sur jusqu'à 1 024 GPU AMD MI300X, cette approche affiche un débit 2,6 fois supérieur aux configurations standards combinant parallélisme tensoriel et de séquence, tout en réduisant la mémoire de pointe par GPU sur les deux types de charge de travail, entraînement et inférence. L'idée centrale est ce que Zyphra appelle le "parallelism folding" : plutôt que de répartir les poids du modèle et les tokens de la séquence sur deux axes distincts d'une grille de GPU, TSP combine les deux sur un seul axe de taille D. Résultat : chaque GPU ne détient qu'un D-ième des poids du modèle et qu'un D-ième de la séquence d'entrée, ce qui réduit mécaniquement l'empreinte mémoire par appareil pour les paramètres, les gradients, les états de l'optimiseur et les activations, en un seul mouvement. Cela change concrètement la façon dont les ingénieurs peuvent planifier l'infrastructure pour les très grands modèles. Les deux approches dominantes jusqu'ici avaient chacune un défaut structurel : le parallélisme tensoriel (TP) réduit la mémoire des poids mais génère des communications dont le coût explose avec la longueur des séquences ; le parallélisme de séquence (SP) allège les activations mais laisse les poids entièrement répliqués sur chaque GPU. Combinés sur des axes orthogonaux, ces deux schémas exigent un groupe de T fois Sigma GPU par réplique du modèle, ce qui peut forcer les communications à transiter par des interconnexions inter-nœuds lentes comme InfiniBand, plutôt que par les tissus haute bande passante intra-nœuds comme AMD Infinity Fabric ou NVLink. TSP évite ce surcoût en maintenant tout le groupe sur un axe unique, suffisamment compact pour rester dans les liens rapides. La course aux grands modèles a rendu la gestion de la mémoire GPU aussi critique que les algorithmes eux-mêmes. Les entreprises comme OpenAI, Anthropic, Google ou Meta opèrent des clusters de plusieurs milliers de GPU où chaque point de pourcentage d'efficacité mémoire se traduit directement en coûts d'infrastructure ou en capacité à entraîner des modèles plus grands. Zyphra, startup spécialisée dans l'IA d'entreprise et les architectures hybrides comme Zamba, publie cette technique avec une description technique détaillée, signalant une volonté de peser dans les débats d'infrastructure aux côtés des équipes de recherche système de Google DeepMind, Meta FAIR ou Microsoft. TSP devra maintenant être évalué sur des architectures NVIDIA et des topologies de cluster variées pour confirmer si ses gains se généralisent au-delà des GPU AMD.

InfrastructureOpinion
1 source
Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé
327MarkTechPost 

Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé

La fiabilité des grands modèles de langage en production est devenue une préoccupation d'ingénierie à part entière. Un guide technique récemment publié identifie cinq techniques de prompting avancées, conçues non pas pour améliorer les résultats en moyenne, mais pour garantir leur cohérence dans des systèmes critiques. Ces méthodes opèrent entièrement au niveau du prompt, sans nécessiter de fine-tuning, de modification du modèle ni d'infrastructure supplémentaire. Les cinq techniques présentées sont : le prompting par rôle (role-specific prompting), le prompting négatif, le prompting structuré JSON, les requêtes de raisonnement attentif (ARQ, Attentive Reasoning Queries) et l'échantillonnage verbalisé (verbalized sampling). L'auteur les démontre en comparant côte à côte des résultats obtenus avec et sans chaque technique sur les mêmes tâches, en utilisant le modèle GPT-4o-mini d'OpenAI via l'API. La principale valeur de ces approches réside dans leur capacité à corriger des modes de défaillance précis. Le prompting par rôle, qui consiste à attribuer un persona dans le prompt système comme « vous êtes un chercheur senior en sécurité applicative », ne modifie pas les faits que le modèle connaît, mais change les parties de sa connaissance pondérées en priorité. Dans un exemple sur les tokens de session stockés en localStorage, la réponse sans rôle décrit les risques de manière générale, tandis que la réponse avec rôle raisonne comme un attaquant, en détaillant ce qu'un adversaire ferait concrètement en cas d'injection XSS. Le prompting négatif précise explicitement ce que le modèle ne doit pas faire, évitant certains formats, biais ou glissements stylistiques indésirables. Le JSON prompting contraint la sortie à une structure définie, indispensable lorsque le résultat doit être parsé par un programme en aval. Enfin, ARQ et l'échantillonnage verbalisé forcent le modèle à expliciter son raisonnement ou à explorer plusieurs hypothèses avant de conclure, réduisant les erreurs silencieuses qui passent inaperçues dans les évaluations rapides. Ces travaux s'inscrivent dans une tendance plus large de formalisation du prompt engineering comme discipline à part entière. Longtemps considéré comme de l'empirisme artisanal, le prompting fait l'objet depuis 2023 d'une littérature de recherche croissante : des équipes chez Google DeepMind, Meta et des chercheurs indépendants ont publié des taxonomies et des benchmarks pour évaluer ces techniques de manière systématique. L'enjeu est de taille : à mesure que les LLMs s'intègrent dans des pipelines automatisés comme l'analyse médicale, la génération de code ou le traitement juridique, la différence entre un prompt qui « marche souvent » et un prompt qui « marche toujours » devient une question de risque opérationnel. Les développeurs qui maîtrisent ces cinq techniques peuvent déployer des systèmes plus robustes sans modifier les modèles eux-mêmes, ce qui représente un avantage économique et technique considérable dans un contexte où le fine-tuning reste coûteux et complexe.

LLMsTuto
1 source
ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes
328arXiv cs.RO 

ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes

Une équipe de chercheurs a publié ImagineNav++ (arXiv:2512.17435, décembre 2024, version 3 en mai 2025), un système de navigation visuelle pour robots d'assistance domestique fonctionnant sans carte préalable, à partir d'un flux RGB ou RGB-D embarqué uniquement. Plutôt que de planifier en texte pur comme les agents LLM classiques, le système génère des images futures depuis des positions candidates du robot, puis soumet ces vues synthétiques à un modèle vision-langage (VLM) qui sélectionne la trajectoire la plus prometteuse. Deux composants structurent l'approche : un module d'imagination de vues futures entraîné sur des préférences de navigation humaine pour produire des points de vue à fort potentiel exploratoire, et un mécanisme de mémoire par fovéation sélective (sparse-to-dense) maintenant la cohérence spatiale sur de longues séquences. Sur les benchmarks open-vocabulary d'object navigation et d'instance navigation, ImagineNav++ atteint l'état de l'art en configuration sans carte, surpassant la majorité des méthodes basées sur des cartes explicites. Ce résultat remet en question une hypothèse structurante du domaine : que la navigation autonome en intérieur requiert impérativement une cartographie préalable (SLAM, occupancy maps). Si des VLMs peuvent raisonner spatialement à partir de flux visuels bruts, le pipeline de déploiement se simplifie considérablement pour les intégrateurs d'AMR et de robots d'assistance en environnements non structurés comme des logements ou des établissements de soins. La reformulation du problème comme sélection de meilleure vue est aussi une contribution méthodologique notable : elle rend le raisonnement spatial interprétable et compatible avec les interfaces VLM standard, sans nécessiter d'architecture spécialisée coûteuse. Ce travail prolonge une séquence de recherches cherchant à dépasser les LLM de navigation purement textuels, dont SayNav et LM-Nav, en y intégrant une perception visuelle fine. Les concurrents directs sont les méthodes map-based via SLAM et les approches hybrides récentes comme ESC ou CoW. Architecturalement, ImagineNav++ se rapproche des paradigmes VLA (Vision-Language-Action) explorés par des équipes chez Google DeepMind, Physical Intelligence (pi-0) ou dans le cadre de GR00T N2 chez NVIDIA. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une publication académique évaluée sur simulateurs et benchmarks standardisés, dont la généralisation en conditions réelles reste à valider.

RobotiqueOpinion
1 source
GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure
329Le Big Data 

GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure

Quelques jours à peine après le lancement de GPT-5.5, le PDG d'OpenAI Sam Altman a publié le 28 avril 2026 sur X une capture d'écran évoquant l'entraînement de GPT-6, avec la mention humoristique « encore plus de gobelins ». Ce teasing inattendu est né d'un bug désormais célèbre dans la communauté tech : depuis GPT-5.1, les modèles d'OpenAI glissaient régulièrement des gobelins, gremlins, trolls et autres créatures fantastiques dans leurs réponses, un comportement qui s'est amplifié de façon notable entre les versions GPT-5.2 et GPT-5.4. Face aux moqueries croissantes sur les réseaux sociaux, OpenAI a fini par intégrer des instructions explicites dans GPT-5.5 pour lui interdire de mentionner ces créatures. C'est cette révélation, découverte par des utilisateurs fouillant les paramètres du modèle, qui a mis le feu aux poudres sur X et poussé Altman à y répondre avec sa propre blague. Au-delà du trait d'humour, la sortie d'Altman a suffi à relancer les spéculations sur le calendrier de sortie de GPT-6. Le PDG n'a fourni aucune date, aucune fonctionnalité précise, aucun engagement formel. Pourtant, dans un secteur où chaque communication du dirigeant d'OpenAI est analysée au millimètre, la simple mention du nom GPT-6 dans un contexte public suffit à signaler que la prochaine génération est au moins en cours de développement actif. Pour les entreprises et développeurs qui intègrent les API d'OpenAI dans leurs produits, cela signifie que la fenêtre entre deux générations majeures continue de se réduire, comprimant les cycles d'adaptation. OpenAI traverse une période d'accélération intense sur son calendrier de sorties : GPT-4o, GPT-4.5, GPT-5, puis GPT-5.1 à 5.5 en l'espace de quelques mois, une cadence sans précédent dans l'histoire du laboratoire. Cette multiplication de versions intermédiaires traduit à la fois la pression concurrentielle exercée par Anthropic, Google DeepMind et les acteurs open source comme Meta, et la volonté d'OpenAI d'itérer rapidement en production plutôt qu'en laboratoire fermé. Les indices accumulés ces derniers mois sur GPT-6 suggèrent une architecture plus stable, une mémoire longue terme améliorée et une intégration plus profonde avec les fichiers et applications tierces. Quant aux gobelins, leur disparition officielle de GPT-5.5 illustre un problème récurrent dans l'entraînement des grands modèles de langage : des comportements émergents inattendus, difficiles à anticiper et à corriger sans instructions explicites.

UELes développeurs et entreprises européens intégrant les API d'OpenAI devront adapter leurs cycles de maintenance à une cadence de sorties qui continue de s'accélérer.

LLMsOpinion
1 source
Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde
330arXiv cs.RO 

Distillation par prévision privilégiée : correction future sans surcoût pour les modèles action-monde

Des chercheurs ont publié sur arXiv une méthode baptisée Privileged Foresight Distillation (PFD), conçue pour améliorer les modèles d'action robotiques sans coût supplémentaire à l'exécution. Ces "world action models" sont des systèmes d'IA entraînés à prédire simultanément des vidéos futures et des actions à effectuer, une architecture populaire dans le domaine de la manipulation robotique. La question centrale que les auteurs cherchent à résoudre est la suivante : à quoi sert réellement la branche de prédiction vidéo lors de l'entraînement, si elle peut être retirée à l'inférence sans perte significative de performance sur des benchmarks comme LIBERO et RoboTwin ? Leur réponse : la vision du futur crée pendant l'entraînement une correction précise et mesurable des actions prédites, correction qui peut être "distillée" dans un adaptateur léger attaché à un modèle n'observant que le présent. Concrètement, PFD fonctionne en deux temps : un modèle "enseignant" voit les vraies images futures pendant l'entraînement et génère une correction, calculée comme la différence entre ses prédictions avec et sans ces images ; un modèle "étudiant", qui n'a accès qu'à l'image courante, apprend à reproduire cette correction via un petit adaptateur. Les deux modèles partagent la même architecture visuelle et ne diffèrent que dans leur masque d'attention sur les tokens vidéo. À l'inférence, aucune vidéo future n'est générée, ce qui maintient une latence négligeable. Les tests sur LIBERO et RoboTwin confirment des gains constants de performance sans surcoût computationnel, ce qui rend la méthode directement applicable à des systèmes robotiques existants. Ce travail s'inscrit dans un débat plus large sur l'utilité des représentations temporelles dans les modèles génératifs appliqués à la robotique. La tendance des "world models", popularisée par des travaux de Google DeepMind, Tesla et d'autres laboratoires, consiste à entraîner des agents capables d'anticiper les conséquences de leurs actions. Jusqu'ici, une interprétation dominante voulait que la prédiction du futur n'agisse que comme régularisateur sur le backbone visuel partagé. PFD renverse cette lecture en montrant que le futur est une correction compressible et transmissible, plutôt qu'une cible de prédiction ou un simple bruit d'entraînement. Cette distinction ouvre des perspectives pour concevoir des robots plus précis tout en réduisant les contraintes d'inférence en temps réel.

RecherchePaper
1 source
Paramétrisations de croyances neuronales variationnelles pour une préhension dextre robuste sous incertitude multimodale
331arXiv cs.RO 

Paramétrisations de croyances neuronales variationnelles pour une préhension dextre robuste sous incertitude multimodale

Des chercheurs ont publié sur arXiv (référence 2604.25897) une nouvelle approche pour améliorer la fiabilité de la préhension robotique en présence d'incertitudes multiples : variation des contacts entre les doigts et l'objet, imprécision des capteurs, et perturbations extérieures. Leur système, baptisé "variational neural belief", représente l'état d'incertitude du robot sous forme d'un mélange gaussien différentiable, combiné à une technique d'échantillonnage appelée Gumbel-Softmax. L'objectif n'est pas d'optimiser la performance moyenne, mais de minimiser le risque dans les scénarios les plus défavorables, via un indicateur statistique nommé CVaR (Conditional Value-at-Risk). En simulation, la méthode réduit le temps de planification d'un facteur dix par rapport aux approches à filtre particulaire, qui constituent l'état de l'art actuel. Sur un bras robotique réel équipé d'une main multi-doigts, le système réussit à saisir et soulever des objets en présence d'incertitudes de pose, en moins d'étapes et en moins de temps qu'une approche gaussienne classique. L'erreur de calibration du risque reste en dessous de 0,14, contre 0,58 pour un planificateur concurrent basé sur la méthode d'entropie croisée. Ce résultat est important car la manipulation d'objets reste l'un des talons d'Achille de la robotique industrielle et domestique. Un robot qui calcule sa stratégie de saisie en se basant sur la performance moyenne échoue systématiquement dans les situations imprévues : surface glissante, légère erreur de positionnement, vibration. En passant à une optimisation orientée sur les cas extrêmes, cette approche rend la préhension robuste là où elle compte vraiment, sans sacrifier la vitesse de décision. La robotique de manipulation est depuis des années un champ de recherche intense, notamment dans les laboratoires de DeepMind, OpenAI Robotics et Carnegie Mellon, ainsi qu'au sein de startups comme Figure et Apptronik. L'approche des POMDPs sensibles au risque existait déjà en théorie, mais les méthodes à filtres particulaires se révèlent trop lentes et trop difficiles à optimiser par gradient pour un usage pratique. En substituant une représentation différentiable et différentiable par conception, les auteurs ouvrent la voie à une intégration dans des pipelines d'apprentissage end-to-end, ce qui pourrait accélérer significativement le déploiement de robots manipulateurs autonomes dans des environnements non contrôlés.

RobotiqueOpinion
1 source
Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive
332MarkTechPost 

Comment construire un agent incarné léger inspiré des VLA avec modélisation latente et commande prédictive

Un tutoriel publié récemment propose une implémentation complète d'un agent embarqué capable de percevoir son environnement, planifier ses actions, prédire les conséquences de ses décisions et s'adapter en temps réel, le tout à partir de simples pixels. L'architecture s'appuie sur trois composants intégrés : un monde de simulation rendu entièrement en NumPy sous forme de grille RGB 8x8, un modèle de monde léger entraîné avec PyTorch, et un système de contrôle prédictif (Model Predictive Control, MPC) opérant dans un espace latent. L'agent ne reçoit aucune variable d'état symbolique : il perçoit uniquement des images RGB de 112x112 pixels représentant sa position, celle de l'objectif à atteindre, et les obstacles à éviter. Le modèle encode ces observations visuelles en représentations latentes compactes, prédit les états futurs conditionnés par des séquences d'actions, et sélectionne à chaque pas de temps la meilleure séquence en simulant plusieurs trajectoires candidates avant d'exécuter la première action. Cette approche est significative parce qu'elle démontre qu'un pipeline de type Vision-Language-Action, jusqu'ici réservé à des systèmes coûteux en ressources, peut être reproduit à petite échelle de façon pédagogique et fonctionnelle. En remplaçant l'état symbolique par de la perception visuelle brute, le tutoriel illustre concrètement comment les agents robotiques modernes peuvent opérer dans des environnements partiellement observables sans accès privilégié à l'état interne du monde. Le MPC en espace latent offre en outre une planification explicitement interprétable : au lieu d'une politique apprise de bout en bout, l'agent évalue activement de futures trajectoires à chaque étape, ce qui facilite le débogage et l'adaptation à des contraintes changeantes. Pour les chercheurs et ingénieurs travaillant sur la robotique ou les agents autonomes, cette implémentation constitue un point de départ accessible pour comprendre les mécanismes des systèmes comme GATO (DeepMind) ou RT-2 (Google), sans nécessiter de clusters GPU. Les agents Vision-Language-Action ont émergé ces deux dernières années comme l'une des directions les plus prometteuses en robotique incarnée, combinant perception visuelle, compréhension du langage naturel et planification motrice au sein d'un modèle unifié. Des entreprises comme Google DeepMind, Physical Intelligence (pi) et Figure AI investissent massivement dans ces architectures pour des robots capables d'exécuter des instructions en langage naturel dans des environnements réels. Le défi central reste la généralisation : un agent entraîné dans un environnement simulé doit pouvoir transférer ses capacités au monde physique, problème connu sous le nom de "sim-to-real gap". Ce tutoriel, bien que confiné à une grille simplifiée, pose les fondations conceptuelles de cette chaîne de traitement et constitue un outil de formation précieux à mesure que le domaine se démocratise.

RobotiqueTuto
1 source
M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences
333arXiv cs.RO 

M²-VLA : améliorer les VLA pour la manipulation robotique généraliste par mélange de couches et méta-compétences

Une équipe de chercheurs vient de publier sur arXiv (référence 2604.24182) un nouveau système baptisé M²-VLA, conçu pour améliorer la polyvalence des robots guidés par des modèles vision-langage-action. Contrairement à l'approche dominante qui consiste à affiner intégralement ces modèles sur des tâches robotiques spécifiques, M²-VLA exploite directement un grand modèle vision-langage (VLM) comme colonne vertébrale, sans le réentraîner de bout en bout. Le système introduit deux innovations architecturales : une stratégie dite Mixture of Layers (MoL), qui extrait sélectivement les informations critiques dans les couches denses du modèle, et un Meta Skill Module (MSM), qui intègre des biais inductifs pour accélérer l'apprentissage de trajectoires de mouvements dans un contexte de capacité de calcul limitée. Les résultats ont été validés à la fois dans des environnements simulés et dans des conditions réelles. L'enjeu central que résout cette architecture est ce qu'on appelle l'oubli catastrophique : lorsqu'un modèle pré-entraîné est spécialisé par fine-tuning pour une tâche robotique précise, il perd progressivement ses capacités de généralisation acquises durant le pré-entraînement. En préservant le VLM intact et en lui greffant des modules dédiés, M²-VLA permet aux robots d'aborder des situations inédites sans réentraînement, ce qu'on qualifie de généralisation zéro-shot. Cette propriété est déterminante pour l'industrie : un bras robotique déployé en usine ou en logistique doit pouvoir s'adapter à des variantes de tâches sans que chaque nouveau scénario exige de nouvelles données annotées et un cycle de réentraînement coûteux. Le domaine des modèles vision-langage-action connaît une intense activité de recherche depuis que des systèmes comme RT-2 de Google DeepMind ont démontré qu'un LLM pouvait piloter un robot à partir d'instructions en langage naturel. La tension entre spécialisation et généralisation reste le principal point de friction : les modèles fins performent bien sur leurs tâches d'entraînement mais échouent dès que le contexte change légèrement. M²-VLA s'inscrit dans un courant qui cherche à résoudre cette tension en traitant le VLM comme un socle immuable, à la manière du paradigme d'adaptation par adaptateurs (LoRA, adapters) en NLP. L'équipe promet de rendre le code et les modèles pré-entraînés publiquement disponibles, ce qui devrait permettre à la communauté robotique d'évaluer ces résultats et de les étendre à de nouveaux environnements.

RechercheOpinion
1 source
SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme
334arXiv cs.RO 

SARM : une modélisation des récompenses adaptée aux étapes pour la manipulation robotique à long terme

Des chercheurs ont publié SARM (Stage-Aware Reward Modeling), un nouveau cadre d'apprentissage destiné aux robots manipulateurs, conçu pour résoudre des tâches longues et complexes impliquant des objets déformables. Le système repose sur un modèle de récompense vidéo qui prédit simultanément l'étape courante d'une tâche et la progression fine du robot, en s'appuyant sur des annotations en langage naturel pour découper les démonstrations en sous-tâches cohérentes. À partir de ce modèle, les auteurs introduisent le Reward-Aligned Behavior Cloning (RA-BC), une méthode qui filtre et repondère les démonstrations d'entraînement selon leur qualité estimée. Sur la tâche de pliage de t-shirt, SARM atteint un taux de réussite de 83 % à partir d'un état aplati et de 67 % à partir d'un état froissé, contre seulement 8 % et 0 % avec le clonage comportemental classique. Ces résultats représentent un bond considérable pour la robotique manipulation, un domaine où les objets déformables comme les vêtements posaient jusqu'ici des problèmes quasi insolubles aux systèmes automatisés. Le principal apport de SARM est sa robustesse face à la variabilité des démonstrations humaines : plutôt que d'indexer les étapes par numéro de frame (une approche fragile dès que les durées varient), le modèle comprend sémantiquement où en est le robot dans la tâche. Cela rend le système directement utilisable dans des environnements réels, sans calibration fine pour chaque nouvelle variante du problème. L'apprentissage par imitation à grande échelle est au coeur de la robotique moderne, portée par des laboratoires comme Google DeepMind, Stanford ou Carnegie Mellon, ainsi que des startups comme Physical Intelligence. Le défi persistant est la qualité inconsistante des données de démonstration collectées sur des tâches longues : un seul geste maladroit peut corrompre tout un exemple d'entraînement. SARM aborde ce problème en amont, au niveau de la supervision, plutôt qu'en collectant toujours plus de données. Cette approche, à la fois économe en annotations et généralisable hors distribution, pourrait devenir un composant standard des pipelines de robot learning dans les prochaines années.

RobotiqueOpinion
1 source
EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage
335arXiv cs.RO 

EL3DD : diffusion 3D latente étendue pour la manipulation multi-tâches guidée par le langage

Des chercheurs ont présenté EL3DD (Extended Latent 3D Diffusion), un cadre de politique visuomotrice conçu pour permettre aux robots d'exécuter des tâches de manipulation physique à partir de commandes en langage naturel. Le système fusionne des entrées visuelles et textuelles au sein de modèles de diffusion pour produire des trajectoires robotiques précises, en s'appuyant sur des démonstrations de référence pendant l'entraînement. Évalué sur le benchmark CALVIN, référence standard pour la manipulation robotique multi-tâches, le modèle affiche des performances améliorées sur l'ensemble des tâches testées et un taux de réussite accru sur les séquences longues, c'est-à-dire lorsque plusieurs tâches sont enchaînées consécutivement. L'approche étend un modèle existant grâce à des embeddings améliorés et à l'adaptation de techniques issues de la génération d'images par diffusion. Cette avancée est significative pour le domaine de la robotique généraliste, car la capacité à comprendre le langage naturel et à l'appliquer à des tâches physiques dans des environnements humains reste l'un des verrous majeurs du secteur. Le gain sur les séquences longues est particulièrement notable: dans des applications réelles, un robot domestique ou industriel doit enchaîner plusieurs gestes sans intervention humaine, et chaque erreur dans la séquence se propage aux suivantes. Un taux de réussite accru sur ces horizons prolongés rapproche les systèmes actuels d'une utilisabilité concrète hors laboratoire, que ce soit en logistique, en chirurgie assistée ou dans les services à domicile. La recherche s'inscrit dans un mouvement plus large d'application des modèles de diffusion, rendus célèbres par leur efficacité en génération d'images avec des systèmes comme Stable Diffusion ou DALL-E, au contrôle robotique. Le dataset CALVIN, utilisé pour l'évaluation, est conçu pour tester la généralisation des robots à des environnements variés et à des instructions formulées de multiples façons. EL3DD contribue ainsi au développement de politiques robotiques multi-tâches généralisables, un enjeu central pour des acteurs comme Google DeepMind, Physical Intelligence ou de nombreux laboratoires académiques travaillant sur les robots de prochaine génération.

RechercheActu
1 source
Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle
336arXiv cs.RO 

Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle

Des chercheurs ont développé BiDemoSyn, un système capable de générer automatiquement des milliers de démonstrations d'entraînement pour des robots à deux bras à partir d'un seul exemple réel. Présenté dans un article publié sur arXiv (arXiv:2512.09297), le framework décompose chaque tâche en deux composantes : des blocs de coordination invariants, communs à toutes les exécutions, et des ajustements variables selon la forme et la position des objets manipulés. En combinant un alignement guidé par vision artificielle et une optimisation légère des trajectoires, le système produit des données d'entraînement riches en contacts physiques et réalistes, le tout en quelques heures, sans nécessiter des sessions répétées de téléopération humaine. Les expériences couvrent six tâches différentes impliquant deux bras robotiques simultanés. L'enjeu est considérable : entraîner des robots capables de manipuler des objets avec les deux mains de façon habile reste l'un des défis les plus difficiles de la robotique d'apprentissage par imitation. Jusqu'ici, les équipes devaient choisir entre la téléopération, précise mais extrêmement coûteuse en temps humain, et la simulation, scalable mais souvent déconnectée de la réalité physique. BiDemoSyn court-circuite ce compromis : les politiques entraînées sur ses données généralisent à de nouvelles poses et formes d'objets inédits, surpassant nettement les méthodes de référence existantes. Plus remarquable encore, ces politiques réalisent un transfert zéro-shot vers d'autres plateformes robotiques, sans réentraînement, grâce à une représentation centrée sur les objets et une action en six degrés de liberté découplée de la mécanique propre à chaque robot. Ce travail s'inscrit dans une course intense à la scalabilité des données robotiques, un goulot d'étranglement majeur qui freine le déploiement de robots polyvalents dans des environnements industriels et domestiques. Des acteurs comme Google DeepMind, Physical Intelligence ou Tesla Optimus investissent massivement dans cette problématique. BiDemoSyn propose une voie intermédiaire pragmatique : ancrer les données dans le réel dès la première démonstration, puis les amplifier algorithmiquement. L'extension naturelle en mode few-shot, également démontrée dans l'article, ouvre la perspective d'une diversification encore plus large avec un effort humain minimal, rapprochant l'apprentissage par imitation d'une industrialisation viable.

RobotiqueOpinion
1 source
Apprentissage par renforcement visuel centré sur l'agent face aux perturbations dynamiques
337arXiv cs.RO 

Apprentissage par renforcement visuel centré sur l'agent face aux perturbations dynamiques

Des chercheurs ont présenté dans un article arXiv (référence 2504.24661) un nouveau cadre d'apprentissage par renforcement visuel, baptisé ACO-MoE (Agent-Centric Observations with Mixture-of-Experts), conçu pour rendre les agents d'IA robustes face à des perturbations visuelles dynamiques et imprévisibles. Pour évaluer ce problème de manière rigoureuse, l'équipe a d'abord introduit le Visual Degraded Control Suite (VDCS), un benchmark qui étend la suite de référence DeepMind Control Suite en y intégrant des dégradations à commutation markovienne, simulant ainsi les perturbations non-stationnaires du monde réel, comme des corruptions qui changent de nature de façon imprévisible au fil du temps. Les expériences menées sur ce nouveau benchmark ont révélé des effondrements sévères des performances des méthodes existantes dans ces conditions. L'enjeu est considérable pour tous les systèmes d'IA qui apprennent à agir à partir d'images, notamment en robotique, en conduite autonome ou dans les environnements simulés utilisés pour l'entraînement. Les auteurs démontrent théoriquement, via une analyse en théorie de l'information, que cet échec provient d'un défaut fondamental des approches classiques : les objectifs basés sur la reconstruction mêlent inévitablement les artefacts de corruption aux représentations latentes de l'agent, l'empêchant de séparer ce qui est pertinent pour la tâche du bruit visuel. ACO-MoE résout ce problème en déployant des experts de restauration centrés sur l'agent, qui isolent d'abord le premier plan utile et éliminent les corruptions avant que l'agent ne traite l'observation. Résultat : sur VDCS, le système récupère 95,3 % des performances obtenues en conditions visuelles propres, même face aux corruptions à commutation markovienne les plus difficiles. Ce travail s'inscrit dans une préoccupation croissante de la communauté de l'apprentissage par renforcement visuel : les agents entraînés en simulation ou en laboratoire échouent fréquemment en conditions réelles à cause de variations visuelles non anticipées. Les benchmarks existants, dont DMControl, testaient essentiellement des perturbations statiques et prévisibles ; VDCS comble ce manque en modélisant des changements de régime dynamiques. ACO-MoE établit également de nouveaux résultats état de l'art sur DMControl Generalization avec des perturbations de couleur aléatoire et de fond vidéo, deux scénarios classiques du domaine, ce qui suggère que l'approche pourrait s'imposer comme référence pour la robustesse des agents visuels dans des environnements ouverts.

RecherchePaper
1 source
Flux sensoriel modulaire pour intégrer le feedback physique dans les modèles vision-langage-action
338arXiv cs.RO 

Flux sensoriel modulaire pour intégrer le feedback physique dans les modèles vision-langage-action

Des chercheurs ont publié fin avril 2026 sur arXiv un article présentant MoSS (Modular Sensory Stream), un cadre modulaire conçu pour enrichir les modèles Vision-Langage-Action (VLA) avec des retours physiques multiples. Les VLA sont des systèmes d'intelligence artificielle utilisés en robotique pour interpréter des scènes visuelles et du langage naturel afin de générer des actions. MoSS introduit des flux de modalités découplés qui intègrent des signaux physiques hétérogènes, notamment tactiles et de couple mécanique (torque), directement dans le flux d'action du modèle via un mécanisme d'attention croisée. Un schéma d'entraînement en deux étapes, où les paramètres du VLA préentraîné sont d'abord gelés, assure une incorporation stable des nouvelles modalités. Des expériences en conditions réelles démontrent des gains de performance synergiques lorsque ces signaux sont combinés. L'enjeu est considérable pour la robotique de manipulation. Aujourd'hui, la grande majorité des VLA reposent quasi exclusivement sur la vision, ce qui les rend aveugles aux informations que procure le toucher ou la résistance mécanique lors d'un contact. Un robot vissant un écrou, saisissant un objet fragile ou détectant un glissement ne peut s'appuyer sur la caméra seule pour ajuster sa prise en temps réel. MoSS montre que l'ajout de signaux tactiles et de couple, traités en parallèle plutôt qu'en série, améliore la précision des actions de manière complémentaire, chaque modalité compensant les angles morts des autres. Les VLA sont devenus l'un des fronts les plus actifs de la recherche en robotique depuis l'émergence de modèles comme RT-2 (Google DeepMind) ou OpenVLA. La tendance dominante consistait jusqu'ici à enrichir la composante visuelle ou langagière de ces systèmes, en négligeant les sens physiques que les humains mobilisent naturellement pour manipuler des objets. MoSS s'inscrit dans un courant émergent qui cherche à doter les robots d'une perception proprioceptive et haptique plus fine. La nature modulaire du framework facilite l'ajout de nouvelles modalités sensorielles à l'avenir, ce qui ouvre la voie à des robots capables d'intégrer température, vibration ou pression sans nécessiter une refonte complète de l'architecture.

RobotiqueOpinion
1 source
dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète
339arXiv cs.RO 

dWorldEval : évaluation évolutive de politiques robotiques via un modèle du monde à diffusion discrète

Une équipe de chercheurs présente dWorldEval (arXiv:2604.22152, avril 2026), un système d'évaluation de politiques robotiques basé sur un modèle de monde à diffusion discrète. Le principe : plutôt que de tester une politique de contrôle sur des milliers d'environnements réels ou simulés classiques, dWorldEval joue le rôle d'un proxy d'évaluation synthétique. Le modèle projette l'ensemble des modalités, vision, langage, actions robotiques, dans un espace de tokens unifié, puis les débruite via un unique réseau transformer. Il intègre une mémoire sparse par images-clés pour maintenir la cohérence spatiotemporelle sur des séquences longues, et introduit un "progress token" qui quantifie en continu le degré d'accomplissement d'une tâche, de 0 à 1. À l'inférence, le modèle prédit conjointement les observations futures et ce token de progression, détectant automatiquement le succès quand la valeur atteint 1. Sur les benchmarks LIBERO, RoboTwin et plusieurs tâches sur robots réels, dWorldEval surpasse ses prédécesseurs directs WorldEval, Ctrl-World et WorldGym, bien que l'abstract ne fournisse pas de deltas chiffrés précis. L'enjeu central est méthodologique : évaluer une politique robotique sur des milliers de configurations est actuellement soit prohibitif en temps machine, soit impossible à déployer sur robots physiques à cette échelle. Un proxy d'évaluation fiable et automatisable change radicalement l'économie du développement de politiques VLA (Vision-Language-Action). Le progress token élimine la nécessité d'une annotation humaine ou de critères de succès codés en dur, un goulot d'étranglement récurrent dans les pipelines d'apprentissage par imitation et de reinforcement learning robotique. Si les performances se confirment sur des scénarios out-of-distribution, cette approche pourrait accélérer significativement les itérations sim-to-real dans des labs qui déploient des modèles comme pi0, GR00T N2 ou OpenVLA. Le travail s'inscrit dans une vague de modèles de monde pour la robotique, dont WorldEval (évaluation via prédiction vidéo) et Ctrl-World (modèle conditionné par actions), que dWorldEval dépasse selon ses auteurs. L'usage de la diffusion discrète, plutôt que continue, sur des tokens multimodaux rappelle les approches de tokenisation unifiée portées par des projets comme Genie 2 (Google DeepMind) ou UniSim. L'article reste un preprint non revu par les pairs ; les résultats sur robots réels sont mentionnés sans détails de setup ni volumétrie d'expériences. Les prochaines étapes naturelles seraient une validation sur des benchmarks ouverts plus larges et un test de robustesse face à des tâches longue-horizon avec contacts complexes.

RechercheOpinion
1 source
VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles
340arXiv cs.RO 

VistaBot : manipulation robotique robuste aux points de vue grâce à la synthèse de vues spatio-temporelles

Des chercheurs ont publié VistaBot, un framework de manipulation robotique ciblant un angle mort des politiques end-to-end actuelles : leur fragilité face aux changements de point de vue de caméra entre entraînement et déploiement. La préprint arXiv 2604.21914, déposée en avril 2026, décrit une architecture en trois modules : estimation de géométrie 4D, synthèse de vue par diffusion vidéo, et planification d'actions en espace latent, sans recalibration de caméra requise au moment du déploiement. Intégré dans deux politiques de référence du domaine, ACT (Action Chunking Transformer) et π₀ (la politique diffusion-based de Physical Intelligence), VistaBot améliore la métrique VGS (View Generalization Score, introduite par les auteurs) de 2,79x par rapport à ACT et de 2,63x par rapport à π₀, en simulation et en environnement réel. Le code et les modèles seront publiés en open source. La dépendance à un point de vue fixe constitue un frein structurel au déploiement des bras manipulateurs en conditions industrielles : une caméra repositionnée ou partiellement obstruée peut invalider un modèle entier sans mécanisme de compensation. VistaBot répond en synthétisant dynamiquement des vues alternatives via un modèle de diffusion vidéo, puis en planifiant les actions dans l'espace latent de ces vues synthétisées, sans recollecte de données depuis le nouvel angle. Pour un intégrateur ou un COO industriel, cela réduit directement le coût de reconfiguration sur ligne. L'introduction du VGS comble également un vide méthodologique : le domaine ne disposait pas de benchmark standardisé pour comparer la robustesse cross-view entre politiques, rendant les comparaisons entre travaux difficiles. Le problème de robustesse aux points de vue est documenté en imitation learning depuis plusieurs années, mais les solutions disponibles exigeaient soit une augmentation intensive des données, soit une calibration caméra explicite à chaque reconfiguration. Physical Intelligence, fondée en 2023, a développé π₀ comme politique généraliste de manipulation. D'autres acteurs comme Google DeepMind (RT-2 et ses successeurs), Figure AI (Figure 03) ou 1X Technologies ciblent des architectures VLA à plus large spectre sans traiter spécifiquement cet axe de robustesse aux vues. VistaBot reste une contribution académique préliminaire : la préprint n'est pas encore revue par les pairs, les tâches réelles évaluées ne sont pas décrites en détail, et les gains annoncés devront être confirmés par des reproductions indépendantes une fois le code disponible.

RobotiquePaper
1 source
Planification VLA à horizon étendu par conditionnement sur traces
341arXiv cs.RO 

Planification VLA à horizon étendu par conditionnement sur traces

Une équipe de chercheurs a publié en avril 2026 LoHo-Manip (arXiv:2604.21924), un cadre modulaire conçu pour étendre les politiques VLA (vision-language-action) aux tâches de manipulation longue durée. Le coeur du système repose sur une architecture découplée : un VLM gestionnaire de tâches et un VLA exécuteur distincts. Le gestionnaire opère selon un principe de planification à horizon glissant (receding-horizon) : à chaque étape, il prédit un plan résiduel combinant une séquence de sous-tâches avec une séparation explicite "fait / restant" comme mémoire légère en langage naturel, et une trace visuelle, une trajectoire 2D de points-clés indiquant au bras où se déplacer et quel objet approcher. L'exécuteur VLA est ensuite conditionné sur cette trace rendue pour produire ses commandes motrices. Les expériences couvrent la planification incarnée, le raisonnement longue portée, la prédiction de trajectoire et la manipulation bout-en-bout, à la fois en simulation et sur un robot Franka réel, avec des gains annoncés en taux de succès, robustesse et généralisation hors distribution. Les métriques précises ne sont pas communiquées dans le préprint. Ce qui distingue LoHo-Manip des approches VLA classiques, c'est le bouclage implicite sans logique de récupération codée en dur : lorsqu'une sous-tâche échoue, elle reste dans le plan résiduel prédit au pas suivant, et la trace visuelle se met à jour automatiquement. Les modèles VLA actuels comme pi0 (Physical Intelligence) ou OpenVLA peinent sur les séquences multi-étapes en raison de l'accumulation d'erreurs d'exécution ; LoHo-Manip traite ce problème en transformant la prise de décision longue portée en une série de contrôles locaux guidés par trace. Pour un intégrateur industriel, cela ouvre la voie à des chaînes de manipulation complexes (assemblage séquentiel, tri multi-objets) sans reprogrammation manuelle à chaque point de défaillance, ce que les approches purement symboliques ne permettent pas sans pipeline rigide. Le problème de la manipulation longue portée est un obstacle structurel de la robotique VLA depuis l'émergence des modèles fondationnels en action, notamment après les travaux RT-2 de Google DeepMind (2023) et pi0 de Physical Intelligence (2024). La plupart des solutions actuelles combinent un planificateur symbolique haut niveau avec des primitives de bas niveau, au prix d'une rigidité importante face aux perturbations. LoHo-Manip adopte une voie intermédiaire en ancrant le plan dans une modalité visuelle légère (la trace 2D) plutôt que dans des primitives figées, ce qui est comparable dans l'esprit aux travaux de trajecto-conditioned diffusion de chez Nvidia (GR00T) ou de Cobot Magic. Il s'agit pour l'instant d'un preprint non relu par les pairs, validé sur un seul robot académique (Franka 7 DOF), sans déploiement industriel ni pilote annoncé. Les prochaines étapes crédibles passeraient par une validation sur des manipulateurs à plus haute redondance et des environnements moins structurés.

RobotiqueOpinion
1 source
Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts
342MarkTechPost 

Tutoriel OpenMythos : Transformers à profondeur récurrente, calcul adaptatif et routage par mélange d'experts

Une bibliothèque Python open source baptisée OpenMythos propose une reconstruction théorique de l'architecture dite "Claude Mythos", une approche de raisonnement approfondi qui mise sur l'itération computationnelle plutôt que sur l'augmentation du nombre de paramètres. Publiée sur PyPI sous le nom open-mythos, elle permet de construire des modèles de langage dotés d'un mécanisme de profondeur récurrente, où la même couche de traitement est traversée plusieurs fois en boucle. Le tutoriel publié explore deux variantes du mécanisme d'attention : GQA (Grouped Query Attention) et MLA (Multi-head Latent Attention), compare leur empreinte mémoire respective, entraîne un modèle sur une tâche de parité binaire, et inspecte l'utilisation des experts dans des couches de type Mixture-of-Experts (MoE). Les expériences montrent que MLA réduit la taille du cache KV d'un facteur d'environ 2 par rapport à GQA pour une séquence de 64 tokens sur 4 boucles. L'enjeu central de l'architecture est ce que les auteurs appellent la "depth extrapolation" : la capacité à augmenter le nombre de boucles de raisonnement au moment de l'inférence, sans réentraîner le modèle. Un modèle entraîné avec 4 itérations peut ainsi être utilisé avec 8 ou 16 boucles pour améliorer ses performances sur des tâches complexes, sans modifier aucun paramètre. Ce paradigme s'inscrit dans la tendance plus large du "test-time compute", qui consiste à allouer davantage de calcul au moment de la génération plutôt qu'à l'entraînement. Le tutoriel valide également la stabilité numérique du modèle via les propriétés spectrales de la matrice de mise à jour récurrente, un point critique pour éviter l'explosion ou la disparition des gradients dans les boucles profondes. Le module ACT (Adaptive Computation Time) permet en outre au modèle de décider dynamiquement combien d'itérations sont nécessaires pour chaque token. Cette publication s'inscrit dans un contexte de forte effervescence autour des architectures alternatives aux transformeurs classiques. La référence à "Claude Mythos" suggère une inspiration directe des travaux d'Anthropic, même si le projet reste une reconstruction théorique non officielle. Le champ des architectures récurrentes profondes connaît un regain d'intérêt depuis 2024, porté par des travaux comme les Recurrent Depth Transformers de Google DeepMind et les architectures hybrides SSM/attention. OpenMythos se positionne comme un outil pédagogique et expérimental pour explorer ces idées, à destination de chercheurs et d'ingénieurs qui cherchent à comprendre comment atteindre des capacités de raisonnement plus profondes sans multiplier les paramètres, une piste particulièrement pertinente dans un contexte où l'entraînement de modèles frontières est devenu prohibitif pour la majorité des acteurs.

RecherchePaper
1 source
Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI
343SCMP Tech 

Tencent dévoile son premier grand modèle IA, dirigé par un ancien chercheur d'OpenAI

Tencent Holdings a dévoilé jeudi son nouveau modèle d'intelligence artificielle phare, baptisé HY3-Preview, marquant une étape importante dans la stratégie IA du groupe de Shenzhen. C'est le premier grand modèle lancé depuis que Yao Shunyu, ancien chercheur chez OpenAI, a rejoint l'entreprise pour diriger ses efforts en IA fondamentale. Fermé et non accessible au public en open source, HY3-Preview se distingue par une architecture relativement compacte de 295 milliards de paramètres, une taille modeste pour un modèle de cette ambition. Tencent positionne HY3-Preview comme son modèle le plus puissant à ce jour, comparable aux meilleures solutions chinoises disponibles, mais encore en retrait face aux leaders américains comme OpenAI et Google DeepMind. L'arrivée de Yao Shunyu, figure reconnue de la recherche en IA, signale la volonté du groupe de monter en gamme sur les fondations mêmes de ses systèmes, au-delà de ses applications existantes comme Weixin ou Tencent Cloud. Ce lancement s'inscrit dans une intense course technologique entre les géants technologiques chinois, qui cherchent à réduire l'écart avec les États-Unis dans un contexte de restrictions à l'export de puces Nvidia. Alibaba, Baidu, et ByteDance ont chacun intensifié leurs investissements en modèles fondationnels ces derniers mois. Que Tencent, longtemps perçu comme plus discret sur ce terrain, franchisse ce cap avec un recrutement aussi symbolique qu'un ex-OpenAI, témoigne d'une accélération générale de la compétition IA en Asie.

LLMsActu
1 source
Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme
344arXiv cs.RO 

Agent robotique évolutif pour la manipulation via réflexion et optimisation à court et long terme

Des chercheurs ont publié sur arXiv un nouveau cadre algorithmique, baptisé EEAgent (Evolvable Embodied Agent), conçu pour doter les robots d'une capacité d'adaptation continue sans nécessiter de réentraînement lourd. Le système s'appuie sur des modèles de vision et de langage (VLMs) de grande taille pour interpréter l'environnement et planifier les actions du robot. Sa pièce maîtresse est un mécanisme appelé LSTRO (Long Short-Term Reflective Optimization), qui affine dynamiquement les instructions en combinant les expériences passées et les leçons récemment apprises. Évalué sur six tâches du benchmark VIMA-Bench, EEAgent établit un nouvel état de l'art et surpasse significativement les systèmes concurrents, notamment dans les scénarios les plus complexes. Ce travail s'attaque à un obstacle central de la robotique moderne : la généralisation. Les approches traditionnelles nécessitent des données d'entraînement massives et peinent à transférer leurs compétences d'une tâche à une autre, tout en restant difficiles à interpréter. EEAgent contourne ce problème en remplaçant le réentraînement par une réflexion structurée sur l'expérience accumulée, une approche analogue à ce qu'un opérateur humain ferait naturellement. La distinction court terme / long terme dans LSTRO permet au robot de ne pas simplement mémoriser ses erreurs récentes, mais d'en distiller des principes généraux réutilisables, améliorant les taux de réussite sur des tâches variées sans intervention humaine supplémentaire. La course à la robotique généraliste s'est intensifiée ces dernières années, portée par des acteurs comme Boston Dynamics, Figure, Physical Intelligence ou Google DeepMind. Tous cherchent à créer des systèmes capables d'opérer dans des environnements non structurés sans reprogrammation constante. L'apprentissage par prompts, que EEAgent pousse plus loin avec LSTRO, s'affirme comme une alternative légère aux pipelines d'apprentissage par renforcement classiques, coûteux en calcul et en données. Si les résultats sur VIMA-Bench sont encourageants, la prochaine étape sera de valider ce type de système dans des environnements physiques réels, là où la robustesse et l'adaptabilité sont véritablement mises à l'épreuve.

RechercheOpinion
1 source
VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle
345arXiv cs.RO 

VTouch++ : jeu de données multimodal combinant vision et retour tactile pour la manipulation bimanuelle

Des chercheurs ont publié VTOUCH, un nouveau jeu de données multimodal conçu pour améliorer la manipulation bimanuelles des robots, c'est-à-dire la capacité d'un robot à utiliser deux bras de manière coordonnée. Présenté sur arXiv (référence 2604.20444), ce dataset combine des capteurs tactiles basés sur la vision pour fournir des signaux d'interaction physique haute fidélité. Concrètement, ces capteurs permettent au robot de "sentir" les contacts et pressions lors de tâches complexes, comme assembler un objet ou manipuler des matériaux fragiles. La collecte des données s'appuie sur des pipelines automatisés couvrant des scénarios réels orientés par la demande, et l'organisation des tâches suit une structure matricielle pensée pour faciliter l'apprentissage systématique à grande échelle. La manipulation bimanualle reste l'un des défis les plus ardus de la robotique incarnée, notamment parce que les tâches à fort contact physique exigent une coordination fine et des retours sensoriels précis que les datasets existants ne capturent pas suffisamment. VTOUCH répond directement à ce manque en intégrant des signaux tactiles riches là où la plupart des jeux de données se limitent à la vision ou aux données proprioceptives. Les expériences quantitatives menées sur la récupération cross-modale, ainsi que les évaluations sur robots réels, confirment l'efficacité du dataset. Plus important encore, les chercheurs ont démontré que les politiques entraînées sur VTOUCH se généralisent à plusieurs types de robots et plusieurs types de tâches, ce qui en fait un outil potentiellement mutualisable à travers l'industrie. La robotique incarnée connaît une accélération notable depuis l'essor des grands modèles de langage et vision, des acteurs comme Google DeepMind, Figure AI ou Physical Intelligence investissant massivement dans des robots capables d'opérer dans des environnements non structurés. La manipulation bimanualle est un goulot d'étranglement reconnu : même les systèmes les plus avancés peinent à égaler la dextérité humaine dans des tâches d'assemblage ou de cuisine. VTOUCH s'inscrit dans une tendance plus large de constitution de datasets spécialisés de grande échelle, à l'image d'Open X-Embodiment, pour accélérer l'entraînement de politiques robotiques généralisables. La prochaine étape sera de voir si ce dataset est rendu public et adopté par la communauté au-delà du laboratoire d'origine.

RobotiqueActu
1 source
OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain
346arXiv cs.RO 

OmniUMI : vers un apprentissage robotique ancré dans le monde physique par interaction multimodale alignée sur l'humain

Des chercheurs ont présenté OmniUMI, un nouveau cadre d'apprentissage robotique conçu pour dépasser les limites des systèmes actuels en intégrant des données multimodales physiquement ancrées. Là où les interfaces de type UMI existantes se limitent à des observations visuelles RGB et des trajectoires, OmniUMI capture simultanément six types de données : images RGB, profondeur, trajectoire, retour tactile, force de préhension interne et couple d'interaction externe. Ce dispositif tient dans la main et maintient une cohérence entre la phase de collecte des démonstrations humaines et le déploiement sur le robot, grâce à une conception d'embodiment partagé. Les politiques apprises reposent sur une extension de la diffusion policy intégrant ces signaux visuels, tactiles et de force, déployée via une exécution à impédance pour réguler conjointement le mouvement et le contact. Les expériences valident le système sur des tâches comme le saisissement et le dépôt sensibles à la force, l'effacement de surface interactif, et le relâchement sélectif guidé par le toucher. La portée de cette avancée tient à un problème fondamental de la robotique : les tâches impliquant un contact physique riche, comme assembler des pièces fragiles, manipuler des objets déformables ou effectuer des gestes précis avec pression calibrée, restent hors de portée des systèmes purement visuels. La vision seule ne peut pas inférer la dynamique de contact, la force exercée, ni les micro-glissements tactiles. En permettant au démonstrateur humain de percevoir et moduler naturellement ces forces via un retour bilatéral du préhenseur, OmniUMI aligne la démonstration humaine sur la réalité physique du robot, rendant les données collectées directement exploitables. Le contexte est celui d'une course à la manipulation robotique généraliste, où des laboratoires et entreprises comme Google DeepMind, Physical Intelligence ou Boston Dynamics investissent massivement. Les interfaces UMI, popularisées ces dernières années pour leur facilité de collecte de données à grande échelle, butaient précisément sur ce mur du toucher et de la force. OmniUMI ouvre une voie vers des systèmes capables d'apprendre des tâches industrielles ou médicales où la précision physique est critique, tout en conservant le paradigme de démonstration humaine qui a fait le succès des approches d'imitation à grande échelle.

RobotiqueOpinion
1 source
Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action
347arXiv cs.RO 

Calibration par différence temporelle dans les tâches séquentielles : application aux modèles vision-langage-action

Des chercheurs ont publié sur arXiv (référence 2504.20472) une nouvelle approche pour améliorer la fiabilité des modèles de robotique dits vision-language-action (VLA), capables d'interpréter simultanément des images, du langage et des actions physiques. Le problème qu'ils adressent est celui de la calibration de l'incertitude dans les tâches séquentielles : lorsqu'un robot exécute une tâche en plusieurs étapes, à quel point ses estimations de succès sont-elles fiables à chaque instant, sachant que le résultat final n'est connu qu'en fin d'épisode ? Les auteurs formalisent ce problème et introduisent une extension séquentielle du score de Brier, une mesure classique de calibration probabiliste, adaptée aux trajectoires partielles. Ils démontrent que, dans le cas de résultats binaires, le minimiseur de risque de ce score coïncide mathématiquement avec la fonction de valeur de la politique VLA, concept central en apprentissage par renforcement. Concrètement, ils proposent d'utiliser l'estimation de valeur par différence temporelle (TD), technique issue du reinforcement learning, comme mécanisme de calibration. Les expériences menées sur des données de robots simulés et réels montrent que cette approche surpasse les méthodes de calibration actuelles. Ce travail a des implications directes pour le déploiement de robots dans des environnements réels. Un robot mal calibré peut surestimer sa confiance et poursuivre une tâche vouée à l'échec, ou au contraire s'arrêter prématurément. Améliorer la calibration permet donc d'accroître la sécurité et la robustesse des systèmes autonomes, un enjeu critique à mesure que ces modèles quittent les laboratoires pour intégrer des usines, des entrepôts ou des environnements domestiques. Le résultat le plus surprenant de l'étude est que, une fois calibrées par TD, les probabilités d'action à chaque pas isolé du modèle VLA suffisent à produire des estimations d'incertitude compétitives, contrairement à ce que des travaux récents utilisant d'autres méthodes de calibration avaient conclu. Ce résultat s'inscrit dans une dynamique plus large d'intégration entre l'apprentissage par renforcement et les grands modèles multimodaux appliqués à la robotique. Les modèles VLA, popularisés par des projets comme RT-2 de Google DeepMind ou OpenVLA, sont devenus un axe de recherche majeur ces deux dernières années, mais la question de leur fiabilité probabiliste était restée en marge. En établissant un pont formel entre calibration et RL, les auteurs ouvrent une voie méthodologique qui pourrait influencer la conception de futurs systèmes robotiques, notamment ceux devant opérer en autonomie prolongée sans supervision humaine.

RecherchePaper
1 source
JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique
348arXiv cs.RO 

JoyAI-RA 0.1 : un modèle de base pour l'autonomie robotique

Des chercheurs ont publié le 28 avril 2026 sur arXiv un nouveau modèle de fondation baptisé JoyAI-RA 0.1, conçu pour doter les robots d'une autonomie généralisable dans des environnements réels et variés. Ce modèle de type vision-langage-action (VLA) s'appuie sur un cadre d'entraînement multi-sources et multi-niveaux inédit : il combine des données issues du web, des vidéos en vue subjective de manipulations humaines à grande échelle, des trajectoires générées par simulation, et des données collectées sur de vrais robots. Selon les résultats présentés, JoyAI-RA surpasse les méthodes les plus avancées sur des benchmarks en simulation comme en environnement réel, particulièrement sur des tâches variées nécessitant une capacité de généralisation. L'enjeu central de ce travail est la généralisation inter-robots, un problème récurrent dans le domaine : les modèles entraînés sur un type de robot peinent à s'adapter à d'autres architectures mécaniques ou capteurs différents. JoyAI-RA propose une unification explicite des espaces d'action, ce qui lui permet de transférer efficacement des comportements appris depuis des vidéos de manipulation humaine vers le contrôle robotique. Ce pont entre geste humain et mouvement machine est particulièrement prometteur pour réduire les coûts de collecte de données et accélérer le déploiement de robots polyvalents dans des contextes industriels, logistiques ou domestiques. La robotique autonome bute depuis des années sur deux obstacles structurels : la faible diversité des jeux de données disponibles et l'impossibilité de réutiliser des comportements appris d'un robot à l'autre. JoyAI-RA s'inscrit dans une tendance de fond qui voit émerger des modèles de fondation généralistes pour la robotique, à l'image de RT-2 de Google DeepMind ou d'OpenVLA. La particularité de cette approche réside dans l'intégration massive de vidéos de manipulation humaine comme source de supervision implicite, une stratégie qui contourne partiellement la rareté des données robotiques annotées. La publication en version 0.1 suggère que l'équipe, vraisemblablement liée à l'écosystème chinois au vu du nom JoyAI, entend faire évoluer ce modèle rapidement.

RobotiqueOpinion
1 source
Equinox et JAX en pratique : modules natifs, transformations filtrées, couches à état et pipelines d'entraînement
349MarkTechPost 

Equinox et JAX en pratique : modules natifs, transformations filtrées, couches à état et pipelines d'entraînement

Equinox s'impose discrètement comme l'une des bibliothèques de deep learning les plus élégantes construites sur JAX, l'environnement de calcul numérique de Google. Développée comme une surcouche légère, elle repose sur un principe central : chaque modèle est un eqx.Module, traité nativement comme un PyTree, la structure d'arbre que JAX utilise pour manipuler ses tenseurs. Concrètement, cela signifie qu'une couche Linear, un bloc convolutif Conv1dBlock ou un réseau MLP se décomposent automatiquement en feuilles (les poids, les biais) et en métadonnées structurelles, sans couche d'abstraction cachée. Le tutoriel publié cette semaine détaille l'ensemble du workflow : initialisation des modules, champs statiques via eqx.field(static=True), transformations filtrées comme filterjit et filtergrad, couches avec état comme BatchNorm, et entraînement complet sur un problème de régression synthétique, le tout combiné avec Optax pour l'optimisation et Jaxtyping pour les annotations de forme. L'intérêt pratique d'Equinox réside dans la façon dont il résout une friction fondamentale de JAX : comment gérer des paramètres entraînables et des métadonnées non-différentiables dans le même objet. Avec les transformations filtrées, il devient possible d'appliquer jit ou grad uniquement sur les feuilles numériques du modèle, en excluant automatiquement les chaînes de caractères, entiers ou booléens qui définissent l'architecture. Cette distinction évite les erreurs de traçage silencieuses qui affectent les approches naïves. Pour les chercheurs qui travaillent sur des architectures expérimentales, où l'on mélange souvent des hyperparamètres fixes et des poids appris, c'est un gain de fiabilité et de lisibilité significatif. Les couches comme BatchNorm, qui maintiennent un état interne (moyenne courante, variance), sont également prises en charge de manière explicite, sans recourir à des contournements complexes. Equinox s'inscrit dans un mouvement plus large qui voit JAX gagner du terrain dans la recherche en apprentissage automatique, notamment face à PyTorch. Google DeepMind, qui l'utilise intensivement, ainsi que de nombreux laboratoires académiques ont adopté cet écosystème pour sa capacité à composer des transformations fonctionnelles (différentiation, vectorisation, parallélisme) de façon modulaire. Equinox se positionne comme une alternative à Flax ou Haiku, les deux bibliothèques historiques de l'écosystème JAX, en privilegiant une syntaxe plus proche de PyTorch tout en restant purement fonctionnelle. Avec l'essor des modèles de grande taille et les besoins croissants en parallélisme matériel, des outils qui séparent clairement la structure du modèle de son état numérique devraient continuer à gagner en adoption dans les mois à venir.

OutilsTuto
1 source
PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique
350arXiv cs.RO 

PhysMem : mise à l'échelle de la mémoire physique pour la manipulation robotique

PhysMem, un cadre mémoire présenté sur arXiv (identifiant 2502.20323, version 5 actualisée au printemps 2026), propose une approche permettant aux planificateurs robotiques basés sur des modèles vision-langage (VLM) d'acquérir des connaissances physiques au moment de l'exécution, sans modifier les paramètres du modèle. Le système enregistre les interactions, génère des hypothèses sur les propriétés physiques observées, les soumet à vérification par des gestes ciblés, puis n'intègre que les hypothèses validées pour guider les décisions futures. Évalué sur trois tâches de manipulation réelle et des benchmarks de simulation avec quatre architectures VLM distinctes, PhysMem atteint 76 % de succès sur une tâche contrôlée d'insertion de brique, contre 23 % pour une récupération directe d'expérience. Sur des sessions de déploiement de 30 minutes, les performances progressent de façon consistante au fil du temps. L'apport central de PhysMem réside dans la séparation entre récupération et vérification. Les approches classiques de mémoire épisodique supposent que les expériences passées s'appliquent directement à la situation courante, ce qui produit des échecs dès que les conditions physiques changent, même marginalement. PhysMem brise ce cycle en testant activement chaque hypothèse avant de l'exploiter, une propriété critique pour les environnements industriels où surfaces, matériaux et tolérances varient d'un poste à l'autre. Pour les intégrateurs et les décideurs B2B, cela ouvre la voie à des robots capables de s'adapter à de nouveaux objets ou environnements sans cycle de réentraînement coûteux. L'écart de 53 points de pourcentage entre les deux modes illustre que le problème n'est pas la mémoire en soi, mais la rigidité de son application directe. Les VLM comme planificateurs robotiques ont été popularisés par des travaux comme SayCan (Google DeepMind), Code as Policies, ou plus récemment pi0 de Physical Intelligence, qui ont démontré une capacité de raisonnement abstrait sur les tâches. Leur limite persistante reste l'incapacité à modéliser les propriétés physiques spécifiques d'objets particuliers, un obstacle majeur à la généralisation hors laboratoire. PhysMem s'inscrit dans un mouvement plus large vers le test-time adaptation en robotique, distinct du fine-tuning classique et complémentaire des approches VLA (Vision-Language-Action). À noter: les résultats publiés portent sur des tâches de laboratoire contrôlées, et aucun déploiement industriel n'est annoncé à ce stade. Les suites logiques incluent des tests sur des horizons de déploiement plus longs et des tâches impliquant des objets déformables ou des matériaux à comportement incertain, là où les hypothèses physiques sont les plus difficiles à abstraire.

AutrePaper
1 source