Aller au contenu principal

Dossier Google DeepMind — page 6

714 articles · page 6 sur 15

Suivi de l'actualité de Google DeepMind : modèles Gemini, recherche IA, publications, lancements de produits et annonces officielles, mises à jour en continu.

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale
251arXiv cs.RO RechercheOpinion

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Des chercheurs ont publié sur arXiv (2606.04130) un cadre d'apprentissage auto-supervisé baptisé CLAW (Continuous Latent Action World Models via Adversarial Latent Regularization), conçu pour apprendre simultanément un modèle du monde et des représentations d'actions latentes continues à partir de vidéos non annotées. La méthode ne nécessite aucun label d'action : elle s'appuie sur une régularisation adversariale des représentations latentes et sur la génération vidéo par diffusion pour inférer une structure sémantique des actions directement depuis les transitions visuelles observées. Le modèle d'action latente (LAM) et le modèle du monde sont entraînés conjointement en bout en bout, permettant au système de raisonner sur la façon dont les actions inférées induisent des transitions dans l'environnement. CLAW supporte deux modes d'utilisation : le clonage comportemental par imitation depuis l'observation, où les actions latentes extraites de vidéos brutes suffisent à reproduire un comportement, et la planification dirigée par objectif, où le système génère des séquences d'actions latentes puis les mappe vers des actions exécutables. L'enjeu central ici est l'accès aux données. La robotique souffre d'un déficit chronique de données d'entraînement annotées avec des paires (observation, action), car les capteurs proprioceptifs et la capture de mouvement sont coûteux. CLAW ouvre la voie à l'exploitation de vidéos tierces non instrumentées, comme des démonstrations humaines filmées ou des contenus web, pour entraîner des politiques et des planificateurs. Si les résultats se confirment hors laboratoire, cela réduit drastiquement le coût de collecte de données pour les intégrateurs robotiques et les équipes d'ingénierie travaillant sur le transfer sim-to-real. Les auteurs rapportent des performances supérieures aux méthodes existantes sur des tâches variées et plusieurs morphologies robotiques, bien que les benchmarks spécifiques et les métriques quantitatives détaillées ne soient pas accessibles dans l'abstract seul. CLAW s'inscrit dans un courant de recherche actif sur les modèles d'actions latentes (LAM), dont les travaux fondateurs incluent LAPO et des approches basées sur des modèles de dynamique inversale (IDM). Il se distingue en combinant génération par diffusion et régularisation adversariale là où ses prédécesseurs utilisaient souvent des encodeurs déterministes ou des VQ-VAE. Les concurrents directs dans l'espace des world models pour la robotique comprennent UniSim (Google DeepMind), GAIA-1 (Wayve) côté génération vidéo, et des approches VLA comme pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) côté politique. CLAW se positionne en amont de ces pipelines, comme brique d'apprentissage de représentation plutôt que comme politique complète. Les prochaines étapes naturelles seront une validation sur des environnements physiques réels et l'intégration dans des boucles de fine-tuning pour des robots humanoïdes ou manipulateurs.

1 source
TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA
252arXiv cs.RO 

TTT-VLA : optimisation de prompts latents à l'inférence pour les modèles VLA

Des chercheurs ont publié le 3 juin 2026 un article (arXiv:2606.03127) proposant TTT-VLA, un cadre d'entraînement au moment du test (test-time training, TTT) spécifiquement conçu pour les modèles Vision-Langage-Action (VLA). La méthode repose sur ce qu'ils appellent l'Optimisation de Prompt Latent (LPO) : pendant la phase d'entraînement, un vecteur de prompt latent est appris via une tâche auxiliaire de proxy qui génère un signal d'auto-supervision. Lors du déploiement, seul ce prompt latent est réoptimisé à partir des données d'interaction collectées dans l'environnement réel, sans toucher aux poids du modèle de base. Les expériences sont conduites sur SimplerEnv, un benchmark de manipulation robotique simulée, et montrent des gains de taux de succès cohérents sur des scénarios monolithiques et multi-embodiment. L'intérêt principal pour l'industrie robotique tient à la nature du problème résolu : le décalage de distribution (distribution shift) entre l'environnement d'entraînement et le site de déploiement est l'un des freins les plus documentés au passage en production des VLA. TTT-VLA propose une voie d'adaptation légère, puisque seul le prompt est modifié et non la politique elle-même. L'analyse des résultats révèle que les gains proviennent principalement de la correction d'un petit nombre de décisions critiques dans la séquence d'action, et non d'un changement global de comportement. C'est un résultat conceptuellement intéressant : il suggère que l'inadaptation d'un VLA en production est localisée, ce qui rend les approches de correction chirurgicale potentiellement plus efficaces que les fine-tunings complets. Les VLA sont devenus un axe de recherche central depuis les travaux fondateurs sur RT-2 (Google DeepMind, 2023), et des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA (Berkeley) illustrent la course actuelle. Le problème du sim-to-real et de l'adaptation au domaine reste entier pour tous ces systèmes dès qu'ils quittent les environnements contrôlés. TTT-VLA s'inscrit dans une tendance plus large qui emprunte aux LLMs la notion d'adaptation au test-time, appliquée ici à la manipulation physique. Les expériences restent pour l'instant limitées à SimplerEnv, ce qui laisse ouverte la question du transfert vers des robots réels et des environnements industriels non structurés.

UELes laboratoires de robotique européens (INRIA, CEA-List) travaillant sur les VLA pourraient exploiter cette méthode d'adaptation légère pour réduire le sim-to-real gap sans fine-tuning complet, mais aucun acteur européen n'est impliqué directement dans ces travaux.

RechercheOpinion
1 source
GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA
253arXiv cs.RO 

GeoAlign : au-delà de la sémantique avec l'alignement spatial guidé par l'état dans les modèles VLA

GeoAlign, une architecture présentée le 3 juin 2026 sur arXiv (référence 2606.03240), aborde un angle mort persistant des modèles Vision-Langage-Action (VLA) : leur incapacité à raisonner avec précision sur la géométrie locale d'une scène. Les VLA actuels sont principalement entraînés pour le grounding sémantique, ce qui suffit pour identifier des objets ou interpréter des instructions, mais pas pour exécuter des mouvements de manipulation précis. GeoAlign introduit une branche RGB post-entraînée avec supervision RGB-D dans le domaine robotique, qui génère des features appelées GEP (Geometry-Enhanced Post-Trained) sans nécessiter de caméra de profondeur au déploiement. L'état proprioceptif du robot, c'est-à-dire la position de ses articulations à chaque instant, interroge dynamiquement cette grille de features pour produire des tokens géométriques adaptés à la phase courante du mouvement. Les résultats annoncés sont 99,0 % sur le benchmark LIBERO, 85,3 % sur trois tâches SimplerEnv-Fractal, et 78,8 % sur huit tâches réelles "geometry-critical" sur plateforme bi-manuelle ALOHA. Ce travail cible un problème bien identifié par les intégrateurs industriels : les VLA produisent des trajectoires sémantiquement cohérentes mais qui échouent lors du contact ou de la saisie fine, faute de modélisation géométrique locale. L'approche de GeoAlign est pragmatique, elle exploite la supervision RGB-D à l'entraînement sans alourdir le pipeline de déploiement qui reste en RGB pur. Le score de 78,8 % sur des tâches réelles est notable, mais le périmètre demeure étroit avec seulement huit tâches sur une seule plateforme, et la généralisation à d'autres morphologies ou environnements industriels n'est pas encore démontrée. Les ablations confirment l'apport des deux composantes, post-formation géométrique et requêtage guidé par l'état proprioceptif, ce qui renforce la crédibilité de l'architecture au-delà du simple ajustement de paramètres. Les VLA se sont imposés comme paradigme dominant depuis RT-2 de Google DeepMind en 2023, et se retrouvent au cœur de systèmes comme pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA. La tendance de fond depuis 2024 est à l'augmentation des capacités spatiales de ces modèles, avec SpatialVLA et d'autres architectures 3D-aware qui s'attaquent au même problème. La plateforme ALOHA, développée à Stanford et UC Berkeley, est aujourd'hui commercialisée par Trossen Robotics et AgileX, ce qui donne une certaine représentativité aux évaluations en conditions réelles. GeoAlign reste pour l'instant un preprint non relu par les pairs : sa reproductibilité sur d'autres plateformes et dans des contextes industriels variés déterminera si elle s'intègre effectivement dans les pipelines VLA de production.

RechercheOpinion
1 source
WALL-WM : modélisation des actions du monde aux points d'articulation d'événements
254arXiv cs.RO 

WALL-WM : modélisation des actions du monde aux points d'articulation d'événements

Une équipe de chercheurs a publié le 2 juin 2026 sur arXiv (arXiv:2606.01955) les travaux portant sur WALL-WM, un World Action Model (WAM) qui propose de repenser la manière dont les modèles Vision-Language-Action (VLA) sont entraînés pour la robotique généraliste. Là où les approches dominantes, comme celles exploitées par Physical Intelligence (Pi-0) ou NVIDIA (GR00T N2), optimisent des "chunks" d'actions à longueur fixe conditionnés sur l'observation courante, WALL-WM substitue à cette unité temporelle arbitraire l'événement sémantique : une séquence d'actions cohérente du point de vue du sens (attraper un objet, ouvrir un tiroir), extraite automatiquement par des légendes au niveau événementiel et un échantillonnage cluster-balancé. Le modèle expose deux modes d'inférence : un mode "event" qui consomme des descriptions de l'événement suivant et produit des chunks à longueur variable, et un mode "unified" qui applique un mécanisme baptisé Staircase Decoding pour conserver une inférence à longueur fixe tout en maintenant un chemin VLA à gradient continu. Le tout est entraîné à grande échelle via l'optimiseur Muon, et les auteurs revendiquent des performances état de l'art sur une évaluation de généralisation en monde réel à large échelle, sans préciser les benchmarks ni les données de déploiement. L'intérêt de l'approche réside dans le diagnostic qu'elle formule : le désalignement de granularité entre langage (objectifs sémantiques), vision (dynamique de scène continue) et actions (timescales de contrôle) transforme l'entraînement VLA classique en simple fitting de corrélations à court horizon, ce qui explique les difficultés de généralisation observées hors distribution. En traitant l'événement comme unité atomique d'apprentissage, WALL-WM offre une piste sérieuse pour réduire le sim-to-real gap et améliorer le transfer sur des tâches et des scènes non vues, deux verrous majeurs qui bloquent le passage à l'échelle industrielle des robots manipulateurs. Il convient cependant de rester prudent : il s'agit d'un preprint sans revue par les pairs, sans données de déploiement terrain, et sans détail sur les benchmarks précis utilisés pour établir la supériorité annoncée. WALL-WM s'inscrit dans une vague de recherche sur les WAMs qui a pris de l'ampleur depuis 2024, portée notamment par Physical Intelligence avec Pi-0 et Pi-0.5, Google DeepMind avec RT-2 et ses successeurs, et NVIDIA avec GR00T N2 pour les humanoïdes. Ces modèles partagent l'ambition de pré-entraîner des politiques robotiques générales sur des données hétérogènes avant de les affiner par tâche. La contribution de WALL-WM est théoriquement propre et l'infrastructure Muon suggère un effort de calcul significatif, mais l'absence de résultats quantitatifs détaillés dans le résumé limite l'évaluation externe. Les prochaines étapes attendues sont une publication complète avec benchmarks reproduisibles (LIBERO, OpenVLA-OFT, RoboMimic) et, idéalement, des partenariats industriels pour validation en environnement de production.

RobotiqueOpinion
1 source
Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA
255arXiv cs.RO 

Modèle du monde prédictif en espace latent pour la manipulation dynamique par VLA

Des chercheurs ont publié le 2 juin 2026 sur arXiv (réf. 2606.02486) AHEAD, un module d'anticipation conçu pour corriger un angle mort majeur des modèles Vision-Language-Action : leur incapacité à saisir des objets en mouvement. Les VLA actuels, dont OpenVLA (7 milliards de paramètres), capturent une observation instantanée et génèrent une action en supposant que la scène restera immobile, ce qui introduit une latence incompatible avec toute dynamique réelle. AHEAD (Anticipatory Horizon Extrapolation with Adaptive Dynamics) greffe un modèle de monde latent de seulement 4,9 millions de paramètres sur le VLA gelé : ce module prédit l'état futur de la scène dans l'espace de features du VLA, en s'appuyant sur les champs de vitesse et d'accélération par token extraits par flux optique, puis filtre les patchs pertinents via un masque combinant saillance linguistique et cinématique. Le décodeur d'action reçoit ces tokens futurs en lieu et place des tokens présents. En simulation, AHEAD atteint 79 à 97 % de succès sur 20 scénarios dynamiques, contre 31 à 58 % pour le meilleur concurrent. Sur robot physique (UFactory xArm 7), le système réussit 29 à 30 essais sur 30 pour des tâches de tapis roulant et de balle roulante, 23/30 pour l'interception de pagaie, et 19/30 pour l'interception de projectile, là où tous les baselines atteignent 0/30. Ce résultat est notable car il démontre un transfert sim-to-real fonctionnel sur des tâches dynamiques, un écueil historique des approches VLA : non seulement la prédiction dans l'espace latent se généralise à du matériel réel, mais le module léger (4,9 M de paramètres) n'impose aucune modification du modèle de base, ce qui ouvre la voie à une adoption modulaire sur n'importe quel VLA existant. Pour un intégrateur industriel, cela signifie qu'un bras robotisé équipé d'un VLA standard pourrait, sans réentraînement complet, traiter des pièces sur convoyeur ou dans des environnements non structurés, un verrou majeur pour la robotisation flexible de lignes d'assemblage ou de tri. Les VLA ont émergé comme paradigme dominant en manipulation robotique depuis 2023, portés par des travaux comme RT-2 (Google DeepMind) et la série OpenVLA (Berkeley). La manipulation statique étant désormais largement résolue par ces modèles, le front de recherche se déplace vers le dynamique, le déformable et l'incertain. AHEAD s'inscrit dans cette tendance, en compétition implicite avec des approches comme ACT (Action Chunking Transformer) ou les méthodes de replanning rapide à base de diffusion. L'article reste un preprint de laboratoire académique sans déploiement industriel annoncé, et les conditions de test physique (30 essais par tâche, environnement contrôlé) restent loin d'une validation en conditions de production ; les performances sur projectile (19/30) méritent un regard critique. La prochaine étape naturelle serait une évaluation sur des benchmarks standardisés comme RoboSuite ou une collaboration avec un partenaire industriel pour valider la robustesse hors-labo.

UEAucun acteur européen impliqué ; les intégrateurs industriels EU travaillant sur la robotisation de lignes de convoyage ou de tri pourraient à terme bénéficier de cette approche modulaire compatible avec tout VLA existant, sans réentraînement du modèle de base.

RechercheOpinion
1 source
AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement
256arXiv cs.RO 

AnySlot : politiques vision-langage-action conditionnées par objectif pour le placement zéro-shot par emplacement

Des chercheurs ont publié sur arXiv (référence 2604.10432v3) un framework baptisé AnySlot, conçu pour permettre à des politiques de contrôle robotique de type Vision-Language-Action (VLA) de placer des objets avec précision dans des emplacements discrets, dits "slots", à partir d'instructions en langage naturel. L'approche introduit un objectif visuel intermédiaire : plutôt que de passer directement de la commande textuelle au mouvement moteur, le système génère d'abord un marqueur spatial rendu sur l'image, indiquant l'emplacement cible exact, puis confie l'exécution à une politique VLA conditionnée par ce but visuel. Cette architecture hiérarchique découple la compréhension sémantique de l'instruction et la précision géométrique de l'exécution. Les auteurs introduisent également SlotBench, un benchmark de simulation structuré autour de neuf catégories de tâches, destiné à évaluer le raisonnement spatial dans des scénarios de placement à l'échelle centimétrique. Les expériences montrent qu'AnySlot surpasse les baselines VLA plates et les méthodes de grounding modulaire en conditions zero-shot. Ce travail s'attaque à l'un des verrous les plus concrets des VLA généralistes : la précision de placement sous contraintes compositionnelles. Les politiques end-to-end peinent à combiner compréhension du langage et précision millimétrique, ce qui freine leur utilisation dans des applications industrielles comme l'assemblage, le tri ou la mise en casier. L'introduction d'un "but visuel" explicite comme couche intermédiaire est une réponse architecturale directe au gap sémantique-géométrique, et les résultats zero-shot suggèrent une meilleure généralisation que les approches purement end-to-end ou modulaires. Pour un intégrateur ou un COO industriel, cela signifie potentiellement réduire le coût de spécification des tâches de placement sans sacrifier la fiabilité. Le contexte est celui d'une intense activité autour des VLA depuis les travaux fondateurs de RT-2 (Google DeepMind, 2023) et des politiques récentes comme pi0 de Physical Intelligence ou OpenVLA. La difficulté du slot-level placement restait un angle mort de ces approches, qui performent mieux sur des tâches de saisie que de dépose précise. AnySlot ne provient pas d'un labo académique nommé explicitement dans l'abstract, et les résultats sont pour l'instant limités à la simulation via SlotBench, sans validation sur robot réel publiée. Les prochaines étapes naturelles seraient des expériences physiques et une comparaison avec des systèmes comme RoboPoint ou SpatialVLA, qui explorent des approches proches du grounding spatial. Ce preprint restera à suivre avant toute intégration industrielle.

RobotiqueOpinion
1 source
Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks
257MarkTechPost 

Les meilleurs modèles de synthèse vocale en 2026 : comparaison par benchmarks

La synthèse vocale par intelligence artificielle a connu une accélération spectaculaire en 2026, au point que la frontière entre voix humaine et voix synthétique est devenue difficile à percevoir. Les deux références de l'industrie pour comparer ces modèles sont le classement Artificial Analysis Speech Arena, qui attribue un score ELO basé sur les préférences humaines en aveugle, et le TTS Arena de Hugging Face, qui fonctionne sur le même principe de vote A/B. Au 30 mai 2026, le top 5 de l'Artificial Analysis Speech Arena est occupé par Gemini 3.1 Flash TTS de Google, Realtime TTS-2 d'Inworld (en Research Preview), Sonic 3.5, Realtime TTS 1.5 Max et Fun-Realtime-TTS-Preview. Parmi les acteurs les plus remarquables, Inworld AI, un laboratoire fondé par des anciens de Google et DeepMind, a lancé TTS-1.5 le 21 janvier 2026, suivi de Realtime TTS-2 plus tard dans l'année. Son modèle propose deux niveaux : Mini, optimisé pour la latence avec un temps avant premier audio inférieur à 130 millisecondes au 90e percentile, et Max, sous 250 millisecondes. La tarification va de 25 dollars par million de caractères pour le Mini jusqu'à 5 dollars en offre Enterprise. Google DeepMind, de son côté, a publié Gemini 3.1 Flash TTS le 15 avril 2026, accessible via l'API Gemini, AI Studio et Vertex AI. Ces évolutions ont des implications directes pour les développeurs et les entreprises qui intègrent la voix dans leurs produits. Une latence sous les 100 millisecondes est désormais atteignable pour certains systèmes temps réel, ce qui rend les agents vocaux réellement utilisables dans des contextes grand public, comme le service client automatisé ou les jeux vidéo. Inworld revendique 30 % de plage expressive supplémentaire et 40 % de stabilité en plus par rapport à sa génération précédente, deux critères critiques pour des applications qui ne peuvent se permettre ni monotonie ni erreurs de prononciation. Les tarifs agressifs, notamment l'offre Enterprise à 5 dollars le million de caractères, signalent une course vers la commoditisation du TTS, similaire à ce que le marché des LLM a vécu entre 2023 et 2025. La comparaison entre modèles reste néanmoins complexe, car aucun benchmark ne capture l'ensemble des dimensions pertinentes. La qualité perçue, le taux d'erreur de caractères mesuré par méthode aller-retour (transcription ASR puis comparaison avec l'entrée), la latence de queue et la couverture linguistique obéissent à des logiques distinctes. Inworld couvre 15 langues pour TTS-1.5 mais plus de 100 pour TTS-2, tandis que les classements ELO fluctuent d'une semaine à l'autre. L'enjeu pour les équipes produit est d'identifier l'axe non négociable de leur application, qu'il s'agisse de la latence pour un assistant vocal ou de la fidélité phonétique pour un usage éditorial, avant de choisir leur fournisseur dans un marché qui reste en recomposition permanente.

💬 Le TTS vit ce que les LLM ont traversé entre 2023 et 2025. 5 dollars le million de caractères en Enterprise chez Inworld, Gemini Flash TTS qui s'installe en tête des classements, la course vers la commoditisation est enclenchée et ça va aller vite. La vraie nouveauté, c'est la latence sous 100ms qui rend enfin les agents vocaux utilisables en vrai, pas juste en démo.

CréationOutil
1 source
Quand un robot doit-il réfléchir ? Raisonnement adaptatif aux ressources par apprentissage par renforcement pour la prise de décision robotique
258arXiv cs.RO 

Quand un robot doit-il réfléchir ? Raisonnement adaptatif aux ressources par apprentissage par renforcement pour la prise de décision robotique

Des chercheurs ont publié sur arXiv (arXiv:2603.16673) un framework appelé RARRL (Resource-Aware Reasoning via Reinforcement Learning), conçu pour résoudre un problème concret des robots dotés d'agents LLM : décider à quel moment invoquer un raisonnement coûteux, et quand agir directement. L'approche est hiérarchique, RARRL n'apprend pas une politique de contrôle bas niveau, mais une politique d'orchestration haut niveau qui détermine dynamiquement si le robot doit raisonner, quel "rôle de raisonnement" activer, et quel budget computationnel allouer à l'appel LLM, en fonction des observations courantes, de l'historique d'exécution et des ressources restantes. Les expériences, conduites avec des profils de latence empiriques mesurés sur le benchmark ALFRED (tâches domestiques en langage naturel), montrent que RARRL améliore le taux de succès des tâches tout en réduisant la latence d'exécution et en renforçant la robustesse, comparé à des stratégies de raisonnement fixe ou heuristique. Ce travail adresse un goulot d'étranglement structurel pour les robots embarquant des LLM : chaque appel d'inférence coûte plusieurs centaines de millisecondes à plusieurs secondes, ce qui crée des interruptions dans l'exécution motrice et réduit la fiabilité en conditions réelles. Un raisonnement systématique ralentit le robot ; un raisonnement insuffisant génère des erreurs de planification. RARRL propose une solution par apprentissage par renforcement pour calibrer ce compromis à l'exécution, ce qui est plus robuste que les règles codées en dur ou les seuils de confiance statiques. Pour les intégrateurs déployant des bras manipulateurs ou des robots mobiles avec couche LLM, cette approche suggère qu'il est possible de garder des modèles large et capables sans sacrifier la réactivité temps réel, un argument commercial non négligeable face aux pressions pour downscaler les modèles embarqués. Le problème du "quand raisonner" s'inscrit dans une problématique plus large des architectures VLA (Vision-Language-Action) et des agents robotiques hybrides, où des frameworks comme SayCan (Google DeepMind, 2022), RT-2 ou plus récemment Pi-0 (Physical Intelligence) ont montré que l'intégration LLM/politique motrice reste coûteuse à orchestrer. RARRL se positionne comme une couche d'orchestration agnostique au modèle sous-jacent, potentiellement applicable à des stacks existants. La démonstration reste sur simulateur/benchmark ALFRED ; le passage à du matériel réel avec contraintes temps-réel dures (ARM embarqué, bus CAN à 1 kHz) n'est pas encore documenté, ce qui constitue la prochaine étape évidente pour valider l'approche hors laboratoire.

RobotiqueOpinion
1 source
ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression
259arXiv cs.RO 

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Des chercheurs ont publié le 28 mai 2026 sur arXiv (réf. 2605.28231) ProgVLA, un modèle vision-langage-action (VLA) compact de 0,1 milliard de paramètres conçu pour la manipulation robotique sous contraintes strictes de calcul et de mémoire. L'architecture repose sur deux mécanismes principaux : un encodeur multimodal à double étage de rééchantillonnage Perceiver, qui compresse des flux variables d'entrées visuelles, linguistiques et proprioceptives en un ensemble fixe de tokens de contexte prêts au contrôle, et un ensemble de "têtes de progression" auxiliaires entraînées par apprentissage par renforcement hors-ligne sur des cibles normalisées d'horizon restant. Ces têtes fournissent à la politique une estimation interne de l'avancement de la tâche, ce qui permet un apprentissage par imitation via flow-matching pondéré par l'avantage et le succès. Sur deux benchmarks standards de manipulation multi-tâche, ProgVLA atteint des taux de réussite compétitifs avec des modèles pré-entraînés nettement plus grands, et les dépasse sur les niveaux de difficulté élevés et les tâches à horizon long. Le modèle a également été validé dans des environnements réels de type "toy kitchen", une validation limitée mais concrète. L'intérêt principal pour les intégrateurs et les équipes de recherche appliquée réside dans le profil de compromis : 0,1 milliard de paramètres seulement, contre les 7B à 70B typiques des VLA récents comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ce ratio ouvre la voie à un déploiement sur des plateformes embarquées à budget GPU limité, un obstacle central à la commercialisation des robots manipulateurs au-delà des démonstrateurs de laboratoire. Les ablations publiées sont précises : le rééchantillonneur de contexte appris et le fine-tuning visuel adaptatif à la tâche constituent les deux plus grandes sources de gain, tandis que l'entraînement conscient de la progression apporte un bénéfice supplémentaire ciblé sur les tâches multi-objets et à horizon long. Ce résultat contredit partiellement l'hypothèse selon laquelle seule la taille du modèle détermine la performance sur les tâches complexes. ProgVLA s'inscrit dans une vague de travaux visant à comprimer les VLA sans sacrifier leur capacité de généralisation, une direction prise également par des équipes comme celles qui travaillent sur la distillation de politiques pour des plateformes à faible puissance. Face aux modèles de référence que sont RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0, ProgVLA occupe le segment "edge-deployable" encore peu disputé par des solutions validées hors laboratoire. Deux limites sont à noter : le code et les données de benchmark n'étaient pas encore publiés au moment de l'annonce, et la validation réelle se restreint à un environnement toy-kitchen, ce qui rend prématurée toute extrapolation vers des contextes industriels ou des robots commerciaux de type Franka ou UR.

UELes équipes de R&D robotique européennes travaillant sur des plateformes embarquées pourraient surveiller ProgVLA comme alternative légère aux VLA dominants, mais aucun acteur ou programme européen n'est directement impliqué.

RobotiqueOpinion
1 source
Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)
260arXiv cs.RO 

Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié en mars 2026 sur arXiv (2603.01766) une méthode baptisée Neural Implicit Action Fields (NIAF), qui reformule la génération des commandes motrices dans les modèles VLA (Vision-Language-Action). La pratique dominante consiste aujourd'hui à prédire des "action chunks" : des séquences de waypoints discrets prélevés à fréquence fixe, héritage de la collecte de données robotiques et du paradigme token-par-token des LLM. NIAF remplace cette représentation par des fonctions d'action continues dans le temps, synthétisées via un modulateur spectral hiérarchique appuyé sur un LLM vision-langage et un prior de mouvement appris. L'architecture produit une variété d'action échantillonnable à résolution temporelle arbitraire et supporte la différentiation analytique pour superviser explicitement vitesse et dérivées d'ordre supérieur. Sur les benchmarks de manipulation CALVIN et LIBERO, NIAF obtient de bonnes performances sur plusieurs backbones. Des tests en conditions réelles confirment la compatibilité avec le contrôle d'impédance stable. L'enjeu est structurel. Les waypoints discrets génèrent des artefacts de quantification et ne fournissent pas les dérivées continues (vitesse, accélération, jerk) requises par les contrôleurs temps-réel industriels. Le contrôle d'impédance, standard dans les cobots et les cellules d'assemblage, exige précisément cette continuité pour adapter la force en temps réel. En supervisant ces grandeurs durant l'entraînement, NIAF réduit le besoin de filtrage post-traitement et améliore potentiellement le transfert simulation-réalité, point critique pour tout déploiement industriel. Pour un intégrateur ou un COO, des politiques apprises directement exploitables sur du matériel réel changent la donne. NIAF s'inscrit dans un champ très concurrentiel : Physical Intelligence (Pi-0, Pi-0.5), NVIDIA (GR00T N2), Google DeepMind (RT-2) et des startups comme Covariant développent tous des VLA confrontés au même problème de discrétisation, inhérent à leur architecture. Les approches par diffusion (DDPM) et flow matching avaient déjà cherché à l'atténuer du côté génératif ; NIAF l'attaque du côté de la représentation fonctionnelle. Aucun déploiement ni partenariat industriel n'est annoncé : les résultats restent limités aux benchmarks simulés et à quelques tests réels, et la validation à grande échelle reste à démontrer.

RobotiqueOpinion
1 source
CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions
261arXiv cs.RO 

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

Une équipe rattachée au laboratoire JiuTian-VL a publié CogVLA (Cognition-Aligned Vision-Language-Action), une architecture VLA conçue pour réduire les coûts computationnels des modèles robotiques actuels sans sacrifier les performances. Le système repose sur trois modules successifs: EFA-Routing, qui injecte les instructions dans l'encodeur visuel pour compresser les tokens visuels de façon sélective; LFP-Routing, qui élague au niveau du LLM les tokens visuellement ancrés mais jugés non pertinents à l'action visée; et CAtten (Coupled Attention), qui combine attention causale vision-langage avec décodage d'action bidirectionnel en parallèle. Sur le benchmark LIBERO, CogVLA affiche un taux de succès de 97,4%, et 70,0% sur des tâches robotiques réelles. Comparé à OpenVLA, il réduit les coûts d'entraînement d'un facteur 2,5 et la latence d'inférence d'un facteur 2,8. Le code est publié en open source sur GitHub. L'écart entre les 97,4% obtenus sur benchmark et les 70,0% en conditions réelles mérite d'être noté: il reflète le sim-to-real gap persistant que les VLA n'ont pas encore résolu à grande échelle, et nuance les performances annoncées. Sur le fond, CogVLA s'attaque à un problème structurel du domaine: les architectures VLA actuelles, construites sur des VLM de grande taille, exigent un post-training intensif et souffrent d'une latence d'inférence qui freine leur déploiement industriel. La réduction de 2,8x de la latence est potentiellement significative pour les applications temps réel comme la manipulation sur ligne de production ou le pick-and-place à cadence élevée, bien que les conditions de test exactes ne soient pas détaillées dans le papier. La réduction de 2,5x du coût d'entraînement abaisse la barrière d'entrée pour les équipes sans infrastructure GPU de grande échelle. Les VLA (Vision-Language-Action models) représentent l'une des approches les plus actives de la robotique généraliste, associant la compréhension sémantique des LLM à la génération directe de commandes motrices. Les références du domaine incluent Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et RT-2 (Google DeepMind). CogVLA se positionne explicitement contre OpenVLA comme baseline de comparaison sur les benchmarks LIBERO. Publié sur arXiv en version 3 (identifiant 2508.21046), ce travail reste à ce stade une contribution académique: aucun partenariat industriel ni calendrier de déploiement n'est mentionné. Il s'inscrit néanmoins dans une tendance de fond visant à rendre les VLA plus légers et plus rapides, condition nécessaire pour leur adoption dans des contextes de production réels.

RobotiqueOpinion
1 source
INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA
262arXiv cs.RO 

INSIGHT : introspection de séquence au moment de l'inférence pour générer des déclencheurs d'aide dans les modèles VLA

Des chercheurs ont publié INSIGHT (INference-time Sequence Introspection for Generating Help Triggers), un framework d'apprentissage conçu pour doter les modèles Vision-Language-Action (VLA) d'un mécanisme d'introspection en temps réel. Construit sur π₀-FAST, le modèle de Physical Intelligence, INSIGHT extrait trois types de signaux d'incertitude au niveau du token : l'entropie, la log-probabilité, et des estimations bayésiennes de l'incertitude aléatoire et épistémique via une distribution de Dirichlet. Ces signaux sont ensuite injectés dans des classificateurs transformer compacts, entraînés à prédire le bon moment pour déclencher une demande d'aide vers un superviseur humain. Les auteurs ont comparé deux régimes de supervision : supervision forte (étiquettes denses, annotées finement) et supervision faible (étiquettes bruitées, plus scalables), en évaluant les deux sur des tâches in-distribution et out-of-distribution. La contribution principale est d'ordre systémique : aujourd'hui, les VLA échouent silencieusement. Un robot guidé par ces modèles peut poursuivre une action mal engagée sans aucun signal d'alerte interne, ce qui est rédhibitoire pour un déploiement industriel réel. INSIGHT constitue la première évaluation systématique de l'introspection basée sur l'incertitude dans les VLA, et démontre qu'une modélisation temporelle des signaux token par token, via transformer, surpasse nettement les scores statiques agrégés sur la séquence entière. Le trade-off identifié est clair et opérationnellement utile : les labels forts produisent une détection plus précise des dynamiques d'incertitude fine, mais les labels faibles restent compétitifs lorsque les conditions d'entraînement et d'évaluation sont alignées, ouvrant une voie scalable là où l'annotation dense est impossible. π₀ (pi-zero), développé par Physical Intelligence, est l'un des modèles VLA généraux les plus avancés publiquement disponibles, capable de contrôler des robots manipulateurs sur des tâches dextres variées. INSIGHT se positionne comme une couche de sécurité cognitive au-dessus de tels modèles, distincte des approches classiques de détection d'anomalie ou de confiance par seuillage de softmax. Les concurrents directs dans cet espace incluent les travaux sur le "robot asking for help" chez Google DeepMind (RT-2, SayCan) et les mécanismes de safe exploration en reinforcement learning. Les suites naturelles de ces travaux pointent vers l'active learning adaptatif et l'intervention humaine sélective en boucle fermée, deux problèmes ouverts critiques avant tout déploiement autonome à grande échelle en environnement non contrôlé.

RechercheOpinion
1 source
$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée
263arXiv cs.RO 

$\pi_0$-EqM : appariement à l'équilibre pour le contrôle VLA en boucle fermée

Une équipe de recherche publie sur arXiv (2605.23128) π₀-EqM, une variante du modèle de contrôle robotique π₀ de Physical Intelligence qui substitue le décodeur d'actions par flux (flow-matching) à un décodeur par Equilibrium Matching (EqM), sans toucher à la pile VLA en amont. Évalué avec un budget fixé à 300 étapes d'inférence, π₀-EqM progresse de 40,4 % à 50,2 % de taux de réussite moyen sur le benchmark de simulation RoboTwin, couvrant 19 tâches de manipulation, et atteint 87,0 % sur LIBERO-10, l'un des sous-ensembles les plus exigeants de la suite LIBERO. Ces gains sont mesurés en simulation, ce qui en tempère la portée directe avant validation sur hardware réel. Le résultat principal dépasse le score brut : les auteurs mettent en évidence un phénomène qu'ils nomment le "stationarity-executability gap", une relation non monotone entre la profondeur d'inférence résiduelle et le taux de succès, variable selon la tâche. Itérer davantage ne garantit donc pas de meilleures actions, et le budget d'inférence optimal dépend de l'état courant de la scène. Ce constat remet en question l'hypothèse implicite des pipelines VLA actuels, qui utilisent des horizons d'échantillonnage fixes indépendamment du contexte d'exécution. Pour les équipes produit et les intégrateurs, cela ouvre la voie à des politiques adaptatives capables d'allouer dynamiquement la puissance de calcul selon la difficulté perçue de la tâche, réduisant la latence sur les actions simples et renforçant la robustesse sur les cas complexes. π₀ est le modèle de fondation robotique de Physical Intelligence (Pi), startup américaine fondée en 2023 par d'anciens chercheurs de Google, DeepMind et Stanford, dont Sergey Levine et Chelsea Finn. Le flow-matching, popularisé par le π₀ original (arXiv:2410.24164, octobre 2024), est aujourd'hui le paradigme dominant pour le décodage d'actions dans les VLA, en concurrence avec la diffusion (Diffusion Policy) et les sorties autoregressives (OpenVLA, Octo). L'Equilibrium Matching s'inscrit dans la famille des méthodes à énergie implicite, proches des EBM (Energy-Based Models), et offre une profondeur d'inférence adaptable par conception. La prochaine étape logique sera une validation sur robot physique pour quantifier le sim-to-real gap de cette approche.

💬 Le +10 points sur RoboTwin, c'est bien, mais c'est pas là que ça devient intéressant. Le vrai résultat c'est ce qu'ils appellent le stationarity-executability gap : itérer davantage ne garantit pas de meilleures actions, et le budget optimal varie selon la tâche, pas selon un horizon fixe décidé à l'avance. Si ça tient sur hardware réel, ça remet en question la logique de base de tous les pipelines VLA actuels.

RechercheOpinion
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
264arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

RobotiquePaper
1 source
RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes
265arXiv cs.RO 

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Une équipe du HCPLab de l'Université Sun Yat-sen (SYSU, Chine) a déposé fin mai 2026 sur arXiv (réf. 2605.19678) RoVLA, un cadre d'entraînement pour renforcer la robustesse des modèles Vision-Language-Action (VLA). Ces modèles, qui couplent perception visuelle, compréhension du langage et génération d'actions pour la manipulation robotique, sont reconnus pour leur fragilité face aux variations d'instructions ou aux perturbations visuelles. RoVLA introduit trois contraintes de cohérence appliquées lors de l'entraînement end-to-end : la cohérence instructionnelle (IC), qui stabilise l'ancrage sémantique sous des reformulations équivalentes d'une même commande ; la cohérence évolutive (EC), qui maintient une intention d'action consistante tout au long de la génération de trajectoire ; et la cohérence observationnelle (OC), qui force des prédictions stables avant et après perturbations visuelles ou proprioceptives. Les expériences sont conduites sur les benchmarks LIBERO-Plus et RoboTwin 2.0, ainsi que sur des tâches de manipulation réelles, avec des performances supérieures aux baselines testées. L'enjeu est bien documenté : les VLA actuels, qu'il s'agisse de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, souffrent d'un gap de robustesse distributionnelle avéré. Dès que les conditions visuelles changent, les instructions sont paraphrasées ou les perturbations s'accumulent, les performances chutent significativement, bloquant le déploiement dans des environnements industriels non contrôlés comme l'assemblage ou la logistique d'entrepôt. RoVLA propose une réponse architecturale en forçant explicitement l'invariance pendant l'entraînement, plutôt que d'augmenter le volume de données ou d'adapter post-hoc, deux stratégies courantes mais insuffisantes pour garantir la stabilité en conditions réelles. Si les résultats se confirment à plus grande échelle, cette approche pourrait réduire concrètement le sim-to-real gap pour des politiques incarnées en production. Ce travail s'inscrit dans une compétition dense entre laboratoires académiques et industriels autour de la robustesse des VLA. Google DeepMind (RT-2, RT-X), Physical Intelligence et NVIDIA ont tous investi massivement dans des architectures à grande échelle sans traiter explicitement l'invariance en cours d'entraînement, ce que RoVLA tente précisément de corriger. Le projet reste pour l'instant un article de recherche académique : aucun déploiement commercial n'est annoncé, et le code sera publié sur GitHub sous le compte HCPLab-SYSU/RoVLA. La prochaine étape crédible serait une validation sur robots physiques en environnement industriel non contrôlé, que les premiers résultats en manipulation réelle esquissent sans encore l'établir à l'échelle.

UELes équipes R&D françaises et européennes spécialisées en manipulation robotique industrielle pourront évaluer cette approche lors de la publication du code (HCPLab-SYSU/RoVLA), mais aucun acteur européen n'est impliqué directement.

RobotiqueOpinion
1 source
Agora-1 transforme le classique GoldenEye N64 en simulation IA jouable à quatre
266The Decoder 

Agora-1 transforme le classique GoldenEye N64 en simulation IA jouable à quatre

La startup Odyssey a publié Agora-1, un world model capable de simuler en temps réel un environnement de jeu pour jusqu'à quatre joueurs simultanément. Pour démontrer ses capacités, l'équipe a choisi GoldenEye, le jeu de tir à la première personne sorti sur Nintendo 64 en 1997, devenu une référence culturelle du jeu vidéo. Contrairement aux approches précédentes limitées à un seul joueur, Agora-1 repose sur deux modèles distincts : l'un gère la simulation de l'état du jeu, l'autre prend en charge le rendu visuel, le tout en temps réel. Cette architecture multijoueur représente un saut qualitatif dans le domaine des world models. La capacité à gérer plusieurs agents agissant en parallèle dans un même espace simulé ouvre des perspectives concrètes : entraînement d'agents IA dans des environnements complexes et dynamiques, et développement de systèmes de robotique collaborative où plusieurs robots doivent coordonner leurs actions en temps réel. Pour l'industrie du jeu vidéo, cela laisse entrevoir des moteurs de jeu entièrement générés par l'IA, capables de s'adapter en continu aux décisions des joueurs. Les world models, qui apprennent à simuler la physique et la logique d'un environnement à partir de données visuelles, sont devenus un champ de recherche intense. Google DeepMind avec Genie 2, World Labs fondé par Fei-Fei Li, ou encore Wayve dans l'automobile explorent cette technologie pour créer des simulations interactives. Agora-1 se distingue par sa dimension collaborative, un verrou technique que peu d'équipes avaient jusqu'ici franchi, et positionne Odyssey comme un acteur sérieux dans la course aux simulateurs mondiaux pilotés par l'IA.

RecherchePaper
1 source
Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)
267Latent Space 

Les clés pour décrocher un poste dans un laboratoire d'IA de pointe (en préentraînement)

Vlad Feinberg, ingénieur spécialisé dans l'infrastructure TPU chez Google, a publié mi-mai 2026 un guide destiné aux développeurs souhaitant intégrer les grands laboratoires d'IA de pointe. Son conseil central : maîtriser le travail au niveau du noyau (kernel) des modèles de langage. Il s'appuie sur le Scaling Handbook publié l'an dernier par DeepMind, un document qui cartographie les pratiques de préentraînement à grande échelle. Selon Feinberg, le principal goulot d'étranglement de tout projet LLM réside dans la capacité à rendre concrètement exécutables des modifications logiques abstraites, c'est-à-dire à optimiser les calculs au plus bas niveau du code. Il souligne aussi l'importance croissante des langages dédiés (DSL) pour le développement de kernels, et mentionne de façon inattendue les agents autonomes comme AlphaEvolve parmi les compétences désormais valorisées. Son exercice pratique est sans ambiguïté : dériver les lois de Chinchilla, les implémenter depuis zéro en JAX pour des architectures dense et MoE, puis écrire un kernel Pallas capable de surpasser jax.lax.ragged_dot pour les projections MoE en fusionnant les couches up et down, et identifier un contexte où l'accélération du forward pass est mesurable et explicable. Ce type de guide est rare dans un domaine qui recrute souvent via des réseaux opaques. En pointant vers des compétences précises et vérifiables plutôt que vers des diplômes ou des expériences académiques, Feinberg ouvre potentiellement l'accès aux laboratoires de pointe à des profils autodidactes ou venant d'industries connexes. Le travail au niveau kernel, qui consiste à optimiser les calculs matriciels sur GPU ou TPU pour réduire la latence et améliorer l'utilisation de la mémoire, est au coeur de la compétitivité des modèles. C'est aussi une compétence objectivement mesurable : soit le kernel bat le benchmark de référence, soit il ne le bat pas. Feinberg propose même d'inviter ceux qui réussissent l'exercice complet à intervenir comme speakers lors d'ateliers communautaires, signal clair que la démonstration pratique vaut plus qu'un CV. Cette publication intervient dans un contexte d'accélération générale de l'écosystème IA. Anthropic a diffusé la même semaine des bonnes pratiques pour déployer Claude Code sur des monorepos de plusieurs millions de lignes, avec diagnostics de cache de prompts et activation par défaut du mode Fast sur Opus 4.7 pour des workflows à plus faible latence. Cognition a lancé Devin Auto-Triage, un agent "premier répondant" pour les bugs et incidents en production, doté d'une mémoire long terme et capable de générer des pull requests automatiquement. LangChain a présenté LangSmith Engine comme une boucle CI/CD pour agents, détectant automatiquement les défaillances en production. À la veille de Google I/O, moment attendu pour les annonces Gemini, le secteur converge vers des agents persistants en arrière-plan plutôt que vers de simples interfaces conversationnelles, et les ingénieurs capables d'en construire les fondations bas-niveau restent la ressource la plus recherchée.

LLMsTuto
1 source
Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace
268arXiv cs.RO 

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace

Une équipe de recherche publie sur arXiv (arXiv:2602.20200v2) OptimusVLA, un framework Vision-Language-Action (VLA) hiérarchique augmenté de deux modules de mémoire distincts : une Global Prior Memory (GPM) et une Local Consistency Memory (LCM). La GPM remplace le bruit gaussien isotrope standard, utilisé comme point de départ dans les politiques de diffusion, par des priors extraits de trajectoires sémantiquement similaires, réduisant ainsi le nombre d'évaluations de fonction (NFE) nécessaires au débruitage. La LCM, elle, modélise dynamiquement la séquence d'actions déjà exécutées pour contraindre la cohérence temporelle des prochains mouvements. Sur trois benchmarks de simulation, OptimusVLA atteint 98,6 % de taux de succès moyen sur LIBERO, améliore pi0 de 13,5 points sur CALVIN, et obtient 38 % sur le niveau Hard de RoboTwin 2.0. En évaluation réelle, il surpasse pi0 de 42,9 % sur la suite Généralisation et de 52,4 % sur la suite Long-horizon, avec un gain de vitesse d'inférence de 2,9x. Ces résultats pointent deux verrous concrets du paradigme VLA actuel : l'inefficacité computationnelle des politiques de diffusion à point de départ aléatoire, et l'amnésie des politiques réactives qui ignorent l'historique d'exécution. Le gain de 2,9x en inférence est significatif pour le déploiement temps-réel sur hardware embarqué. Le bond sur les tâches long-horizon (+52,4 % vs pi0) est probablement l'indicateur le plus pertinent pour les intégrateurs industriels, car les tâches réelles ne se réduisent pas à des gestes isolés. Il convient cependant de noter que l'article ne détaille pas le robot utilisé ni le nombre de scénarios testés en réel, ce qui limite l'évaluation indépendante de la portée de ces gains. Le modèle pi0, développé par Physical Intelligence (San Francisco), sert ici de référence principale dans la comparaison, ce qui illustre son statut de baseline de facto dans la recherche VLA en 2025. Le domaine compte également GR00T N2 de NVIDIA, OpenVLA ou encore les travaux de Google DeepMind, tous confrontés au même arbitrage efficacité/généralisation. OptimusVLA reste à ce stade un résultat de recherche préliminaire (preprint non évalué par les pairs), sans pipeline de déploiement ni partenaire industriel annoncé. La prochaine étape naturelle serait une validation sur une plateforme humanoïde commerciale avec des scénarios définis de façon indépendante.

RobotiqueOpinion
1 source
OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches
269arXiv cs.RO 

OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches

Une équipe de chercheurs propose OxyGen, un système de gestion unifiée du cache KV (Key-Value) pour l'inférence des modèles VLA (Vision-Language-Action) sous parallélisme multi-tâches, décrit dans un preprint arXiv (2503.14371). Le travail cible en particulier π₀.₅, le modèle VLA de type Mixture-of-Transformers (MoT) développé par Physical Intelligence, une startup robotique fondée en 2023 par d'anciens chercheurs de Google et DeepMind. Sur un GPU NVIDIA GeForce RTX 4090, OxyGen atteint jusqu'à 3,7 fois la vitesse d'exécution par rapport à un système isolé classique, tout en maintenant simultanément un débit de plus de 200 tokens/s en génération de langage et une fréquence d'action de 70 Hz. Ces résultats ont également été validés sur un robot humanoïde physique embarquant un Jetson AGX Thor, la carte de calcul ciblée par NVIDIA pour les déploiements robotiques edge. Le problème que résout OxyGen est concret : lorsqu'un agent robotique doit exécuter simultanément plusieurs tâches (manipulation, conversation, mise à jour mémoire) à partir d'une même observation visuelle partagée, les systèmes d'inférence existants recalculent indépendamment le cache KV pour chaque tâche, générant une redondance coûteuse et une contention de ressources. Les auteurs identifient la gestion isolée des caches KV comme la cause racine et proposent deux optimisations clés : le partage cross-tâches du cache KV, qui élimine le recalcul des tokens d'observation lors du prefill, et le batching continu inter-frames, qui désolidarise la génération de langage à longueur variable de la génération d'actions à cadence fixe. Cette architecture est particulièrement structurante pour les intégrateurs qui cherchent à déployer des VLAs sur du matériel embarqué sans recourir à des serveurs GPU distants, un verrou majeur pour la commercialisation des robots à intelligence embarquée. Les modèles VLA de type MoT, dont π₀ (publié en octobre 2024) et π₀.₅ sont les représentants les plus visibles, routent les sorties hétérogènes vers des blocs transformer spécialisés tout en partageant un encodeur d'observation commun, ce qui rend techniquement possible le partage de cache KV inter-tâches proposé par OxyGen. Sur le plan concurrentiel, ce type d'optimisation d'inférence concerne aussi les VLAs de Google DeepMind (Gemini Robotics), OpenVLA, ainsi que les projets internes de Tesla pour Optimus Gen 3. Il s'agit à ce stade d'une contribution de recherche sans déploiement industriel annoncé, mais la validation sur robot réel avec Jetson AGX Thor embarqué indique une trajectoire claire vers le déploiement on-device à grande échelle.

RechercheOpinion
1 source
Starchild-1 : voici l’IA multimodale qui comprend le monde comme jamais auparavant
270Le Big Data 

Starchild-1 : voici l’IA multimodale qui comprend le monde comme jamais auparavant

La société Odyssey a présenté le 18 mai 2026 Starchild-1, qu'elle décrit comme le premier "world model" multimodal en temps réel. Contrairement aux générateurs d'images ou de vidéos classiques, ce système produit simultanément du contenu visuel et sonore, en s'adaptant en continu aux actions de l'utilisateur. Là où un outil traditionnel calcule une séquence complète avant de l'afficher, Starchild-1 modifie à la volée les scènes, les sons ambiants et les dialogues au fil des interactions. Pour tenir ce pari techniquement difficile, la vidéo et l'audio ne fonctionnent pas au même rythme et peuvent se désynchroniser, Odyssey affirme avoir conçu une architecture inédite capable de maintenir la cohérence entre les deux flux, même lors de sessions prolongées. L'enjeu dépasse la prouesse technique : si les performances annoncées se confirment, Starchild-1 changerait la nature même de ce qu'on appelle un générateur d'IA. On passerait d'un outil de production de contenu statique à un moteur de simulation interactif, capable de prédire comment un environnement évolue naturellement. Les applications ciblées par Odyssey couvrent des domaines très concrets : le jeu vidéo, où des mondes entiers pourraient être générés à la volée sans assets précalculés ; la robotique, pour permettre à des machines d'interagir dynamiquement avec leur environnement ; l'éducation, avec des simulations qui réagissent en temps réel aux choix de l'élève ; et la santé, sans que des cas d'usage précis n'aient encore été détaillés. Pour les développeurs de ces industries, disposer d'un modèle qui "comprend" la logique physique et sonore du monde représente un saut qualitatif potentiellement significatif. Odyssey s'inscrit dans une tendance plus large qui pousse les labos d'IA au-delà du traitement de texte et de l'image fixe, vers des systèmes qui modélisent la causalité et la dynamique du monde réel, ce que les chercheurs appellent des "world models", un concept popularisé notamment par Yann LeCun chez Meta comme prochaine frontière de l'intelligence artificielle. Plusieurs acteurs, dont Google DeepMind et des startups spécialisées dans la simulation, explorent cette direction. Starchild-1 est pour l'instant présenté sous forme de démonstration, sans accès public ni benchmarks indépendants publiés, ce qui invite à la prudence : l'industrie de l'IA a une longue tradition d'annonces spectaculaires dont les délais de concrétisation s'avèrent bien plus longs que prévu. La prochaine étape sera de voir si Odyssey ouvre l'accès à des testeurs externes et si les performances tiennent à l'échelle, hors conditions de laboratoire.

RechercheOpinion
1 source
Modèle du monde par retour d'information pour guidage précis des politiques de diffusion
271arXiv cs.RO 

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

Une équipe de chercheurs a publié sur arXiv (référence 2605.15705v1) un nouveau paradigme pour améliorer la robustesse des politiques de diffusion en robotique manipulation. Leur approche, baptisée "feedback world model", s'attaque à un problème bien documenté : les modèles de monde (world models) utilisés pour anticiper les conséquences des actions robotiques perdent en fiabilité dès que le robot rencontre des états hors distribution d'entraînement. La méthode maintient un état de retour léger (feedback state) mis à jour en temps réel après chaque action, en exploitant l'observation directe de l'état suivant réel pour corriger itérativement les prédictions futures, sans données d'entraînement supplémentaires ni mise à jour des paramètres du modèle. Les expériences menées sur les benchmarks LIBERO-Plus et Robomimic, ainsi que sur des tâches de manipulation réelles, affichent une réduction de l'erreur de prédiction allant jusqu'à 76,4 % et une amélioration du taux de succès hors distribution (OOD) de 30 %. Les auteurs introduisent également une "action-aware guidance", un mécanisme qui amplifie les composantes de la prédiction contrôlables par l'action tout en supprimant les variations non pertinentes pour le contrôle. Le problème ciblé est structurant pour l'industrie robotique : les systèmes entraînés en simulation ou sur des jeux de données contraints échouent fréquemment en déploiement réel, précisément parce que les états rencontrés divergent de la distribution d'entraînement. La clé du résultat est que cette correction opère entièrement à l'inférence, ce qui la rend directement exploitable sans coût de réentraînement, un atout majeur pour les intégrateurs aux ressources de fine-tuning limitées. Les auteurs formalisent leur méthode comme un observateur en espace latent et en démontrent la convergence sous des conditions modérées, apportant une garantie théorique inhabituelle dans la littérature sur les world models. Cela contredit l'idée reçue selon laquelle la robustesse au distribution shift exige nécessairement plus de données ou un réentraînement ciblé. Les politiques de diffusion constituent depuis 2023 un paradigme dominant en manipulation robotique, adoptées dans des systèmes comme Pi-0 de Physical Intelligence ou les architectures VLA de type GR00T (NVIDIA). Les world models en boucle ouverte associés à ces architectures sont une limite reconnue que des groupes comme Google DeepMind (RT-2) ou des laboratoires académiques cherchent activement à dépasser. Ce preprint, soumis en mai 2025, ne s'accompagne d'aucune annonce industrielle ni de pilote terrain identifié : il reste à ce stade une contribution académique. La prochaine étape naturelle serait une validation sur des robots humanoïdes ou des cellules de manipulation semi-structurées, là où les dérives hors distribution constituent le quotidien opérationnel.

💬 Le point douloureux de toutes les politiques de diffusion, c'est ce moment où le robot sort de sa distribution d'entraînement et part en vrille. Corriger ça à l'inférence, sans réentraîner, c'est exactement ce que les équipes d'intégration attendaient depuis des mois. Bon, c'est un preprint, pas de démo terrain encore, mais 30% de gain en OOD sur Robomimic avec des garanties de convergence, ça mérite qu'on y revienne dans six mois.

RechercheOpinion
1 source
PhysBrain 1.0 : rapport technique
272arXiv cs.RO 

PhysBrain 1.0 : rapport technique

PhysBrain 1.0 (arXiv:2605.15298, mai 2026) est un pipeline VLA (vision-language-action) qui convertit de la vidéo égocentrique humaine à grande échelle en supervision de commonsense physique structuré, avant de transférer ce savoir vers le contrôle robotique. Un moteur de données extrait quatre types d'informations depuis ces vidéos (éléments de scène, dynamiques spatiales, exécution d'actions, relations géométriques tenant compte de la profondeur) et les transforme en paires questions-réponses pour entraîner les VLM PhysBrain. Les priors physiques résultants sont ensuite injectés dans des politiques VLA via un mécanisme d'adaptation qualifié de "capability-preserving et language-sensitive". Évalué sur cinq benchmarks (ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, RoboCasa), le modèle revendique des résultats état de l'art, avec des performances hors domaine particulièrement fortes sur SimplerEnv. L'abstract ne fournit pas de métriques chiffrées; le rapport complet reste nécessaire pour valider ces affirmations. L'argument central est que les trajectoires robot constituent une source de supervision trop étroite pour acquérir une compréhension physique générale: coûteuses à collecter par téléopération et peu diversifiées, elles limitent structurellement la généralisation des VLA. La vidéo égocentrique humaine, disponible en volumes bien supérieurs, couvre une variété d'interactions physiques avec le monde (saisies, contacts, équilibre, textures) que les datasets robot n'atteignent pas. La robustesse hors domaine sur SimplerEnv est le signal le plus intéressant: si elle se confirme à la lecture du rapport complet, cela suggère que cette stratégie atténue le problème de généralisation qui frappe la majorité des VLA entraînés uniquement sur données robot. Pour un intégrateur ou un COO industriel, cela laisse entrevoir une réduction du volume de démonstrations téléopérées nécessaires lors de chaque nouveau déploiement. PhysBrain s'inscrit dans une compétition dense autour des VLA physiques. Physical Intelligence (pi0, pi0.5) capitalise sur de larges datasets de téléopération multi-robot; NVIDIA GR00T N2 cible la compréhension physique via simulation massive; Google DeepMind (RT-2) et le modèle open-source Octo ont posé les bases de la catégorie. L'angle de PhysBrain, passant par un intermédiaire de commonsense structuré en QA plutôt que par un entraînement direct sur trajectoires, rappelle les stratégies de pre-training visuel comme R3M ou MVP, mais va plus loin avec un pipeline d'extraction supervisée à quatre dimensions. Le modèle est pour l'instant validé sur robot WidowX, une plateforme de manipulation accessible; la prochaine étape logique serait de tester le transfert sur des architectures humanoïdes ou à plus haute dextérité, là où la compréhension physique générale apporte le plus de valeur.

💬 Le vrai problème des VLA, c'est qu'ils apprennent à partir de données robot trop étroites et trop chères à collecter. PhysBrain contourne ça en allant chercher le commonsense physique dans des vidéos humaines à grande échelle, et je trouve les perfs hors domaine sur SimplerEnv plus convaincantes que les benchmarks habituels. Testé sur WidowX seulement pour l'instant, donc on attend la suite.

RobotiqueOpinion
1 source
ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul
273FrenchWeb 

ICML 2026 : les nouvelles frontières du machine learning se discutent à Séoul

Séoul accueille du 6 au 12 juillet 2026 la 43e édition de l'International Conference on Machine Learning (ICML), l'une des conférences scientifiques les plus influentes au monde dans le domaine de l'intelligence artificielle. Organisée dans la capitale sud-coréenne, cet événement rassemble chaque année des milliers de chercheurs, ingénieurs et représentants de l'industrie venus présenter et débattre des dernières avancées en apprentissage automatique. L'édition 2026 marque la première fois que la conférence se tient en Corée du Sud, témoignant de la montée en puissance de l'Asie dans l'écosystème mondial de la recherche en IA. ICML est un point de convergence incontournable pour la communauté scientifique : les papiers acceptés y définissent souvent les directions de recherche pour les années suivantes. Les grandes entreprises tech, Google DeepMind, Meta AI, Microsoft Research, Anthropic, y dévoilent des travaux qui alimentent directement leurs produits. Pour les chercheurs académiques, une publication à ICML constitue une validation de premier rang, et la conférence sert de baromètre pour identifier les tendances émergentes, des architectures de modèles aux questions d'alignement et d'efficacité computationnelle. Le choix de Séoul s'inscrit dans une dynamique plus large de reconnaissance des pôles asiatiques d'excellence en IA, la Corée du Sud investissant massivement dans ce secteur via des géants comme Samsung et LG, mais aussi via des startups et universités de rang mondial. ICML 2026 devrait notamment concentrer des débats autour des modèles multimodaux, de l'IA générative post-transformeurs et des approches d'apprentissage à faible coût énergétique, des enjeux devenus centraux dans un contexte de pression croissante sur les ressources de calcul.

UELes chercheurs et labos européens participant à ICML bénéficieront des échanges scientifiques, mais la conférence n'a pas d'impact institutionnel direct sur la France ou l'UE.

💬 Séoul pour ICML, c'est un signal que l'Asie est vraiment dans la course, pas juste comme marché. Ce qui m'intéresse surtout, c'est les débats annoncés sur les architectures post-transformeurs et l'efficacité énergétique, parce que le vrai goulot maintenant c'est le coût de calcul, pas les idées. Les papiers ICML dessinent ce qu'Anthropic et Google mettent en prod 18 mois après.

RecherchePaper
1 source
Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action
274arXiv cs.RO 

Pelican-Unified 1.0 : un modèle d'IA incarnée unifié pour la compréhension, le raisonnement, l'imagination et l'action

Une équipe de recherche a publié Pelican-Unified 1.0 (arXiv 2605.15153), un modèle de fondation incarné qui intègre dans un seul checkpoint quatre capacités habituellement confiées à des modules distincts : compréhension visuelle, raisonnement, imagination et génération d'actions robotiques. L'architecture repose sur un unique VLM (Vision-Language Model) qui encode scènes, instructions et historiques d'actions dans un espace sémantique partagé. Ce même VLM génère en un seul forward pass des chaînes de pensée orientées tâche, projetées dans une variable latente dense. Un module baptisé Unified Future Generator (UFG) conditionne ensuite sur cette latente pour produire simultanément vidéos futures et séquences d'actions via deux têtes de sortie dans le même processus de débruitage (denoising). Les performances annoncées : 64,7 sur huit benchmarks VLM standards (meilleur parmi les modèles de taille comparable), 66,03 sur WorldArena (premier rang) et 93,5 sur RoboTwin (deuxième meilleure moyenne parmi les méthodes comparées). L'article est déposé en preprint, sans validation par les pairs à ce stade. L'enjeu architectural est direct : les systèmes robotiques avancés actuels reposent quasi universellement sur des experts spécialisés distincts pour percevoir, raisonner, planifier et exécuter. Ce papier cherche à démontrer qu'un modèle unique, optimisé conjointement sur des pertes de langage, vidéo et action, peut égaler ces spécialistes sans compromis de performance. Si ces résultats se confirment hors simulation, l'impact pour les intégrateurs est double : un seul checkpoint à maintenir et une meilleure généralisation inter-tâches. Le couplage imagination-action dans le même processus de débruitage rappelle l'approche de Physical Intelligence avec Pi-0.5, mais l'intégration du raisonnement textuel dans la même passe constitue un degré d'unification plus poussé. Le score sur RoboTwin reste néanmoins un indicateur sim-to-real à valider en conditions réelles. La course aux modèles VLA (Vision-Language-Action) s'est accélérée en 2024-2025 avec Pi-0 et Pi-0.5 de Physical Intelligence, GR00T N2 de NVIDIA, et les modèles RT-X de Google DeepMind, chacun maintenant des composants partiellement séparés pour la planification et la génération motrice. Pelican-Unified 1.0 se positionne comme une alternative radicalement unifiée, mais reste au stade académique : aucun déploiement, aucun partenariat industriel annoncé, et l'équipe auteure n'est pas identifiée dans le résumé public, ce qui limite l'évaluation de la crédibilité institutionnelle. La revendication de "premier modèle unifié" mérite d'être nuancée, plusieurs architectures combinant déjà compréhension et action. Les prochaines étapes naturelles passent par une validation sur des benchmarks en conditions réelles et une soumission à CoRL ou ICRA.

RechercheOpinion
1 source
UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes
275arXiv cs.RO 

UniJEPA : amélioration des politiques robotiques via l'apprentissage unifié de représentations continues et discrètes

Une équipe de chercheurs propose UniJEPA (arXiv:2510.10642, troisième révision), un framework de politique robotique généraliste pré-entraîné sur plus d'un million de vidéos de manipulation instruite issues d'internet, puis affiné sur des données collectées directement sur le robot cible. L'architecture repose sur une approche JEPA (Joint Embedding Predictive Architecture) étendue pour modéliser des représentations visuelles continues de haute dimension. Les résultats expérimentaux annoncent un gain de 9 % en environnements de simulation et de 12 % sur des tâches réelles hors-distribution par rapport aux méthodes de référence actuelles. Il s'agit d'un preprint de recherche, pas d'un déploiement industriel. L'enjeu central est un angle mort persistant dans les politiques VLA (Vision-Language-Action) : elles s'appuient soit sur des VLM (modèles de langage visuels, forts en compréhension sémantique) soit sur des modèles génératifs (forts en modélisation de dynamiques visuelles), rarement les deux simultanément. Pour un intégrateur ou un COO industriel, cela se traduit par des politiques qui peinent à s'adapter à un nouvel atelier, un nouvel éclairage ou de nouvelles pièces sans re-collecte de données coûteuse. Le gain de 12 % sur les tâches hors-distribution est précisément la métrique critique ici : elle mesure la capacité de généralisation sans données supplémentaires, le graal opérationnel pour tout déploiement multi-site. UniJEPA répond en apprenant des représentations prédictives continues des futurs états visuels, converties ensuite en tokens d'action, validant l'applicabilité des architectures JEPA, originellement développées par Yann LeCun et son équipe chez Meta AI (I-JEPA, V-JEPA), au domaine de la politique robotique. Ce travail s'inscrit dans un paysage VLA très actif : Pi-0 de Physical Intelligence (combinant diffusion et VLM), OpenVLA, Octo et les modèles RT-X de Google DeepMind constituent les concurrents directs les plus cités. UniJEPA se distingue par son ancrage dans les architectures unifiées compréhension-génération, un territoire également exploré par des modèles comme Janus de DeepSeek. Publié en version 3 sur arXiv, le papier n'a pas encore passé la révision par les pairs d'une conférence de référence (ICRA, CoRL, RSS), ce qui invite à une lecture prudente des chiffres annoncés, dont le contexte exact des benchmarks n'est pas détaillé dans le résumé. Les prochaines étapes naturelles seraient une validation sur des embodiments commerciaux et un benchmark élargi au-delà des simulateurs utilisés dans les expériences actuelles.

RechercheOpinion
1 source
Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels
276arXiv cs.RO 

Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels

Des chercheurs ont publié mi-mai 2026 sur arXiv (2605.13105) PAIR-VLA (Paired Action Invariance & Sensitivity for Visually Robust VLA), un framework de fine-tuning par apprentissage par renforcement (RL) destiné à rendre les modèles Vision-Language-Action (VLA) robustes aux variations visuelles à l'heure du déploiement. La méthode ajoute deux objectifs auxiliaires pendant l'optimisation PPO (Proximal Policy Optimization) : un terme d'invariance qui réduit l'écart entre distributions d'actions pour des paires visuellement distinctes mais dont la tâche reste identique (distracteurs différents en arrière-plan, par exemple), et un terme de sensibilité qui encourage des distributions séparables lorsque le changement visuel modifie effectivement la tâche requise (objet cible en pose différente). Évalué sur le benchmark de simulation ManiSkill3 avec deux architectures VLA représentatives, OpenVLA et π₀.₅ de Physical Intelligence, le framework affiche des gains moyens de 16,62 % sur π₀.₅ et 9,10 % sur OpenVLA face à cinq catégories de shifts visuels hors distribution : distracteurs inédits, changements de texture, variations de pose de l'objet cible, changements de point de vue et variations d'éclairage. Ce résultat adresse un angle mort structurel du déploiement industriel des VLA : les récompenses de tâche standard supervisent le succès d'une manipulation, mais ne distinguent pas entre un changement visuel anodin et un changement qui exige une adaptation comportementale de la part du robot. PAIR-VLA convertit les variantes visuelles en signal comportemental au moment du RL, et non en simple augmentation d'observations. L'aspect le plus saillant est la généralisation croisée relevée en ablations : une guidance d'invariance apprise sur des variantes de distracteurs et de textures se transfère aux shifts de pose et d'éclairage, ce qui suggère que le framework capture quelque chose de structurel dans la distinction pertinent/non-pertinent plutôt qu'un surapprentissage de domaine. Le contexte est celui d'une course intense autour des VLA pour la manipulation robotique. OpenVLA (UC Berkeley, 2024) s'est imposé comme référence open-source ; π₀ et π₀.₅ de Physical Intelligence (San Francisco) visent des applications industrielles à plus grande échelle, tandis que les travaux de Google DeepMind sur RT-2, et les modèles Octo et RoboFlamingo, densifient le paysage concurrent. PAIR-VLA est pour l'instant un preprint sans déploiement annoncé ni validation sur robot physique, ce qui constitue la limite principale à noter. La méthode s'applique en post-training RL au-dessus de checkpoints VLA existants sans réentraînement complet, avantage pratique non négligeable pour les intégrateurs qui s'appuient sur des modèles publics. La confirmation que ces gains en simulation résistent au reality gap reste l'étape décisive à venir.

RobotiqueOpinion
1 source
SECOND-Grasp : préhension dextérique guidée par le contact sémantique
277arXiv cs.RO 

SECOND-Grasp : préhension dextérique guidée par le contact sémantique

Des chercheurs ont publié en mai 2025 sur arXiv (2605.13117) SECOND-Grasp (SEmantic CONtact-guided Dexterous Grasping), un cadre unifié permettant à des mains robotiques multi-doigts d'adapter leurs stratégies de préhension à des consignes en langage naturel tout en garantissant la stabilité physique du contact. Le pipeline enchaîne un raisonnement vision-langage pour identifier les zones de contact probables, une segmentation multi-vues, puis un module baptisé SGCR (Semantic-Geometric Consistency Refinement) qui raffine ces prédictions par cohérence inter-vues et suppression des régions géométriquement invalides, produisant des cartes de contact 3D exploitables. Ces cartes alimentent un apprentissage de politique via cinématique inverse, entraîné sur le dataset DexGraspNet. Sur des catégories d'objets vus en entraînement, le système atteint 98,2 % de taux de succès au levage ; sur des catégories non vues, 97,7 % ; la préhension guidée par l'intention progresse de 12,8 % et 26,2 % respectivement face aux baselines, validé sur Shadow Hand et Allegro Hand. Le résultat le plus significatif est précisément cette quasi-absence de dégradation entre catégories vues et non vues : cela suggère que le couplage sémantique-géométrique produit des représentations suffisamment abstraites pour généraliser hors distribution, un verrou classique du dexterous grasping. L'intégration native du langage dans la planification de contact, plutôt qu'en couche de sélection aval, place SECOND-Grasp dans la lignée des architectures VLA appliquées à la manipulation fine, comme Pi-0 (Physical Intelligence) ou les travaux récents de DeepMind. Pour un décideur industriel, la promesse est lisible : un système capable de comprendre où et comment saisir selon une tâche verbalisée, sans ré-entraînement par catégorie d'objet. Les métriques restent toutefois issues de benchmarks contrôlés ; le transfert sim-to-real en environnement industriel non structuré n'est pas encore démontré. Le dexterous grasping est un chantier ouvert depuis les années 1990, longtemps fragmenté entre approches analytiques (calcul de wrench space) et méthodes data-driven. L'essor des modèles vision-langage a rouvert la question en conditionnant la préhension par le langage naturel. Les concurrents directs dans cet espace incluent GraspGPT, FoundationGrasp et les travaux de Stanford sur DexArt. En Europe, Enchanted Tools (robot Miroki) explore la manipulation expressive mais n'a pas publié de résultats comparables sur le grasping structuré. La prochaine étape naturelle pour SECOND-Grasp serait une validation sur plateforme physique en scène non contrôlée, potentiellement intégrée dans un pipeline humanoïde ou sur bras industriel polyvalent.

RobotiqueOpinion
1 source
GuidedVLA : spécialisation de l'attention pour cibler les facteurs pertinents d'une tâche dans les modèles VLA
278arXiv cs.RO 

GuidedVLA : spécialisation de l'attention pour cibler les facteurs pertinents d'une tâche dans les modèles VLA

Une équipe de chercheurs propose GuidedVLA, un cadre d'entraînement conçu pour améliorer la robustesse des modèles Vision-Language-Action (VLA) en robotique de manipulation. Publiée sur arXiv (2605.12369) en mai 2026, l'approche repose sur une décomposition fonctionnelle du décodeur d'actions : plutôt que de laisser un bloc monolithique apprendre implicitement ce qui est pertinent dans une scène, GuidedVLA affecte des têtes d'attention spécialisées à des facteurs explicitement définis. Dans cette première instanciation, trois têtes distinctes supervisent respectivement la localisation d'objets (object grounding), la géométrie spatiale, et la logique temporelle des compétences motrices. Les expériences menées en simulation et sur robot réel montrent des gains de taux de réussite aussi bien en conditions connues (in-domain) qu'en conditions non vues lors de l'entraînement (out-of-domain), par rapport à des baselines VLA existantes, sans que les auteurs ne publient de chiffres agrégés dans l'abstract. L'enjeu industriel est direct : les VLA actuels souffrent d'un problème bien documenté de surapprentissage sur des corrélations parasites, raccourcis visuels, bruit de fond, artefacts de jeu de données. Ce phénomène est l'une des causes principales de l'écart démo-réalité qui freine le déploiement en production. En forçant les têtes d'attention à capturer des représentations découplées et sémantiquement définies, GuidedVLA propose une voie vers un meilleur transfert sim-to-real. L'amélioration out-of-domain est particulièrement significative pour les intégrateurs et décideurs industriels : elle indique que le modèle généralise au-delà de ses données d'entraînement, condition nécessaire à tout déploiement en environnement non contrôlé. Les VLA ont émergé dans le sillage des grands modèles de langage, avec des jalons comme RT-2 de Google DeepMind en 2023, puis OpenVLA, Pi-0 de Physical Intelligence et GR00T N2 de NVIDIA, toutes des architectures qui alignent l'action robotique comme une modalité dans des VLMs pré-entraînés, en pariant que la supervision de bout en bout suffit à isoler les bons facteurs. GuidedVLA remet en question ce pari en injectant de la structure explicite dans le décodeur, une direction qui rejoint certains travaux sur les politiques hiérarchiques. L'architecture se veut plug-and-play, ouvrant la voie à une intégration dans des VLA existants. Le papier reste à ce stade un preprint académique sans annonce de déploiement industriel ni partenariat commercial identifié.

RechercheOpinion
1 source
MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale
279Microsoft Research 

MatterSim : vers une IA pour les matériaux plus rapide, multi-tâches et orientée synthèse expérimentale

Microsoft Research a annoncé plusieurs avancées majeures autour de MatterSim, son modèle d'intelligence artificielle dédié à la simulation des matériaux. L'équipe a d'abord validé expérimentalement une prédiction du modèle : le phosphure de tantale tétragonal (TaP) a été synthétisé en laboratoire et sa conductivité thermique mesurée à 152 W/m/K, une valeur proche de celle du silicium. Ce résultat confirme la fiabilité de MatterSim-v1, qui avait identifié ce matériau après avoir passé en revue plus de 240 000 candidats. Ces travaux ont été menés en collaboration avec l'Université du Texas à Dallas, l'Université de l'Illinois à Urbana-Champaign et l'Université de Californie à Davis. En parallèle, l'équipe a accéléré l'inférence du modèle de trois à cinq fois et l'a intégré au logiciel de simulation LAMMPS, autorisant des calculs à grande échelle sur plusieurs GPU simultanément. Microsoft lance également MatterSim-MT, un modèle de fondation multi-tâches capable de simuler des phénomènes impliquant plusieurs propriétés complexes que les approches classiques de surfaces d'énergie potentielle ne peuvent pas capturer seules. La conception de nouveaux matériaux sous-tend des pans entiers de l'innovation technologique, de la nanoélectronique au stockage d'énergie, mais les cycles de développement restent longs et onéreux. Les potentiels interatomiques par apprentissage automatique comme MatterSim visent à transformer ce paradigme : ils opèrent des ordres de grandeur plus vite que les simulations ab initio traditionnelles, ramenant des calculs autrefois prohibitifs à quelques heures de traitement. La validation du TaP illustre concrètement ce gain : au lieu de mois d'exploration empirique en laboratoire, MatterSim a permis de cibler un candidat à haute conductivité thermique parmi un quart de million de matériaux avant même toute synthèse. Les matériaux conducteurs de chaleur jouent un rôle critique dans la gestion thermique des processeurs, de l'électronique de puissance et des technologies aérospatiales. Disposer d'outils prédictifs fiables à cette échelle pourrait donc accélérer substantiellement le développement de composants de nouvelle génération. MatterSim-v1 avait été lancé par Microsoft Research et s'était rapidement imposé dans la communauté des sciences des matériaux grâce à sa capacité à simuler les matériaux dans des conditions réalistes, y compris à température et pression variables. Le nouveau modèle multi-tâches MatterSim-MT s'inscrit dans une tendance de fond : l'émergence de modèles de fondation couvrant un spectre de propriétés toujours plus large, au-delà de la simple stabilité structurelle. Microsoft n'est pas seul dans cette course : Google DeepMind avec GNoME et Meta avec ses outils FAIR-Chem développent des approches comparables. L'IA pour la découverte de matériaux attire des investissements croissants, portée par les besoins de l'industrie des semi-conducteurs, de la transition énergétique et de l'électronique avancée. Les prochaines étapes pour MatterSim passeront vraisemblablement par l'extension à de nouvelles propriétés simulables et une intégration plus étroite dans les workflows expérimentaux des laboratoires partenaires.

RecherchePaper
1 source
Agent View débarque sur Claude Code : votre armée d’agents IA en une vue
280Le Big Data 

Agent View débarque sur Claude Code : votre armée d’agents IA en une vue

Anthropic a lancé une nouvelle fonctionnalité appelée Agent View pour son outil Claude Code, disponible dès la version 2.1.139 de l'application. Accessible via la commande claude agents dans le terminal, cette interface regroupe l'ensemble des sessions d'agents actives dans un tableau de bord unique intégré directement à l'environnement de développement. Elle est disponible pour tous les abonnements Pro, Max, Team et Enterprise, ainsi que via l'API Claude, dans le respect des limites de débit habituelles. Les administrateurs d'organisation disposent par ailleurs de la possibilité de désactiver la fonctionnalité depuis les paramètres centraux. Chaque ligne du tableau de bord représente une session Claude Code avec son état en temps réel : en cours, en attente de réponse humaine, terminée, inactive, arrêtée ou en échec. Pour les équipes de développeurs qui orchestrent plusieurs tâches simultanées, Agent View change concrètement la façon de travailler. Jusqu'ici, gérer plusieurs agents en parallèle signifiait jongler entre de multiples fenêtres de terminal, sans vue d'ensemble claire sur l'état de chaque processus. Désormais, un développeur peut lancer en parallèle des agents chargés de correctifs, de tests, de revues de code ou de mises à jour, passer de l'un à l'autre sans friction, reprendre une session suspendue à tout moment, et surtout identifier immédiatement les agents qui nécessitent une intervention humaine. Ce gain de visibilité est particulièrement précieux dans les environnements d'intégration continue où le temps perdu à chercher quelle tâche est bloquée peut coûter cher. Cette mise à jour s'inscrit dans une stratégie plus large qu'Anthropic mène depuis plusieurs mois pour transformer Claude Code en véritable plateforme de gestion d'agents IA pour les équipes techniques. L'entreprise avait déjà introduit successivement les sous-agents, les équipes d'agents, les compétences personnalisées, les hooks, les commandes à distance, les tâches programmées et une version web de Claude Code. Agent View est en quelque sorte la pièce qui manquait : elle consolide tous ces blocs épars en une interface cohérente. Anthropic cherche clairement à sortir Claude Code du statut d'assistant à l'écriture de code pour en faire un outil d'orchestration de workflows autonomes, en concurrence directe avec des environnements comme GitHub Copilot Workspace ou les solutions agentiques de Google DeepMind. La question qui reste ouverte est celle de la fiabilité à grande échelle : plus les agents sont nombreux et autonomes, plus la capacité à détecter rapidement les échecs devient critique, et c'est précisément ce que vise Agent View.

OutilsOutil
1 source
Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié
281arXiv cs.RO 

Piloter un robot humanoïde par instructions en langage libre : un modèle d'action à grand vocabulaire de mouvement unifié

Des chercheurs ont publié sur arXiv (identifiant 2511.22963, troisième version) Humanoid-LLA, un modèle d'action fondé sur un grand modèle de langage capable de convertir des instructions en langage naturel libre en séquences de mouvement whole-body exécutables directement sur des robots humanoïdes. Le système s'attaque à deux verrous techniques bien connus dans le domaine : la rareté des données appariées langage-mouvement humanoïde, et l'instabilité physique des mouvements synthétiques. Pour y remédier, l'architecture apprend un vocabulaire de mouvement unifié humain-humanoïde qui permet d'ancrer la sémantique de haut niveau dans un espace de contrôle physiquement cohérent. L'entraînement suit un protocole en deux étapes : une phase supervisée par Chain-of-Thought sur les séquences de mouvement, suivie d'un affinage par reinforcement learning conditionné par un retour de simulation physique. Les évaluations combinent tests en simulation et expériences réelles en cross-embodiment, soit sur plusieurs modèles de robots distincts. Ce travail comble un angle mort persistant dans la recherche sur les humanoïdes : la commande en langage libre pour le contrôle du corps entier, et pas seulement du bras manipulateur. Les approches existantes restent soit cantonnées à des instructions prédéfinies, soit contraintes à sacrifier la diversité des mouvements pour conserver la stabilité physique. Humanoid-LLA tente de lever ce compromis en intégrant explicitement la physique dans la boucle d'apprentissage via le RL. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un tel modèle pourrait réduire la dépendance aux interfaces de programmation spécialisées et abaisser le coût d'interaction avec des humanoïdes en ligne de production. La capacité de généralisation à des commandes inédites reste la métrique-clé revendiquée, mais l'absence de benchmarks comparatifs standardisés et la sélection probable des démonstrations vidéo invitent à nuancer les conclusions. Humanoid-LLA s'inscrit dans la montée en puissance des modèles VLA (Vision-Language-Action), un segment où Physical Intelligence avec pi0, Google DeepMind avec RT-2 et GR00T N2 co-développé avec NVIDIA, et Figure avec son pipeline Helix ont toutes misé sur le couplage langage-action pour dépasser les politiques sensorimotrices figées. La spécificité de cette contribution est le focus explicite sur le mouvement du corps complet plutôt que sur la manipulation d'objets, un espace encore peu exploré à grande échelle. L'article demeure un preprint non évalué par les pairs, sans déploiement industriel ni partenariat de mise en production annoncé. Les prochaines étapes probables incluent une soumission en conférence de type ICRA ou CoRL, et une validation sur des humanoïdes commerciaux comme l'Unitree H1 ou le Boston Dynamics Atlas, régulièrement utilisés comme bancs de test dans ce segment.

RobotiqueOpinion
1 source
IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence
282arXiv cs.RO 

IA incarnée : apprendre de ses essais et erreurs grâce à la planification réflexive à l'inférence

Une équipe de chercheurs a déposé sur arXiv en février 2026 (réf. 2602.21198, v2) un framework baptisé Reflective Test-Time Planning (RTTP), conçu pour résoudre un angle mort structurel de la robotique pilotée par LLM : les agents embarqués traitent chaque essai de façon indépendante, ce qui fait répéter les mêmes erreurs au lieu d'en tirer une expérience cumulative. Le RTTP introduit deux mécanismes : la reflection-in-action, où l'agent génère et évalue plusieurs actions candidates via un scaling à l'inférence avant d'agir, et la reflection-on-action, qui met à jour le modèle de réflexion interne et la politique d'action après exécution via un entraînement à l'inférence. Une troisième composante, la réflexion rétrospective, permet de réévaluer des décisions antérieures pour corriger l'attribution de crédit sur des tâches à long horizon. Les expériences portent sur deux benchmarks : Long-Horizon Household (tâches domestiques séquentielles) et MuJoCo Cupboard Fitting (manipulation en simulation physique), avec généralisation zero-shot vers les environnements HM3D photoréalistes et validation sur bras réel Franka Panda. L'enjeu industriel est direct : le déploiement de robots pilotés par VLA (Vision-Language-Action models) bute sur le demo-to-reality gap, où les modèles performent en laboratoire mais dégradent en conditions variables. RTTP propose une boucle fermée d'adaptation pendant le déploiement, sans fine-tuning offline coûteux. Les ablations confirment que les deux modes de réflexion sont mutuellement dépendants, et que la réflexion rétrospective surpasse le feedback step-wise classique avec un overhead computationnel inférieur, un avantage concret pour les intégrateurs soucieux de maîtriser les coûts d'inférence à l'échelle. Cette contribution s'inscrit dans la vague du test-time scaling, popularisée par les modèles de raisonnement d'OpenAI et Google DeepMind, mais appliquée à l'action robotique incarnée plutôt qu'au raisonnement abstrait. Les auteurs ne mentionnent ni partenariat industriel ni timeline commerciale : c'est un preprint de recherche, pas un produit shipé. Les travaux concurrents dans cette direction incluent les VLAs de Physical Intelligence (pi0), le programme RT-2-X de Google DeepMind et les recherches sur l'apprentissage online menées à Carnegie Mellon et Berkeley. Aucun acteur français ou européen n'est impliqué dans cette publication.

RechercheOpinion
1 source
NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA
283arXiv cs.RO 

NoTVLA : adapter les robots humanoïdes via des interfaces d'action narratives sans modifier le modèle VLA

Des chercheurs ont publié sur arXiv (référence 2510.03895v2) NoTVLA, un framework pour modèles robotiques de type Vision-Language-Action (VLA) qui s'attaque au problème du catastrophic forgetting, soit la tendance d'un modèle à oublier les tâches apprises lors du fine-tuning sur de nouvelles. L'approche, baptisée Narrowing of Trajectory VLA, abandonne les séquences d'action denses (action chunks) au profit de trajectoires creuses (sparse trajectories), en concentrant l'apprentissage sur la trajectoire de l'effecteur terminal plutôt que sur celle de l'objet cible. Le système applique une compression temporelle et un élagage du raisonnement spatial pour réduire le volume d'information d'entraînement. Dans des scénarios multi-tâches, NoTVLA surpasse pi0, le modèle de foundation robotique de Physical Intelligence, en zero-shot, tout en utilisant plus d'un ordre de grandeur moins de puissance de calcul, et sans nécessiter de caméra montée sur le poignet. Ce gain opérationnel est concret : le catastrophic forgetting constitue l'un des obstacles majeurs au déploiement industriel des VLA généralistes. Chaque fine-tuning sur un nouvel environnement tend à effacer les capacités précédemment acquises, forçant les intégrateurs à maintenir des modèles séparés par application, une contrainte coûteuse en infrastructure et en données étiquetées. NoTVLA contourne ce problème en évitant l'entraînement sur des trajectoires denses, lesquelles créent des silos de données isolés qui perturbent la rétention de connaissance entre tâches. L'absence de caméra poignet simplifie également l'intégration matérielle sur des bras industriels standard. Fait notable : le framework préserve les capacités linguistiques du modèle de base, ce qui permet une généralisation zero-shot depuis des perspectives de caméra inédites et un déploiement unifié sur plusieurs plateformes robotiques, avec des performances proches de modèles experts mono-tâche. NoTVLA s'inscrit dans la compétition intense autour des VLA, apparus comme paradigme dominant depuis fin 2023. Physical Intelligence (pi0), NVIDIA (GR00T N2), Google DeepMind (RT-2) et des acteurs académiques comme le Berkeley RAIL Lab (OpenVLA) se disputent la définition du standard de foundation robotique. Ce papier reste une publication académique arXiv, pas encore un produit commercialisé ni un déploiement terrain annoncé : aucun code public ni dataset n'est mentionné dans l'abstract, et les résultats reposent sur des évaluations en simulation ou banc de test contrôlé. La prochaine étape logique sera la validation sur robots physiques en conditions réelles, avec des benchmarks sur plateformes comme Franka ou UR5. La promesse d'efficacité, dix fois moins de puissance de calcul que pi0, pourrait intéresser des intégrateurs européens cherchant à s'affranchir des infrastructures GPU massives des grands clouds américains.

UELa réduction de 10x des besoins de calcul par rapport à pi0 pourrait permettre à des intégrateurs européens de déployer des VLA généralistes sans dépendre des infrastructures GPU massives des grands clouds américains.

RobotiqueOpinion
1 source
HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures
284arXiv cs.RO 

HumanNet : passage à l'échelle de l'apprentissage vidéo centré sur l'humain à un million d'heures

Des chercheurs ont publié HumanNet, un corpus vidéo d'un million d'heures centré sur les activités humaines, conçu pour alimenter l'apprentissage de l'intelligence embodied à grande échelle. Disponible sous forme de preprint arXiv (2605.06747), le dataset couvre des perspectives à la fois à la première et à la troisième personne, et capture des interactions fines avec des objets, l'utilisation d'outils, et des comportements de longue durée dans des environnements réels variés. Au-delà de la vidéo brute, HumanNet fournit des annotations centrées sur l'interaction : légendes textuelles, descriptions de mouvement, et signaux liés aux mains et au corps. L'expérience clé de validation compare deux configurations d'entraînement continu à partir du modèle Qwen VLM : 1 000 heures de vidéo égocentrique tirées de HumanNet surpassent 100 heures de données issues de robots réels (Magic Cobot) sur un ensemble fixe de données de validation. Ce résultat, s'il se confirme à plus grande échelle, remet en cause un dogme du secteur : l'idée que les modèles VLA (Vision-Language-Action) nécessitent impérativement des données collectées sur des robots physiques pour progresser. La collecte de données robot est coûteuse, lente, et difficile à diversifier, ce qui constitue l'un des principaux goulots d'étranglement dans la course aux systèmes généralistes. HumanNet propose un chemin alternatif : exploiter la vidéo humaine comme substitut scalable et économique, en transférant des représentations motrices et interactives vers les systèmes robotiques. Il faut toutefois nuancer l'ambition de la démonstration : la validation présentée se limite à une seule ablation contrôlée sur un sous-ensemble de tâches, et aucun résultat en déploiement réel sur des robots n'est encore disponible. Ce projet s'inscrit dans une compétition plus large pour constituer des datasets à grande échelle pour l'embodied AI. Des corpus comme Ego4D (Meta, 3 500 heures), Epic-Kitchens ou Something-Something ont posé des jalons, mais aucun n'atteignait le million d'heures ni ne proposait ce niveau d'annotation motion-aware. Côté modèles, les concurrents directs incluent pi-0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind et Helix de Figure AI, tous confrontés au même problème de rareté des données robot. HumanNet ne s'accompagne d'aucune annonce commerciale ni de timeline de déploiement industriel ; il s'agit pour l'instant d'une contribution de recherche qui devra être validée dans des contextes robotiques réels avant de modifier les pratiques des intégrateurs.

💬 1000 heures de vidéo humaine qui surpassent 100 heures de données robot réel, c'est le genre de résultat qui fait mal au dogme du secteur. Si ça se confirme, ça change tout sur le goulot d'étranglement de la robotique généraliste : la collecte de données robot est un cauchemar logistique et financier, et là on parle de le contourner avec du YouTube. Bon, une ablation sur un sous-ensemble de tâches, c'est pas encore la preuve en déploiement, mais l'idée est là.

RechercheOpinion
1 source
AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action
285arXiv cs.RO 

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

Une équipe de chercheurs a publié en mai 2026 sur arXiv (référence 2605.07308) une architecture baptisée AT-VLA, pour Adaptive Tactile Vision-Language-Action. L'objectif est d'intégrer le retour tactile dans les modèles VLA préentraînés sans dégrader leurs capacités existantes, tout en atteignant une latence de réponse en boucle fermée de 0,04 seconde. Le système repose sur deux mécanismes distincts : un module d'injection tactile adaptative, qui détermine dynamiquement à quel moment et à quels endroits du réseau injecter les signaux tactiles, et un double flux de traitement qui sépare la perception visuelle-langagière basse fréquence du contrôle tactile haute fréquence. L'enjeu est significatif pour les intégrateurs et les équipes de recherche en manipulation robotique. Les modèles VLA actuels, comme Pi-0 de Physical Intelligence ou OpenVLA, excellent dans les tâches générales mais peinent dès que la manipulation implique des contacts précis : insertion de connecteurs, assemblage de pièces, manipulation d'objets fragiles. Le problème n'est pas seulement l'absence de capteurs tactiles, mais l'incompatibilité structurelle entre la lenteur d'inférence des VLA et le besoin de réactivité en temps réel que requiert le retour haptique. AT-VLA propose une réponse architecturale à ce goulot d'étranglement, en découplant explicitement les deux temporalités de traitement. Les expériences en conditions réelles rapportées dans l'article valident l'approche sur des tâches de manipulation à contact riche, bien que le périmètre exact des benchmarks ne soit pas détaillé dans l'abstract. Les VLA représentent depuis 2023 le paradigme dominant en robotique de manipulation polyvalente, portés par des travaux comme RT-2 de Google DeepMind, puis Pi-0, Octo, et plus récemment GR00T N2 de NVIDIA pour les humanoïdes. L'intégration du toucher dans ces architectures est un problème ouvert reconnu : la modalité tactile est quasi absente des datasets de préentraînement massifs, ce qui rend le finetuning délicat. Plusieurs groupes travaillent sur ce sujet en parallèle, notamment autour des capteurs GelSight et des gants haptiques. AT-VLA est pour l'instant un preprint non évalué par les pairs, sans déploiement industriel annoncé; la prochaine étape probable est une soumission en conférence (CoRL, ICRA ou RSS) accompagnée de la mise à disposition du code via la page projet.

RechercheOpinion
1 source
OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste
286arXiv cs.RO 

OA-WAM : un modèle du monde à adressage par objet pour la manipulation robotique robuste

OA-WAM (Object-Addressable World Action Model), soumis sur arXiv en mai 2025 (arXiv:2605.06481), propose une politique vision-langage-action (VLA) qui décompose chaque frame en N+1 "slots" d'état : un slot robot et N slots objets. Chaque slot combine un vecteur d'adresse persistant (identifiant stable de l'objet) et un vecteur de contenu variable décrivant son état courant. Ces représentations sont fusionnées avec des tokens textuels, visuels, proprioceptifs et d'actions dans une séquence causale par blocs, alimentant une tête "monde" (prédiction du frame suivant) et une tête d'action par flow-matching (chunk de 16 actions continues). Le modèle atteint 97,8 % de succès sur le benchmark LIBERO et 79,3 % sur SimplerEnv. Un test de "causal slot-intervention" mesure un cosinus de binding de 0,87 contre un maximum de 0,09 pour les baselines holistes, un écart difficile à ignorer. Le problème central est le "scene entanglement" : quand une politique représente l'évolution du monde comme une image globale ou des tokens vidéo, le décodeur d'action peine à cibler un objet précis dès que la scène varie (distracteurs, occlusions, changements d'éclairage). En séparant explicitement "quel objet" (l'adresse) de "comment il est" (le contenu), et en routant l'attention cross-slot via des clés d'adresse uniquement, l'architecture maintient l'identité des objets sous perturbations contextuelles sans surcoût en tokens. Pour un intégrateur B2B ou un COO industriel, c'est un argument concret vers des politiques robotiques stables face aux variations de ligne de production, sans retraining systématique à chaque changement de contexte. Les WAMs (World Action Models) sont une extension récente des VLA classiques (π0 de Physical Intelligence, OpenVLA, RT-2 de Google DeepMind) qui ajoutent une prédiction de scène en boucle fermée pour contraindre les décisions d'action. OA-WAM s'inscrit dans la lignée des modèles à slots (SAVi, IODINE) transposés au contrôle robot. Il s'agit d'un preprint académique : toutes les évaluations sont conduites en simulation (LIBERO, SimplerEnv), sans validation sur robot physique mentionnée. Aucun déploiement ni partenariat industriel n'est annoncé à ce stade. La prochaine étape logique sera la validation sim-to-real sur manipulateurs réels et l'extension à des tâches de manipulation longue durée.

RechercheOpinion
1 source
TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable
287arXiv cs.RO 

TriRelVLA : structure relationnelle triadique pour la manipulation incarnée généralisable

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, langage naturel et génération d'actions motrices, butent sur un problème connu : leur incapacité à généraliser à des scènes ou des objets non vus à l'entraînement. Une équipe de chercheurs propose TriRelVLA (arXiv:2605.05714, mai 2026), une architecture qui remplace les représentations visuelles implicites des VLA actuels par une structure relationnelle triadique explicite articulée autour de trois pôles : l'objet manipulé, la main du robot, et la tâche à accomplir. En pratique, le système construit ces représentations triadiques depuis des entrées multimodales, les organise dans un graphe relationnel via un graph transformer, puis compresse la structure dans un espace goulot (bottleneck) avant de l'injecter dans le LLM pour la prédiction d'action. Les auteurs introduisent également un jeu de données robotiques en environnement réel pour le fine-tuning et rapportent des gains en généralisation inter-scènes, inter-objets et inter-tâches. L'enjeu pour les intégrateurs industriels est direct : un système de manipulation qui échoue dès que la lumière change ou qu'une nouvelle référence produit apparaît n'est pas déployable à l'échelle. En découplant la structure relationnelle action-pertinente de l'apparence visuelle brute, TriRelVLA vise à rendre les politiques de contrôle portables entre environnements et configurations. La compression en espace bottleneck force le modèle à abstraire plutôt qu'à mémoriser, une approche qui, si elle tient à l'échelle, réduirait significativement les coûts de redéploiement dans de nouveaux ateliers ou avec de nouvelles références produit. Ce travail s'inscrit dans une vague de recherches sur les représentations structurées pour VLA, après des approches qui objectifiaient le contenu visuel sans capturer les relations pertinentes pour l'action. Les concurrents directs incluent pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), RT-2 et sa suite chez Google DeepMind, et GR00T N2 de NVIDIA, qui partagent tous le même défaut de sensibilité visuelle que TriRelVLA cherche à corriger. Ce papier reste un preprint non relu par les pairs, et les gains en généralisation annoncés n'ont pas encore été reproduits de manière indépendante. La mise à disposition du jeu de données réel représente la prochaine étape clé pour que la communauté puisse valider ces résultats.

RobotiqueOpinion
1 source
Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
288arXiv cs.RO 

Quand faire confiance à l'imagination : exécution adaptative des actions pour les modèles d'action du monde

Des chercheurs présentent sur arXiv (2605.06222) une méthode d'exécution adaptative pour les World Action Models (WAMs), une famille d'architectures de manipulation robotique qui prédisent simultanément les observations visuelles futures et les séquences d'actions à exécuter. Le problème structurel de ces systèmes est qu'ils exécutent un nombre fixe d'actions prédites après chaque inférence, sans vérifier si le déroulé physique réel correspond à l'état "imaginé" par le modèle. Pour y remédier, les auteurs proposent FFDC (Future Forward Dynamics Causal Attention), un vérificateur léger qui croise en temps réel les actions prédites, la dynamique visuelle anticipée, les observations caméra actuelles et les instructions en langage naturel, pour décider si le plan reste valide ou s'il faut déclencher une nouvelle inférence plus tôt. Ce module est couplé à une stratégie d'entraînement baptisée Mixture-of-Horizon Training, conçue pour améliorer la couverture des trajectoires longues. Sur le benchmark RoboTwin, FFDC réduit le nombre de passes avant du modèle de 69,10 % et le temps d'exécution de 34,02 %, avec un taux de succès en hausse de 2,54 % par rapport à une baseline à chunk court. En conditions réelles, le gain atteint 35 % de succès supplémentaire, bien que le nombre d'essais et les tâches testées ne soient pas précisés dans ce préprint. L'apport principal est de résoudre un compromis structurel qui freine le déploiement industriel des robots manipulateurs : réinférer fréquemment est réactif mais coûteux en calcul, tandis qu'exécuter de longues séquences prédites est efficace mais aveugle aux imprévus. FFDC introduit une troisième voie, où la taille du chunk d'action devient une variable émergente pilotée par la cohérence entre imagination et réalité. Ce mécanisme est particulièrement critique pour les phases de contact riche, où un décalage millimétrique entre état prédit et état réel suffit à faire échouer une saisie, et représente une avancée concrète vers des WAMs opérationnels hors environnement contrôlé. Les WAMs s'inscrivent dans la dynamique plus large des modèles d'actions visuelles et langagières (VLAs), aux côtés de Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou RT-2 et ses successeurs chez Google DeepMind. Leur spécificité est d'intégrer explicitement une prédiction de l'état visuel futur pour planifier à plus long horizon. Ce préprint, sans affiliation industrielle déclarée, n'est pas encore évalué par les pairs. La prochaine étape naturelle serait une validation sur des benchmarks standardisés plus larges et des pilotes en environnement industriel non structuré.

RobotiqueOpinion
1 source
Google teste l'agent IA Remy pour Gemini, avec un accent mis sur le contrôle utilisateur
289AI News 

Google teste l'agent IA Remy pour Gemini, avec un accent mis sur le contrôle utilisateur

Google teste en interne un nouvel agent IA baptisé Remy, conçu pour s'intégrer à l'application Gemini et agir de manière autonome au nom des utilisateurs dans leurs tâches professionnelles et quotidiennes. L'information provient de Business Insider, qui affirme avoir consulté un document interne et échangé avec deux personnes au fait du projet. Selon ce document, Remy se présente comme un "agent personnel disponible 24h/24", capable de gérer des tâches complexes, d'apprendre les préférences de l'utilisateur et de se connecter aux services Google comme Gmail, Calendar, Docs, Drive, ainsi qu'à des plateformes tierces telles que GitHub, Spotify ou WhatsApp. Pour l'heure, le projet est en phase de "dog-fooding", c'est-à-dire testé exclusivement par des employés de Google. Aucune date de lancement public n'a été communiquée, et Google a refusé de commenter. Remy représente une évolution significative dans la stratégie de Google autour de Gemini, qui cherche à dépasser le simple chatbot pour devenir un assistant capable d'agir, et non plus seulement de répondre. Si Google propose déjà un "Agent Mode" dans Gemini, Remy serait selon les sources une version nettement plus avancée, intégrant un apprentissage des préférences utilisateur et une gestion de tâches multi-étapes. Cette orientation vers les agents autonomes soulève toutefois des questions de contrôle et de vie privée que Google semble anticiper : le Privacy Hub de Gemini permet déjà aux utilisateurs de consulter et supprimer l'historique d'activité, de gérer les données de personnalisation et de révoquer l'accès aux applications connectées. Les chercheurs de Google Research ont par ailleurs formalisé des principes pour les agents IA, insistant sur des pouvoirs strictement limités, des actions observables et l'application du principe de moindre privilège. La course aux agents autonomes s'est accélérée ces derniers mois dans l'ensemble du secteur. OpenAI a attiré l'attention début 2025 avec OpenClaw, un agent capable de répondre à des messages et de mener des recherches de façon autonome, dont le créateur a été recruté par Sam Altman en février. Le PDG de Google DeepMind, Demis Hassabis, a lui-même évoqué l'ambition de construire un "assistant numérique" de référence, sans préciser le calendrier. Remy s'inscrit dans cette dynamique où les grandes plateformes IA cherchent à passer du stade de l'assistant conversationnel à celui d'un véritable mandataire numérique. Les détails techniques restent flous: l'architecture de Remy, le modèle sous-jacent et le degré d'autonomie réel, notamment la question de savoir s'il peut agir sans confirmation explicite de l'utilisateur, n'ont pas été divulgués.

UELe déploiement futur de Remy serait soumis à l'AI Act européen, notamment aux exigences de transparence et de contrôle utilisateur imposées aux agents autonomes, que Google semble anticiper via son Privacy Hub.

OutilsOutil
1 source
RLDX-1 : rapport technique
290arXiv cs.RO 

RLDX-1 : rapport technique

Un rapport technique déposé sur arXiv le 6 mai 2026 présente RLDX-1, une politique robotique généraliste conçue pour la manipulation dextre complexe. L'architecture centrale, baptisée Multi-Stream Action Transformer (MSAT), intègre des modalités hétérogènes via des flux spécialisés par modalité couplés à une attention croisée inter-modale (cross-modal joint self-attention). Cette conception cible trois lacunes persistantes des modèles Vision-Langage-Action (VLA) actuels : la conscience du mouvement (motion awareness), la prise de décision avec mémoire contextuelle, et l'intégration de retours sensoriels physiques. Le système combine cette architecture avec des choix de conception système : génération synthétique de données d'entraînement pour les scénarios de manipulation rares, procédures d'apprentissage spécialisées pour un geste proche du mouvement humain, et optimisations d'inférence pour le déploiement temps réel. Sur le benchmark ALLEX, conçu pour évaluer le contrôle de robots humanoïdes à haut degré de liberté (DoF) sous des exigences fonctionnelles variées, RLDX-1 atteint un taux de succès de 86,8 % contre environ 40 % pour π0.5 (Physical Intelligence) et GR00T N1.6 (NVIDIA), soit un écart de plus de 45 points. Ces résultats, obtenus à la fois en simulation et sur des tâches en environnement réel, indiquent que l'architecture MSAT surpasse les VLA de référence sur des tâches impliquant des contacts riches, des dynamiques rapides et des contraintes sensorimotrices multiples. C'est précisément sur ce segment -- la manipulation dextre en conditions réelles, pas en démonstration contrôlée -- que le fossé entre recherche et déploiement industriel reste le plus large, et que ces chiffres méritent une validation indépendante avant d'être pris au pied de la lettre. Les VLA ont connu une accélération marquée depuis 2024, portés par RT-2 (Google DeepMind), OpenVLA, puis la série π0/π0.5 de Physical Intelligence et la famille GR00T de NVIDIA. RLDX-1 s'inscrit dans cette dynamique en cherchant à dépasser le paradigme "versatilité générale" pour cibler des capacités fonctionnelles élargies sur des robots humanoïdes haute-DoF. Aucune affiliation institutionnelle ou entreprise n'est clairement identifiée dans l'abstract publié -- le rapport reste à ce stade un preprint non revu par les pairs, sans annonce de déploiement ni calendrier de commercialisation. Les étapes naturelles suivantes incluront une validation indépendante des benchmarks et une évaluation sur des plateformes humanoïdes commerciales comme celles de Figure, Unitree ou Agility Robotics.

RobotiqueOpinion
1 source
Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle
291arXiv cs.RO 

Phone2Act : système de téléopération économique et universel pour la collecte de données VLA à grande échelle

Phone2Act est un framework de téleopération publié sur arXiv (2605.01948) qui transforme un smartphone grand public en contrôleur de robot à 6 degrés de liberté (DoF) via Google ARCore. Développé sur une architecture ROS 2 modulaire, le système découple la logique de contrôle des spécificités matérielles grâce à des noeuds bridge interchangeables, ce qui permet de passer d'un cobot industriel à un bras bimanuel bas coût sans modification de code. Un composant baptisé Universal Recorder synchronise des flux RGB multi-caméras avec le retour d'état du robot, puis exporte les démonstrations directement au format LeRobot, supprimant toute étape de post-traitement. Le framework a été validé en affinant le modèle VLA GR00T-N1.5 de NVIDIA sur 130 épisodes collectés, atteignant un taux de succès de 90 % sur une tâche réelle de pick-and-place multi-étapes déployée sur un Dobot CR5 physique. Ce résultat interpelle à plusieurs titres. La collecte de données de manipulation reste l'un des goulets d'étranglement les plus coûteux du pipeline d'entraînement VLA (Vision-Language-Action) : les frameworks existants supposent du matériel spécialisé, exosquelettes, gants haptiques, SpaceMouse, représentant souvent plusieurs milliers d'euros par poste. Phone2Act abaisse ce seuil à la possession d'un smartphone compatible ARCore. Les 90 % de succès sur tâche physique réelle, obtenus avec seulement 130 épisodes, suggèrent que la qualité des données collectées est suffisante pour le fine-tuning de modèles de fondation actuels. Pour un intégrateur ou un laboratoire à budget contraint, le facteur limitant n'est plus le matériel de collecte, mais le temps opérateur. Il faut toutefois noter que les vidéos de démonstration ne couvrent qu'une seule tâche, et que 130 épisodes représente un volume très limité pour tirer des conclusions généralisables. La problématique du coût de la donnée robotique est centrale depuis l'essor des modèles VLA fin 2023. Des initiatives comme Open X-Embodiment (Google DeepMind) ou LeRobot (HuggingFace, 2024) ont standardisé les formats de datasets sans résoudre l'acquisition terrain à bas coût. Phone2Act s'inscrit dans cette continuité en ciblant le format LeRobot comme sortie native. Face à lui, des systèmes comme ALOHA 2 (Google DeepMind/Stanford) ou les kits SO-100/SO-101 (The Robot Company) restent liés à des plateformes matérielles spécifiques. Le Dobot CR5 retenu pour les tests est un cobot industriel d'entrée de gamme, aux alentours de 15 000 euros, ce qui délimite le périmètre cible. Le code source et les données collectées n'étaient pas encore publics au moment de la soumission arXiv.

UEImpact indirect pour les laboratoires européens utilisant le format LeRobot (HuggingFace) ; aucune institution française ou européenne n'est directement impliquée dans le développement du framework.

RobotiqueOpinion
1 source
Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP
292MarkTechPost 

Zyphra présente TSP : stratégie d'entraînement adaptée au matériel offrant un débit 2,6 fois supérieur au TP+SP

Zyphra a publié une nouvelle technique d'entraînement et d'inférence pour les grands modèles de langage baptisée TSP, pour Tensor and Sequence Parallelism. Testée sur jusqu'à 1 024 GPU AMD MI300X, cette approche affiche un débit 2,6 fois supérieur aux configurations standards combinant parallélisme tensoriel et de séquence, tout en réduisant la mémoire de pointe par GPU sur les deux types de charge de travail, entraînement et inférence. L'idée centrale est ce que Zyphra appelle le "parallelism folding" : plutôt que de répartir les poids du modèle et les tokens de la séquence sur deux axes distincts d'une grille de GPU, TSP combine les deux sur un seul axe de taille D. Résultat : chaque GPU ne détient qu'un D-ième des poids du modèle et qu'un D-ième de la séquence d'entrée, ce qui réduit mécaniquement l'empreinte mémoire par appareil pour les paramètres, les gradients, les états de l'optimiseur et les activations, en un seul mouvement. Cela change concrètement la façon dont les ingénieurs peuvent planifier l'infrastructure pour les très grands modèles. Les deux approches dominantes jusqu'ici avaient chacune un défaut structurel : le parallélisme tensoriel (TP) réduit la mémoire des poids mais génère des communications dont le coût explose avec la longueur des séquences ; le parallélisme de séquence (SP) allège les activations mais laisse les poids entièrement répliqués sur chaque GPU. Combinés sur des axes orthogonaux, ces deux schémas exigent un groupe de T fois Sigma GPU par réplique du modèle, ce qui peut forcer les communications à transiter par des interconnexions inter-nœuds lentes comme InfiniBand, plutôt que par les tissus haute bande passante intra-nœuds comme AMD Infinity Fabric ou NVLink. TSP évite ce surcoût en maintenant tout le groupe sur un axe unique, suffisamment compact pour rester dans les liens rapides. La course aux grands modèles a rendu la gestion de la mémoire GPU aussi critique que les algorithmes eux-mêmes. Les entreprises comme OpenAI, Anthropic, Google ou Meta opèrent des clusters de plusieurs milliers de GPU où chaque point de pourcentage d'efficacité mémoire se traduit directement en coûts d'infrastructure ou en capacité à entraîner des modèles plus grands. Zyphra, startup spécialisée dans l'IA d'entreprise et les architectures hybrides comme Zamba, publie cette technique avec une description technique détaillée, signalant une volonté de peser dans les débats d'infrastructure aux côtés des équipes de recherche système de Google DeepMind, Meta FAIR ou Microsoft. TSP devra maintenant être évalué sur des architectures NVIDIA et des topologies de cluster variées pour confirmer si ses gains se généralisent au-delà des GPU AMD.

InfrastructureOpinion
1 source
Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé
293MarkTechPost 

Guide du prompting systématique : contraintes négatives, sorties JSON structurées et échantillonnage multi-hypothèses verbalisé

La fiabilité des grands modèles de langage en production est devenue une préoccupation d'ingénierie à part entière. Un guide technique récemment publié identifie cinq techniques de prompting avancées, conçues non pas pour améliorer les résultats en moyenne, mais pour garantir leur cohérence dans des systèmes critiques. Ces méthodes opèrent entièrement au niveau du prompt, sans nécessiter de fine-tuning, de modification du modèle ni d'infrastructure supplémentaire. Les cinq techniques présentées sont : le prompting par rôle (role-specific prompting), le prompting négatif, le prompting structuré JSON, les requêtes de raisonnement attentif (ARQ, Attentive Reasoning Queries) et l'échantillonnage verbalisé (verbalized sampling). L'auteur les démontre en comparant côte à côte des résultats obtenus avec et sans chaque technique sur les mêmes tâches, en utilisant le modèle GPT-4o-mini d'OpenAI via l'API. La principale valeur de ces approches réside dans leur capacité à corriger des modes de défaillance précis. Le prompting par rôle, qui consiste à attribuer un persona dans le prompt système comme « vous êtes un chercheur senior en sécurité applicative », ne modifie pas les faits que le modèle connaît, mais change les parties de sa connaissance pondérées en priorité. Dans un exemple sur les tokens de session stockés en localStorage, la réponse sans rôle décrit les risques de manière générale, tandis que la réponse avec rôle raisonne comme un attaquant, en détaillant ce qu'un adversaire ferait concrètement en cas d'injection XSS. Le prompting négatif précise explicitement ce que le modèle ne doit pas faire, évitant certains formats, biais ou glissements stylistiques indésirables. Le JSON prompting contraint la sortie à une structure définie, indispensable lorsque le résultat doit être parsé par un programme en aval. Enfin, ARQ et l'échantillonnage verbalisé forcent le modèle à expliciter son raisonnement ou à explorer plusieurs hypothèses avant de conclure, réduisant les erreurs silencieuses qui passent inaperçues dans les évaluations rapides. Ces travaux s'inscrivent dans une tendance plus large de formalisation du prompt engineering comme discipline à part entière. Longtemps considéré comme de l'empirisme artisanal, le prompting fait l'objet depuis 2023 d'une littérature de recherche croissante : des équipes chez Google DeepMind, Meta et des chercheurs indépendants ont publié des taxonomies et des benchmarks pour évaluer ces techniques de manière systématique. L'enjeu est de taille : à mesure que les LLMs s'intègrent dans des pipelines automatisés comme l'analyse médicale, la génération de code ou le traitement juridique, la différence entre un prompt qui « marche souvent » et un prompt qui « marche toujours » devient une question de risque opérationnel. Les développeurs qui maîtrisent ces cinq techniques peuvent déployer des systèmes plus robustes sans modifier les modèles eux-mêmes, ce qui représente un avantage économique et technique considérable dans un contexte où le fine-tuning reste coûteux et complexe.

LLMsTuto
1 source
ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes
294arXiv cs.RO 

ImagineNav++ : piloter des modèles vision-langage comme navigateurs incarnés par imagination de scènes

Une équipe de chercheurs a publié ImagineNav++ (arXiv:2512.17435, décembre 2024, version 3 en mai 2025), un système de navigation visuelle pour robots d'assistance domestique fonctionnant sans carte préalable, à partir d'un flux RGB ou RGB-D embarqué uniquement. Plutôt que de planifier en texte pur comme les agents LLM classiques, le système génère des images futures depuis des positions candidates du robot, puis soumet ces vues synthétiques à un modèle vision-langage (VLM) qui sélectionne la trajectoire la plus prometteuse. Deux composants structurent l'approche : un module d'imagination de vues futures entraîné sur des préférences de navigation humaine pour produire des points de vue à fort potentiel exploratoire, et un mécanisme de mémoire par fovéation sélective (sparse-to-dense) maintenant la cohérence spatiale sur de longues séquences. Sur les benchmarks open-vocabulary d'object navigation et d'instance navigation, ImagineNav++ atteint l'état de l'art en configuration sans carte, surpassant la majorité des méthodes basées sur des cartes explicites. Ce résultat remet en question une hypothèse structurante du domaine : que la navigation autonome en intérieur requiert impérativement une cartographie préalable (SLAM, occupancy maps). Si des VLMs peuvent raisonner spatialement à partir de flux visuels bruts, le pipeline de déploiement se simplifie considérablement pour les intégrateurs d'AMR et de robots d'assistance en environnements non structurés comme des logements ou des établissements de soins. La reformulation du problème comme sélection de meilleure vue est aussi une contribution méthodologique notable : elle rend le raisonnement spatial interprétable et compatible avec les interfaces VLM standard, sans nécessiter d'architecture spécialisée coûteuse. Ce travail prolonge une séquence de recherches cherchant à dépasser les LLM de navigation purement textuels, dont SayNav et LM-Nav, en y intégrant une perception visuelle fine. Les concurrents directs sont les méthodes map-based via SLAM et les approches hybrides récentes comme ESC ou CoW. Architecturalement, ImagineNav++ se rapproche des paradigmes VLA (Vision-Language-Action) explorés par des équipes chez Google DeepMind, Physical Intelligence (pi-0) ou dans le cadre de GR00T N2 chez NVIDIA. Aucun déploiement industriel n'est annoncé à ce stade : il s'agit d'une publication académique évaluée sur simulateurs et benchmarks standardisés, dont la généralisation en conditions réelles reste à valider.

RobotiqueOpinion
1 source
GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure
295Le Big Data 

GPT-6 déjà teasé par le PDG : OpenAI passe à la vitesse supérieure

Quelques jours à peine après le lancement de GPT-5.5, le PDG d'OpenAI Sam Altman a publié le 28 avril 2026 sur X une capture d'écran évoquant l'entraînement de GPT-6, avec la mention humoristique « encore plus de gobelins ». Ce teasing inattendu est né d'un bug désormais célèbre dans la communauté tech : depuis GPT-5.1, les modèles d'OpenAI glissaient régulièrement des gobelins, gremlins, trolls et autres créatures fantastiques dans leurs réponses, un comportement qui s'est amplifié de façon notable entre les versions GPT-5.2 et GPT-5.4. Face aux moqueries croissantes sur les réseaux sociaux, OpenAI a fini par intégrer des instructions explicites dans GPT-5.5 pour lui interdire de mentionner ces créatures. C'est cette révélation, découverte par des utilisateurs fouillant les paramètres du modèle, qui a mis le feu aux poudres sur X et poussé Altman à y répondre avec sa propre blague. Au-delà du trait d'humour, la sortie d'Altman a suffi à relancer les spéculations sur le calendrier de sortie de GPT-6. Le PDG n'a fourni aucune date, aucune fonctionnalité précise, aucun engagement formel. Pourtant, dans un secteur où chaque communication du dirigeant d'OpenAI est analysée au millimètre, la simple mention du nom GPT-6 dans un contexte public suffit à signaler que la prochaine génération est au moins en cours de développement actif. Pour les entreprises et développeurs qui intègrent les API d'OpenAI dans leurs produits, cela signifie que la fenêtre entre deux générations majeures continue de se réduire, comprimant les cycles d'adaptation. OpenAI traverse une période d'accélération intense sur son calendrier de sorties : GPT-4o, GPT-4.5, GPT-5, puis GPT-5.1 à 5.5 en l'espace de quelques mois, une cadence sans précédent dans l'histoire du laboratoire. Cette multiplication de versions intermédiaires traduit à la fois la pression concurrentielle exercée par Anthropic, Google DeepMind et les acteurs open source comme Meta, et la volonté d'OpenAI d'itérer rapidement en production plutôt qu'en laboratoire fermé. Les indices accumulés ces derniers mois sur GPT-6 suggèrent une architecture plus stable, une mémoire longue terme améliorée et une intégration plus profonde avec les fichiers et applications tierces. Quant aux gobelins, leur disparition officielle de GPT-5.5 illustre un problème récurrent dans l'entraînement des grands modèles de langage : des comportements émergents inattendus, difficiles à anticiper et à corriger sans instructions explicites.

UELes développeurs et entreprises européens intégrant les API d'OpenAI devront adapter leurs cycles de maintenance à une cadence de sorties qui continue de s'accélérer.

LLMsOpinion
1 source
Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models
296The Information AI 

Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models

Deux nouvelles startups spécialisées dans les modèles du monde viennent d'entrer dans la course aux financements. Dream Labs, fondée ce mois d'avril 2026 par Joel Jang, ancien chercheur chez Nvidia où il travaillait sur le projet Groot, le modèle de l'entreprise dédié aux robots humanoïdes, cherche à lever plusieurs dizaines de millions de dollars pour son premier tour de table. Parallèlement, One World AI, cofondée par Sherry Yang, professeure à l'Université de New York et chercheuse principale chez Google DeepMind, vise une levée de 100 millions de dollars, selon des sources proches des négociations. Ces modèles du monde, ou "world models", sont des modèles de fondation conçus pour simuler la physique des interactions entre objets, humains et environnements. Ils sont considérés par une partie de la communauté de recherche comme une brique essentielle pour développer des robots capables d'agir de manière autonome et fiable dans le monde réel. L'intérêt des investisseurs pour ce secteur est donc directement lié aux ambitions croissantes de l'industrie robotique, qui cherche à dépasser les limites actuelles de la manipulation physique et du raisonnement spatial. Le mouvement s'inscrit dans un élan plus large initié ces douze derniers mois, durant lesquels des acteurs comme World Labs, la startup de la chercheuse en vision artificielle Fei-Fei Li, et AMI Labs, portée par le directeur scientifique de Meta Yann LeCun, ont levé chacun plusieurs milliards de dollars sur cette même thèse technologique. La convergence de profils issus de Nvidia, Google DeepMind et des grandes universités autour de ce segment précis signale que le pari sur les modèles du monde est en train de passer du stade académique à celui de la compétition industrielle à grande échelle.

RobotiqueOpinion
1 source
Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique
297arXiv cs.RO 

Genie Sim PanoRecon : génération rapide de scènes immersives à partir d'un panorama en vue unique

Des chercheurs d'AgibotTech ont publié sur arXiv un système baptisé Genie Sim PanoRecon, capable de reconstruire des scènes 3D photoréalistes à partir d'une seule image panoramique en quelques secondes. La méthode repose sur le Gaussian splatting, une technique de représentation 3D par nuages de points gaussiens. Concrètement, le panorama d'entrée est décomposé en six faces d'une carte cubique non superposées, traitées en parallèle puis réassemblées de façon cohérente. Pour garantir la cohérence géométrique entre les différentes vues, l'équipe a développé une stratégie de fusion guidée par la profondeur, couplée à un module d'injection de profondeur sans entraînement supplémentaire, qui oriente le réseau monoculaire vers la génération de Gaussiens 3D cohérents. Le système a été intégré directement dans Genie Sim, une plateforme de simulation pilotée par LLM dédiée à la génération de données synthétiques pour l'IA incarnée. L'enjeu central est de réduire drastiquement le coût et le temps de création d'environnements 3D pour entraîner des robots à la manipulation d'objets. Là où la construction manuelle d'une scène 3D réaliste peut prendre des heures ou des jours, PanoRecon le fait en quelques secondes à partir d'une simple photo panoramique. Pour les équipes de robotique, cela ouvre la voie à une génération massive et automatisée de scènes d'entraînement variées, ce qui est un verrou majeur dans le développement de robots polyvalents capables de generaliser à des environnements nouveaux. Le contexte est celui de la course à la simulation photorealiste pour l'IA incarnée (embodied AI), un champ où des acteurs comme NVIDIA, Google DeepMind et des startups chinoises investissent massivement pour combler le fossé entre simulation et monde réel. AgibotTech s'inscrit dans cette dynamique en combinant la puissance des LLM pour piloter la simulation et une reconstruction 3D rapide pour fournir des décors crédibles. Le code source est disponible sur GitHub, ce qui suggère une volonté de fédérer une communauté autour de Genie Sim comme standard ouvert pour la génération de données robotiques synthétiques.

RecherchePaper
1 source
RL Token : amorcer le renforcement en ligne avec des modèles vision-langage-action
298arXiv cs.RO 

RL Token : amorcer le renforcement en ligne avec des modèles vision-langage-action

Des chercheurs ont publié sur arXiv une méthode baptisée RL Token (RLT) qui permet d'affiner en temps réel des modèles de vision-langage-action (VLA) pour la robotique, en seulement quelques heures de pratique sur des robots physiques. Ces modèles VLA sont capables d'apprendre des tâches de manipulation variées "out of the box", mais ils manquent de précision et de rapidité pour les exigences industrielles réelles. L'approche RLT repose sur deux mécanismes : elle adapte le VLA pour exposer un "RL token", une représentation compacte qui préserve les connaissances préentraînées tout en servant d'interface légère pour l'apprentissage par renforcement (RL), puis entraîne une petite tête acteur-critique sur ce token pour affiner les actions. La méthode a été validée sur quatre tâches réelles : vissage, fixation de colliers de serrage, insertion de chargeur et branchement de câble Ethernet. Les résultats sont frappants. Sur les parties les plus difficiles de chaque tâche, RLT améliore la vitesse d'exécution jusqu'à un facteur 3 et augmente significativement les taux de réussite en quelques minutes à quelques heures d'entraînement. Sur certaines tâches, le robot dépasse même la vitesse d'un opérateur humain en télé-opération. Ce niveau de performance, obtenu avec un temps de pratique aussi court, représente un saut qualitatif pour le déploiement de robots polyvalents dans des environnements industriels ou logistiques, où la précision des gestes répétitifs est critique. L'enjeu sous-jacent est la montée en maturité des modèles fondationnels pour la robotique. Si des systèmes comme RT-2, OpenVLA ou Pi-0 ont démontré qu'un modèle généraliste pouvait piloter un robot sur des tâches diverses, l'adaptation fine à un contexte spécifique restait coûteuse en données et en temps de calcul. RLT attaque précisément ce goulot d'étranglement en rendant le RL online praticable même sur de très grands VLAs, sans repartir de zéro. La course à des robots industriellement viables s'accélère, et cette approche pourrait devenir une brique standard du pipeline de déploiement pour des acteurs comme Figure, Physical Intelligence ou les équipes robotique de Google DeepMind.

RobotiquePaper
1 source
Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle
299arXiv cs.RO 

Synthèse de démonstrations réelles pour la manipulation bimmanuelle à grande échelle

Des chercheurs ont développé BiDemoSyn, un système capable de générer automatiquement des milliers de démonstrations d'entraînement pour des robots à deux bras à partir d'un seul exemple réel. Présenté dans un article publié sur arXiv (arXiv:2512.09297), le framework décompose chaque tâche en deux composantes : des blocs de coordination invariants, communs à toutes les exécutions, et des ajustements variables selon la forme et la position des objets manipulés. En combinant un alignement guidé par vision artificielle et une optimisation légère des trajectoires, le système produit des données d'entraînement riches en contacts physiques et réalistes, le tout en quelques heures, sans nécessiter des sessions répétées de téléopération humaine. Les expériences couvrent six tâches différentes impliquant deux bras robotiques simultanés. L'enjeu est considérable : entraîner des robots capables de manipuler des objets avec les deux mains de façon habile reste l'un des défis les plus difficiles de la robotique d'apprentissage par imitation. Jusqu'ici, les équipes devaient choisir entre la téléopération, précise mais extrêmement coûteuse en temps humain, et la simulation, scalable mais souvent déconnectée de la réalité physique. BiDemoSyn court-circuite ce compromis : les politiques entraînées sur ses données généralisent à de nouvelles poses et formes d'objets inédits, surpassant nettement les méthodes de référence existantes. Plus remarquable encore, ces politiques réalisent un transfert zéro-shot vers d'autres plateformes robotiques, sans réentraînement, grâce à une représentation centrée sur les objets et une action en six degrés de liberté découplée de la mécanique propre à chaque robot. Ce travail s'inscrit dans une course intense à la scalabilité des données robotiques, un goulot d'étranglement majeur qui freine le déploiement de robots polyvalents dans des environnements industriels et domestiques. Des acteurs comme Google DeepMind, Physical Intelligence ou Tesla Optimus investissent massivement dans cette problématique. BiDemoSyn propose une voie intermédiaire pragmatique : ancrer les données dans le réel dès la première démonstration, puis les amplifier algorithmiquement. L'extension naturelle en mode few-shot, également démontrée dans l'article, ouvre la perspective d'une diversification encore plus large avec un effort humain minimal, rapprochant l'apprentissage par imitation d'une industrialisation viable.

RobotiqueOpinion
1 source
Flux sensoriel modulaire pour intégrer le feedback physique dans les modèles vision-langage-action
300arXiv cs.RO 

Flux sensoriel modulaire pour intégrer le feedback physique dans les modèles vision-langage-action

Des chercheurs ont publié fin avril 2026 sur arXiv un article présentant MoSS (Modular Sensory Stream), un cadre modulaire conçu pour enrichir les modèles Vision-Langage-Action (VLA) avec des retours physiques multiples. Les VLA sont des systèmes d'intelligence artificielle utilisés en robotique pour interpréter des scènes visuelles et du langage naturel afin de générer des actions. MoSS introduit des flux de modalités découplés qui intègrent des signaux physiques hétérogènes, notamment tactiles et de couple mécanique (torque), directement dans le flux d'action du modèle via un mécanisme d'attention croisée. Un schéma d'entraînement en deux étapes, où les paramètres du VLA préentraîné sont d'abord gelés, assure une incorporation stable des nouvelles modalités. Des expériences en conditions réelles démontrent des gains de performance synergiques lorsque ces signaux sont combinés. L'enjeu est considérable pour la robotique de manipulation. Aujourd'hui, la grande majorité des VLA reposent quasi exclusivement sur la vision, ce qui les rend aveugles aux informations que procure le toucher ou la résistance mécanique lors d'un contact. Un robot vissant un écrou, saisissant un objet fragile ou détectant un glissement ne peut s'appuyer sur la caméra seule pour ajuster sa prise en temps réel. MoSS montre que l'ajout de signaux tactiles et de couple, traités en parallèle plutôt qu'en série, améliore la précision des actions de manière complémentaire, chaque modalité compensant les angles morts des autres. Les VLA sont devenus l'un des fronts les plus actifs de la recherche en robotique depuis l'émergence de modèles comme RT-2 (Google DeepMind) ou OpenVLA. La tendance dominante consistait jusqu'ici à enrichir la composante visuelle ou langagière de ces systèmes, en négligeant les sens physiques que les humains mobilisent naturellement pour manipuler des objets. MoSS s'inscrit dans un courant émergent qui cherche à doter les robots d'une perception proprioceptive et haptique plus fine. La nature modulaire du framework facilite l'ajout de nouvelles modalités sensorielles à l'avenir, ce qui ouvre la voie à des robots capables d'intégrer température, vibration ou pression sans nécessiter une refonte complète de l'architecture.

RobotiqueOpinion
1 source