Aller au contenu principal

Robotique

50 sur 430 articles

Actualités robotique et IA : robots autonomes, drones, véhicules autonomes et robots humanoïdes.

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine
1arXiv cs.RO RobotiquePaper

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Des chercheurs ont publié en mai 2026 MetaFine, un cadre de méta-évaluation diagnostique conçu pour mesurer avec précision les capacités de manipulation fine des robots. Contrairement aux benchmarks existants qui réduisent la performance à un taux de succès binaire (réussi ou échoué), MetaFine décompose la compétence de manipulation en trois axes distincts : la compréhension contextuelle de la scène, la perception spatiale haute fidélité, et l'exécution motrice sous contraintes. L'étude démontre que l'approche binaire classique surestime artificiellement les capacités des modèles vision-langage-action (VLA) jusqu'à 70%, masquant les goulots d'étranglement architecturaux qui bloquent le déploiement réel. Le framework s'appuie sur un graphe de tâches compositionnel capable d'absorber des benchmarks externes hétérogènes et de les reconstruire en scénarios diagnostiques de complexité variable, sous un protocole unifié. La validation hybride réel-simulation est également intégrée : un nombre limité de rollouts réels sert à calibrer des estimations simulées scalables pour un benchmarking physique plus robuste. L'enjeu est structurant pour le secteur : si les meilleurs modèles VLA actuels semblent performants selon les métriques classiques, MetaFine révèle des échecs sévères et dimension-spécifiques, invisibles jusqu'ici aux évaluateurs. L'analyse causale ciblée identifie l'encodeur visuel comme principal goulot d'étranglement pour la précision fine. Sa capacité à préserver la structure spatiale locale détermine directement l'accès à des capacités de manipulation jugées hors de portée : améliorer cet encodeur suffit à les débloquer sans modifier la politique de contrôle aval. Cette découverte oriente concrètement les priorités R&D pour les équipes d'ingénierie et les intégrateurs industriels qui cherchent à comprendre pourquoi leurs systèmes échouent en conditions réelles. MetaFine s'inscrit dans un contexte de prolifération de benchmarks pour la manipulation embodied, où la course aux métriques produit des systèmes sur-optimisés pour les tests mais fragiles à l'échelle. La communauté VLA fait face depuis plusieurs années au fossé démo-réalité : des résultats impressionnants en laboratoire qui ne se transfèrent pas en production. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix ont montré des performances prometteuses, mais leurs architectures restent difficiles à comparer rigoureusement faute d'outils d'évaluation adaptés. MetaFine propose de renverser la logique : passer du classement au diagnostic, pour identifier et corriger systématiquement les couches de capacités défaillantes. Le framework, les benchmarks et les ressources associées seront publiés en accès libre sur metafine.github.io.

UELe framework MetaFine, publié en accès libre, offre aux équipes R&D et intégrateurs industriels européens un outil diagnostique concret pour identifier les goulots d'étranglement architecturaux de leurs systèmes VLA, sans impact direct sur un acteur français ou européen spécifique.

1 source
CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes
2arXiv cs.RO 

CEER : contrôle unifié de l'effecteur final souple et de la base pour la loco-manipulation hiérarchique des humanoïdes

CEER (Compliant End-Effector and Root Control) est une abstraction de contrôle pour robots humanoïdes présentée sur arXiv en mai 2026 (arXiv:2605.19981). L'approche résout un problème d'interfaçage central: connecter des planificateurs hétérogènes (téleopération, modèles de langage, VLA) à un contrôleur corps entier sans réentraînement à chaque nouvelle tâche. La solution repose sur deux types de commandes unifiées: les poses cibles de l'effecteur terminal (end-effector) et les commandes de déplacement de la racine (root, soit le torse de l'humanoïde). Un framework enseignant-étudiant distille un contrôleur générique en une politique bas niveau consommant uniquement ces commandes EE-root. Les résultats expérimentaux, conduits en simulation et sur matériel réel, affichent une précision de suivi à 3,3 cm, une réduction substantielle du jerk mécanique par rapport aux baselines, et un taux de succès jusqu'à 70% sur des tâches de loco-manipulation d'objet unique dans un environnement à l'échelle d'une pièce. La manipulation au contact riche (contact-rich manipulation) reste le principal goulot d'étranglement des humanoïdes: saisir des objets en positions variées, pousser des pièces dans des logements, interagir avec des surfaces non structurées. CEER apporte une réponse architecturale plutôt qu'algorithmique: une couche de contrôle compliant (souple au contact, à l'inverse du contrôle rigide en position) que n'importe quel planificateur peut piloter en plug-and-play. Pour un intégrateur industriel ou un OEM, l'argument est concret: la politique bas niveau ne nécessite pas de réentraînement à chaque nouvelle application. C'est précisément la modularité qui manque aux approches bout-en-bout dominantes. La compliance réduit également les risques de dommages en cas de contact imprévu, prérequis pour tout déploiement en environnement humain. La manipulation reste le défi non résolu des humanoïdes commerciaux. Figure Robotics, Tesla (Optimus), Agility Robotics (Digit) et 1X Technologies avancent avec des pipelines souvent propriétaires, dominés par l'imitation learning et la téleopération. Physical Intelligence (Pi-0) et NVIDIA (GR00T N2) misent sur les VLA pour généraliser la manipulation depuis des données multimodales. CEER se positionne comme une couche orthogonale: non pas un nouveau planificateur, mais un socle de contrôle interopérable avec les approches existantes. La validation sur hardware distingue ce travail des publications purement simulées, même si les 70% de succès sur tâche unique en simulation demeurent une métrique circonscrite. Les prochaines étapes naturelles incluent l'intégration avec des planificateurs LLM ou VLA et la validation sur des tâches bi-manuelles et à horizon long.

RobotiquePaper
1 source
COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones
3arXiv cs.RO 

COBALT : apprentissage robotique collaboratif par téléopération cloud via smartphones

Des chercheurs ont publié sur arXiv (2605.19138) COBALT, une plateforme de télé-opération robotique cloud conçue pour collecter massivement des données de démonstration via des appareils grand public, smartphones, casques VR, souris 3D ou clavier. L'infrastructure repose sur des environnements vectorisés et un équilibrage de charge permettant à plusieurs utilisateurs de téléopérer simultanément sur un seul GPU, avec une latence bout-en-bout inférieure à 100 ms et une fréquence de contrôle de 20 Hz pour jusqu'à 8 utilisateurs par GPU. La montée en charge a été validée jusqu'à 256 clients simulés répartis sur 8 GPUs. En cinq jours, et depuis neuf pays, COBALT a permis de constituer un jeu de données pilote de plus de 7 500 démonstrations, soit plus de 50 heures de manipulation enregistrées. Un système de métriques en temps réel filtre automatiquement les démonstrations de mauvaise qualité, et un curriculum de formation des opérateurs améliore significativement la qualité des données collectées. L'intérêt majeur de ce travail réside dans l'attaque frontale du goulot d'étranglement principal du robot learning par imitation : la rareté des données de haute qualité à grande échelle. Les approches comme ACT, Diffusion Policy ou Pi-0 (Physical Intelligence) ont démontré que l'apprentissage par imitation fonctionne, mais leur passage à l'échelle bute sur le coût et la logistique de la collecte. COBALT démontre que la télé-opération par smartphone est comparable, parfois supérieure, au matériel spécialisé type ALOHA ou bras haptiques, ce qui élimine une barrière d'entrée majeure. Pour les intégrateurs et les équipes R&D industrielles, cela ouvre la voie à une collecte distribuée sans infrastructure physique dédiée, potentiellement transformatrice pour le coût de développement de politiques de manipulation. Le projet s'inscrit dans une dynamique plus large de constitution de grands jeux de données robotiques ouverts, comparable à Open-X Embodiment (Google DeepMind, 2023) ou au dataset DROID (Berkeley, Stanford). Les concurrents directs incluent l'initiative AgiBot World en Chine, qui a annoncé 1 million de trajectoires collectées via des bras téléopérés dédiés, et Universal Manipulation Interface (UMI) qui mise sur des dispositifs portables. COBALT se distingue par l'accessibilité des équipements et la scalabilité cloud, mais reste à ce stade un preprint académique sans déploiement industriel annoncé. La prochaine étape crédible est la validation sur des tâches réelles de manipulation, les auteurs ayant pour l'instant publié les résultats de politiques entraînées sur ce dataset sans préciser les benchmarks atteints.

UELes équipes R&D françaises et européennes (INRIA, CEA-List, startups robot learning) pourraient exploiter COBALT pour collecter des données de démonstration à faible coût sans infrastructure physique dédiée, mais aucune institution européenne n'est impliquée dans ce projet.

RobotiqueOpinion
1 source
Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint
4arXiv cs.RO 

Au-delà des résidus d'action : guidage de politique robotique en conditions réelles par apprentissage par renforcement sur espace latent contraint

Des chercheurs proposent ZPRL (Z-Perturbation Reinforcement Learning), une méthode d'adaptation en ligne de politiques robotiques pré-entraînées par imitation, évaluée sur huit tâches en simulation et quatre tâches en conditions réelles. Plutôt que de corriger directement les actions produites par le réseau, ZPRL introduit un module variationnel de goulot d'étranglement (Variational Information Bottleneck, VIB) qui extrait, lors de la phase d'entraînement hors ligne, une représentation latente compacte et orientée tâche à partir des embeddings d'observation. En ligne, la politique de base reste gelée : seul un résidu de perturbation dans cet espace latent est appris par apprentissage par renforcement, et ce résidu conditionne ensuite le générateur d'actions. Sur les quatre tâches de manipulation réelle testées, la méthode améliore le taux de succès moyen de 33,7 % par rapport aux politiques d'imitation de base, tout en produisant une exploration sensiblement plus fluide que les approches par résidus dans l'espace d'action. Ce résultat adresse un problème concret et documenté du déploiement robotique : les politiques entraînées par imitation comportementale (IL) souffrent d'une couverture de données limitée et d'un écart entre les conditions d'entraînement et celles du déploiement réel. L'ajustement fin par RL post-entraînement est une voie connue, mais les méthodes existantes qui opèrent directement dans l'espace d'action génèrent une exploration bruitée et structurellement pauvre, ce qui ralentit la convergence. ZPRL démontre qu'une interface latente compacte et alignée sur la tâche offre un point d'entrée plus efficace pour le RL, au prix d'une modification architecturale légère (le module VIB est dit "plug-and-play"). Pour les intégrateurs, cela ouvre la possibilité de personnaliser des politiques généralistes sur des cellules spécifiques sans reprendre un entraînement complet. La méthode s'inscrit dans un courant actif de recherche sur l'adaptation post-déploiement des politiques de manipulation, aux côtés des approches de type residual policy learning et des fine-tunings RL sur architectures de type diffusion ou flow-matching. ZPRL est précisément instancié sur des politiques à flow-matching, une architecture en vogue depuis les travaux de Pi0 (Physical Intelligence) et des frameworks comme RoboMimic. Les auteurs, dont les affiliations ne sont pas précisées dans l'abstract, ont publié une page projet avec vidéos de démonstration. Les résultats restent à confirmer à plus grande échelle et sur des manipulateurs plus variés, les quatre tâches réelles constituant une validation encore limitée.

RobotiqueOpinion
1 source
Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme
5arXiv cs.RO 

Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme

Des chercheurs ont publié en mai 2026 sur arXiv (arXiv:2605.19420) un framework de navigation sémantique appelé Dual-Heatmap Grounding, conçu pour convertir des instructions multimodales ouvertes (texte et image) en objectifs locaux physiquement atteignables par un robot. Plutôt que de prédire un waypoint déterministe unique, leur système génère deux cartes de chaleur : une affordance heatmap modélisant les régions continues accessibles dans le champ de vision du robot, et une facing heatmap encodant les contraintes d'orientation. Ces sorties denses forment un champ de potentiel sémantique différentiable, directement intégrable aux planificateurs locaux existants sans modification d'architecture. L'approche a été évaluée sur trois morphologies robotiques distinctes : le Jetbot (plateforme à roues), le H1 d'Unitree (humanoïde bipède) et l'Aliengo d'Unitree (quadrupède), via un benchmark de simulation construit par les auteurs avec un pipeline de données synthétiques assisté par des modèles de fondation. Les résultats atteignent le niveau state-of-the-art parmi les modèles comparables à 8 milliards de paramètres. Le problème adressé est souvent sous-estimé dans les déploiements réels : régresser un point unique vers le centre géométrique d'un objet cible positionne fréquemment le robot sur une zone non traversable (le milieu d'une table, le centre d'un obstacle), provoquant des échecs d'exécution en cascade difficiles à diagnostiquer. En prédisant une distribution spatiale sur les zones libres plutôt qu'un point fixe, le framework améliore significativement l'Affordance Rate (AR), soit la proportion de cibles effectivement exécutables par le planificateur aval. Pour les intégrateurs de robots de service, de logistique ou d'assistance, c'est un gain direct sur la fiabilité des tâches de navigation pilotées par langage naturel, sans toucher au reste de la stack. Ce travail s'inscrit dans la dynamique des modèles VLA (Vision-Language-Action), qui couplent compréhension sémantique et action physique dans un pipeline unifié. La régression de waypoints était jusqu'ici un standard de fait dans la navigation indoor, malgré ses limites documentées en environnements encombrés. Les travaux concurrents incluent LM-Nav, NavGPT et OpenFMNav. Il faut noter que le papier reste un preprint non peer-reviewed, et que l'ensemble des validations se limite à la simulation. La prochaine étape attendue est une évaluation sur robots physiques en conditions réelles, qui permettrait de mesurer le sim-to-real gap sur cette représentation par heatmap.

RobotiqueOpinion
1 source
RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes
6arXiv cs.RO 

RoVLA : des contraintes de cohérence multiple pour des modèles vision-langage-action (VLA) robustes

Une équipe du HCPLab de l'Université Sun Yat-sen (SYSU, Chine) a déposé fin mai 2026 sur arXiv (réf. 2605.19678) RoVLA, un cadre d'entraînement pour renforcer la robustesse des modèles Vision-Language-Action (VLA). Ces modèles, qui couplent perception visuelle, compréhension du langage et génération d'actions pour la manipulation robotique, sont reconnus pour leur fragilité face aux variations d'instructions ou aux perturbations visuelles. RoVLA introduit trois contraintes de cohérence appliquées lors de l'entraînement end-to-end : la cohérence instructionnelle (IC), qui stabilise l'ancrage sémantique sous des reformulations équivalentes d'une même commande ; la cohérence évolutive (EC), qui maintient une intention d'action consistante tout au long de la génération de trajectoire ; et la cohérence observationnelle (OC), qui force des prédictions stables avant et après perturbations visuelles ou proprioceptives. Les expériences sont conduites sur les benchmarks LIBERO-Plus et RoboTwin 2.0, ainsi que sur des tâches de manipulation réelles, avec des performances supérieures aux baselines testées. L'enjeu est bien documenté : les VLA actuels, qu'il s'agisse de pi0 (Physical Intelligence), GR00T N2 (NVIDIA) ou OpenVLA, souffrent d'un gap de robustesse distributionnelle avéré. Dès que les conditions visuelles changent, les instructions sont paraphrasées ou les perturbations s'accumulent, les performances chutent significativement, bloquant le déploiement dans des environnements industriels non contrôlés comme l'assemblage ou la logistique d'entrepôt. RoVLA propose une réponse architecturale en forçant explicitement l'invariance pendant l'entraînement, plutôt que d'augmenter le volume de données ou d'adapter post-hoc, deux stratégies courantes mais insuffisantes pour garantir la stabilité en conditions réelles. Si les résultats se confirment à plus grande échelle, cette approche pourrait réduire concrètement le sim-to-real gap pour des politiques incarnées en production. Ce travail s'inscrit dans une compétition dense entre laboratoires académiques et industriels autour de la robustesse des VLA. Google DeepMind (RT-2, RT-X), Physical Intelligence et NVIDIA ont tous investi massivement dans des architectures à grande échelle sans traiter explicitement l'invariance en cours d'entraînement, ce que RoVLA tente précisément de corriger. Le projet reste pour l'instant un article de recherche académique : aucun déploiement commercial n'est annoncé, et le code sera publié sur GitHub sous le compte HCPLab-SYSU/RoVLA. La prochaine étape crédible serait une validation sur robots physiques en environnement industriel non contrôlé, que les premiers résultats en manipulation réelle esquissent sans encore l'établir à l'échelle.

UELes équipes R&D françaises et européennes spécialisées en manipulation robotique industrielle pourront évaluer cette approche lors de la publication du code (HCPLab-SYSU/RoVLA), mais aucun acteur européen n'est impliqué directement.

RobotiqueOpinion
1 source
HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme
7arXiv cs.RO 

HEX : experts alignés sur les humanoïdes pour la manipulation corps entier multi-plateforme

Des chercheurs ont publié HEX (Humanoid-Aligned Experts for Cross-Embodiment Whole-Body Manipulation), un cadre de contrôle robotique déposé sur arXiv (arXiv:2604.07993v2) en avril 2026. HEX cible un problème structurel dans le déploiement des humanoïdes bipèdes de grande taille : la majorité des modèles Vision-Language-Action (VLA) existants traitent les membres du robot de façon indépendante, ce qui rend le contrôle à haute dimension (de nombreux degrés de liberté, ou DoF) instable et peu généralisable. Pour y répondre, HEX introduit une représentation d'état universelle alignée sur l'anatomie humanoïde, conçue pour l'apprentissage à grande échelle sur des plateformes hétérogènes. Son prédicteur proprioceptif unifié basé sur un Mixture-of-Experts (MoE) modélise la coordination corps entier et la dynamique temporelle de mouvement à partir de trajectoires issues de multiples morphologies robotiques. Pour l'encodage visuel temporel, HEX utilise des tokens d'historique légers résumant les observations passées sans réencodage redondant des images, puis fusionne indices visuels et langagiers avec la dynamique proprioceptive via un mécanisme de fusion résiduelle à portes et une tête d'action par flow-matching. Ce cadre adresse un goulet d'étranglement réel dans les VLA appliqués aux humanoïdes : le cloisonnement bras/jambes/torse empêche une coordination fluide et pénalise les tâches à réaction rapide ou à horizon long (planification multi-étapes). Les expériences sur tâches de manipulation réelles montrent que HEX atteint des taux de succès et une capacité de généralisation de l'état de l'art, précisément dans ces deux régimes critiques pour un déploiement industriel. La capacité à transférer des politiques entre morphologies hétérogènes (cross-embodiment) réduit également le coût de collecte de données par plateforme, un argument concret pour les intégrateurs. HEX s'inscrit dans une course dense au contrôle humanoïde haute fidélité. Pi0 de Physical Intelligence a popularisé le flow-matching pour la génération d'actions continues ; GR00T N2 de NVIDIA et Helix de Figure AI misent sur l'apprentissage en simulation massive. OpenVLA reste la référence open-source. HEX se distingue par son MoE dédié à la proprioception multi-corps, absent des architectures concurrentes. L'article étant un preprint arXiv révisé (v2), les résultats restent à confirmer par évaluation indépendante ; aucune affiliation institutionnelle ni timeline de déploiement n'est précisée dans le résumé public.

RobotiqueOpinion
1 source
Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse
8Le Big Data 

Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse

Le robot humanoïde G1 du fabricant chinois Unitree Robotics vient de franchir une nouvelle étape lors d'une démonstration publiée le 19 mai 2026 : l'engin réagit désormais à des commandes vocales en temps réel, générant ses mouvements de manière autonome grâce à une intelligence artificielle embarquée directement sur la machine. La vidéo, tournée en une seule prise avec l'audio capté sur place, montre le G1 interpréter des instructions orales et produire les actions correspondantes presque instantanément, sans animations préprogrammées. Une légère latence reste perceptible, mais l'absence de montage agressif ou de coupures suspectes rend la démonstration particulièrement crédible dans un secteur où les mises en scène trompeuses sont monnaie courante. Le G1 est commercialisé à partir de 13 500 dollars, et Unitree prévoit de produire entre 10 000 et 20 000 unités en 2026. Cette capacité à interpréter le langage naturel pour générer des actions physiques en temps réel représente un saut qualitatif majeur pour les robots humanoïdes. Jusqu'ici, la plupart des démonstrations grand public reposaient sur des séquences précodées déclenchées par des mots-clés précis, loin d'une véritable interaction spontanée. Le fait que le G1 adapte ses mouvements selon des instructions variables rapproche l'expérience d'un usage réel dans un environnement domestique ou professionnel. Pour les industries ciblant l'assistance à la personne, la logistique ou les environnements non structurés, ce type de contrôle vocal fluide change concrètement l'équation de déploiement. Quant au prix, 13 500 dollars tranche radicalement avec des concurrents comme Boston Dynamics ou Figure AI, dont les modèles dépassent facilement plusieurs dizaines ou centaines de milliers de dollars. Unitree Robotics s'est imposé ces dernières années comme l'un des acteurs les plus agressifs du marché de la robotique humanoïde, multipliant les démonstrations de capacités physiques remarquables à des prix délibérément bas. La stratégie semble claire : occuper le terrain avant que les géants de la tech, notamment Tesla avec Optimus ou les startups bien financées de la Silicon Valley, ne dominent un marché encore ouvert. L'annonce d'une production de masse entre 10 000 et 20 000 unités cette année signale un passage du stade de prototype à celui de produit industriel. L'intégration de la voix comme interface principale d'interaction, combinée à une IA embarquée capable de générer des mouvements à la volée, ouvre la voie à des robots utilisables sans formation technique. La prochaine bataille se jouera probablement sur la fiabilité en conditions réelles et sur la richesse du vocabulaire d'actions disponibles, deux fronts sur lesquels aucun acteur ne peut encore revendiquer une victoire définitive.

RobotiqueOpinion
1 source
SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation
9arXiv cs.RO 

SADP : politique de diffusion consciente des sous-objectifs pour robots explicables, apprise à partir de démonstrations générées par modèle fondation

Des chercheurs ont publié sur arXiv (référence 2605.16871) SADP, pour Subgoal-Aware Diffusion Policy, un framework d'apprentissage par imitation conçu pour rendre les robots manipulateurs explicables en cours d'exécution. L'approche repose sur deux mécanismes combinés : l'utilisation de modèles de fondation pour générer automatiquement des démonstrations annotées en sous-objectifs intermédiaires, et l'entraînement d'une politique de diffusion conditionnée simultanément sur la description de la tâche globale et sur chaque sous-objectif. Une tête auxiliaire légère prédit en temps réel l'état de complétion de chaque sous-étape, exposant ainsi la progression interne du robot à un opérateur humain. Les expériences couvrent des simulations dans l'environnement de référence RLBench et une validation en conditions réelles sur un bras UR5e d'Universal Robots. Les résultats affichent des taux de succès supérieurs aux baselines de type diffusion conditionnée uniquement par la tâche, sans sacrifier les performances globales. L'apport principal n'est pas l'explicabilité en soi, déjà abordée par des approches post-hoc, mais son intégration native dans la politique d'action. Pour un intégrateur ou un responsable industriel, cela change l'équation opérationnelle : il devient possible de monitorer l'avancement d'une manipulation longue-distance, de localiser précisément le sous-objectif en échec, et de réduire les temps de diagnostic en production. Le recours aux modèles de fondation pour annoter automatiquement les démonstrations contourne par ailleurs la pénurie chronique de supervision au niveau des sous-tâches dans les datasets robotiques standards, un goulot d'étranglement pratique bien identifié. La coexistence d'interprétabilité et de haute performance remet en question l'hypothèse d'un arbitrage inévitable entre les deux. Les diffusion policies sont devenues un paradigme dominant pour la manipulation dextère depuis les travaux de Chi et al. en 2023, mais leur opacité décisionnelle reste une critique persistante dans les contextes déploiement industriel. Les modèles VLA comme pi-0 (Physical Intelligence), OpenVLA ou les RT-séries de Google DeepMind exploitent les connaissances des modèles de fondation sans pour autant structurer explicitement la progression par sous-objectifs. SADP se positionne à l'intersection des politiques de diffusion et de la décomposition hiérarchique de tâches, dans un espace concurrentiel qui inclut également des approches comme SayCan ou Code-as-Policies. L'utilisation d'un UR5e, cobot industriel standard très répandu, renforce la crédibilité des résultats en conditions réelles. Les suites naturelles incluront probablement la mise à l'échelle vers des tâches plus complexes et des tests en environnements industriels réels.

UEL'utilisation du UR5e d'Universal Robots (fabricant danois, UE) comme plateforme de validation réelle renforce la pertinence industrielle pour les intégrateurs européens, et l'explicabilité native des politiques de diffusion répond directement aux exigences de transparence algorithmique de l'AI Act.

💬 L'explicabilité en robotique, c'est souvent du post-hoc rajouté en bout de chaîne, une couche de justification qui n'influence rien sur l'exécution réelle. Là, c'est intégré dans la politique elle-même, avec une tête auxiliaire qui prédit en temps réel où en est le robot dans la séquence, ce qui change vraiment le diagnostic quand une manipulation foire en production. Et valider ça sur un UR5e plutôt que sur un bras de labo maison, au moment où l'AI Act va forcer les industriels à justifier leurs systèmes, c'est pas anodin.

RobotiquePaper
1 source
Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée
10arXiv cs.RO 

Clé-Gram : des connaissances mondiales extensibles pour la manipulation par IA incarnée

Key-Gram (arXiv:2605.18556, mai 2026) est un preprint qui propose un cadre de mémoire conditionnelle séparant explicitement la connaissance linguistique du raisonnement visuel dans les politiques de manipulation robotique. Là où les architectures VLA (Vision-Language-Action) actuelles fusionnent langage et vision dans un backbone partagé, Key-Gram décompose une instruction en "key-grams" (unités sémantiques propres à la tâche), récupère des priors linguistiques via un lookup déterministe O(1) dans une table externe, puis injecte ces entrées dans des couches cachées sélectionnées via gating contextuel et fusion convolutive légère. Appliqué aux modèles π₀ et π₀.₅ de Physical Intelligence, le système enregistre des gains relatifs de 29,5 %/9,9 % sur le benchmark de simulation RoboTwin2.0, de 35,8 %/4,5 % sur LIBERO-Plus en transfert sans fine-tuning sur le domaine cible, et de 15,4 %/8,1 % sur des tâches longues en manipulation bimanuelle réelle. Ces résultats quantifient un problème structurel rarement isolé dans la littérature VLA : la compétition de modalités dans le backbone partagé, où raisonnement visuel et compréhension linguistique se disputent la capacité de calcul. Le gain de 35,8 % sur LIBERO-Plus sans réentraînement cible est la donnée la plus exploitable pour les intégrateurs industriels : il suggère qu'une mémoire externe améliore la généralisation entre tâches sans fine-tuning complet, réduisant directement le coût de déploiement sur des lignes de production variées. La table de mémoire, extensible sans mise à jour du backbone et chargeable en mémoire hôte à l'inférence, permet d'ajouter de nouveaux vocabulaires de tâches sans redéploiement de l'ensemble du modèle. Physical Intelligence (Pi), fondée en 2023 par d'anciens chercheurs de Google et de l'UC Berkeley, a développé π₀ en 2024 comme VLA généraliste pour la manipulation bimanuelle. Key-Gram s'appuie sur ce backbone sans le modifier, ce qui constitue son atout principal : la séparation de la composante linguistique est architecturalement propre et non-destructive. Sur ce créneau de la généralisation compositionnelle, Google DeepMind, Figure AI (architecture Helix) et 1X Technologies proposent des approches concurrentes à base de transformers multi-modaux. La principale limite du papier est l'absence de validation sur des backbones autres que π, ce qui laisse ouverte la question de la généricité de la méthode.

💬 35% de gain sur LIBERO-Plus sans réentraînement, c'est le chiffre à retenir. L'idée de sortir le vocabulaire de tâche dans une table externe (plutôt que de tout enfouir dans le backbone partagé), c'est architecturalement propre et ça permet d'ajouter de nouvelles tâches sans redéployer l'ensemble du modèle. Reste que pour l'instant ça n'a été validé que sur π₀, donc faut voir si ça tient sur d'autres architectures avant de crier victoire.

RobotiqueOpinion
1 source
NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel
11arXiv cs.RO 

NORM-Nav : navigation de robot mobile sans apprentissage préalable, guidée par contraintes comportementales en langage naturel

NORM-Nav est un framework zero-shot présenté en mai 2026 dans un preprint arXiv (2605.16979) pour la navigation de robots mobiles en environnements humains. Le système associe un grand modèle de langage (LLM) à une perception temps réel par fusion vision-LiDAR: l'opérateur formule des règles comportementales en langage naturel, le LLM les parse en contraintes structurées, et celles-ci sont encodées sous forme de costmaps multi-couches couvrant quatre dimensions (géométrique, sémantique, directionnel, vitesse), directement compatibles avec les planificateurs grid-based standards comme ceux utilisés sous ROS. Des expériences en simulation et en environnement réel indiquent une amélioration des taux de succès de tâche et des trajectoires statistiquement plus proches des références humaines par rapport aux baselines testées, sans réentraînement du planificateur de base. L'enjeu concret est le suivant: les costmaps conventionnels traitent la navigation comme un problème géométrique pur, produisant des trajectoires techniquement valides mais socialement inadaptées, frôlement de passants, ignorance des sens de circulation, vitesse inappropriée en zone dense. Pour un intégrateur déployant des AMR en environnement hospitalier, en entrepôt partagé ou en espace public, cette limite est un frein réel à l'acceptation opérationnelle. NORM-Nav adresse ce verrou en mode zero-shot, sans données de démonstration spécifiques à l'environnement cible, ce qui simplifie le pipeline de déploiement. La compatibilité native avec les planificateurs standard constitue l'argument industriel clé: pas de refonte architecturale, pas de rupture avec la stack ROS existante. La navigation socialement consciente (social navigation) est un chantier actif depuis une décennie, porté par des travaux comme CADRL, SARL ou ORCA, et plus récemment par des approches LLM comme NavGPT ou LM-Nav. NORM-Nav s'inscrit dans cette tendance mais mise sur l'intégration costmap plutôt que sur un planificateur de bout en bout, choix conservateur et pragmatique pour l'industrie. Le preprint ne cite ni partenaires industriels ni timeline de commercialisation, le positionnant clairement comme contribution académique à ce stade. Une soumission en conférence (IROS 2026 ou CoRL 2026) est vraisemblable. Sur le terrain concurrent, Boston Dynamics (Spot en environnements mixtes), les acteurs AMR comme Exotec, et plusieurs projets académiques franco-européens travaillent sur la cohabitation robots-humains, bien qu'aucun n'utilise exactement cette approche de grounding linguistique sur couches costmap.

UELes intégrateurs européens d'AMR en milieu hospitalier ou logistique pourraient tester cette approche zero-shot compatible ROS pour améliorer l'acceptation sociale de leurs flottes sans refonte architecturale.

RobotiquePaper
1 source
DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles
12arXiv cs.RO 

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

DexWild est un framework de collecte de données et d'apprentissage pour la manipulation robotique dextère, publié en mai 2025 sur arXiv (2505.07813). L'idée centrale consiste à remplacer la téléopération coûteuse par la capture directe de gestes humains dans des environnements du quotidien. Une équipe diverse de collecteurs utilise le DexWild-System, un dispositif portable et peu onéreux, pour enregistrer des heures d'interactions avec des objets variés dans de multiples contextes réels. Le framework co-entraîne ensuite un modèle sur ces démonstrations humaines combinées à un volume minimal de données robot spécifiques. Les résultats mesurés atteignent 68,5 % de taux de succès dans des environnements non vus à l'entraînement, soit près de quatre fois mieux qu'une politique entraînée sur données robot seules, et une généralisation cross-embodiment (transfert vers d'autres morphologies robotiques) améliorée d'un facteur 5,8. Le goulot d'étranglement des données est un problème structurel pour la manipulation dextère. La téléopération reste la méthode dominante pour produire des datasets de haute qualité, notamment chez Physical Intelligence avec pi-0 ou chez Figure pour ses robots humanoïdes, mais son coût freine la diversité de distribution couverte. DexWild propose un paradigme alternatif : laisser des humains collecter nativement des données gestuelles en vie réelle, puis transférer ces politiques vers des robots via co-training. Si ces performances se confirment hors laboratoire, cette approche pourrait réduire significativement le coût d'acquisition de données pour les intégrateurs industriels, en particulier sur des tâches de pick-and-place complexes. Il convient de noter que le papier est un preprint non encore peer-reviewed et que les vidéos de démonstration sont sélectionnées, deux points qui invitent à la prudence sur la reproductibilité réelle. Ce travail s'inscrit dans la tendance du scaling de datasets robotiques, aux côtés d'Open-X Embodiment et DROID. Sur la problématique du transfert human-to-robot, les approches concurrentes directes incluent UMI (Universal Manipulation Interface, Stanford/Columbia), qui utilise une gripper portable pour capturer des démonstrations dans des environnements non structurés, et les travaux de l'équipe de Sergey Levine à UC Berkeley sur l'apprentissage depuis des vidéos humaines. DexWild se distingue par la diversité explicite de ses collecteurs et la structure de co-training formalisée. Le code et les datasets sont accessibles sur dexwild.github.io ; aucun déploiement industriel ni timeline commerciale n'est annoncé à ce stade.

RobotiqueOpinion
1 source
Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF
13arXiv cs.RO 

Dexora : un modèle VLA open source pour la dextérité bimmanuelle à haute DOF

Des chercheurs ont publié en mai 2026 Dexora, un système VLA (Vision-Language-Action) open-source conçu nativement pour la manipulation bimane et bi-main à haut nombre de degrés de liberté (DoF). Contrairement aux architectures existantes, limitées soit au contrôle de pinces doubles (faible DoF), soit à la manipulation dextère d'un seul bras, Dexora adresse simultanément les deux problèmes. Le pipeline de téléopération repose sur un exosquelette dorsal pour capturer la cinématique grossière des bras, couplé à un suivi markerless des doigts via Apple Vision Pro pour le mouvement fin des mains. Ce dispositif pilote à la fois un robot physique dual-arm dual-hand et un jumeau numérique identique sous MuJoCo. Le corpus d'entraînement atteint 100 000 trajectoires simulées (6,5 millions de frames) et 10 000 épisodes téléopérés en conditions réelles (2,92 millions de frames). Pour filtrer le bruit inévitable des démonstrations humaines, un discriminateur offline attribue des pondérations par clip avant l'entraînement d'une politique diffusion-transformer. En benchmark, Dexora obtient 66,7 % de succès sur les tâches dextères contre 51,7 % pour les meilleures alternatives comparées, et 90 % sur les tâches de base. Des résultats de généralisation hors distribution et cross-embodiment sont également reportés. Ce travail comble un angle mort réel de l'écosystème VLA actuel : les mains à haute dextérité (typiquement 16 à 22 DoF par main) ne se prêtent pas aux heuristiques utilisées pour les pinces, et les méthodes end-to-end génériques se sont jusqu'ici heurtées à la complexité de la téléopération bimanuelle simultanée. Le gain de 15 points sur les baselines dextères est significatif, même si les benchmarks utilisés restent internes et les conditions expérimentales peu détaillées dans l'abstract, ce qui mérite vérification à la lecture du papier complet. L'ouverture du code, des données et des poids est le point différenciant le plus structurant : elle abaisse la barrière d'entrée pour les laboratoires et les intégrateurs qui cherchent à entraîner des politiques sur leurs propres plateformes dextères sans repartir de zéro. La publication s'inscrit dans une course accélérée à la dextérité fine pour les bras robotiques, où Physical Intelligence (pi0), OpenVLA et plusieurs équipes académiques ont multiplié les releases VLA depuis 2024. Aucun acteur européen n'est directement impliqué dans ce travail, mais des start-ups comme Enchanted Tools (France) ou Shadow Robotics (UK, désormais indépendant de OpenAI) suivent des trajectoires adjacentes sur les mains dextères. Le recours à l'Apple Vision Pro comme capteur de téléopération markerless est un choix pragmatique mais dépendant d'un hardware grand public non industriel, dont la robustesse en environnement de production reste à démontrer. Il s'agit d'un preprint arXiv, pas d'un produit livré : aucun déploiement industriel ni pilote n'est annoncé à ce stade.

UEDes laboratoires et start-ups européens spécialisés dans la manipulation dextère (ex : Enchanted Tools, Shadow Robotics) pourront s'appuyer sur le code, les données et les poids open-source de Dexora pour accélérer leurs propres politiques, sans qu'aucun partenariat ou déploiement en Europe ne soit annoncé.

💬 Le vrai saut, c'est l'open source : code, poids, et les 100 000 trajectoires d'entraînement disponibles. Jusqu'ici chaque équipe qui voulait attaquer la manipulation bimanuelle repartait de zéro, parce que personne ne partageait de base réutilisable à cette granularité de DoF. Reste à voir ce que ça vaut en dehors des benchmarks internes.

RobotiqueOpinion
1 source
StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires
14arXiv cs.RO 

StableVLA : vers des modèles vision-langage-action (VLA) robustes sans données supplémentaires

Des chercheurs ont publié sur arXiv (réf. 2605.18287) StableVLA, une approche visant à renforcer la robustesse des modèles Vision-Language-Action (VLA) face aux perturbations visuelles non représentées dans les données d'entraînement. Le coeur de la contribution est l'Information Bottleneck Adapter (IB-Adapter), un module léger fondé sur la théorie de l'information qui filtre sélectivement le bruit dans les entrées visuelles. Sans données supplémentaires ni stratégie d'augmentation, l'IB-Adapter améliore les performances de la baseline de 30% en moyenne, pour un surcoût inférieur à 10 millions de paramètres. Malgré un backbone de seulement 0,5 milliard de paramètres, soit 14 fois plus petit que les VLA concurrents à 7B, StableVLA atteint une robustesse comparable à ces modèles sur des tâches à horizon long, et surpasse OpenPi sous corruptions visuelles synthétiques et physiques, sans pré-entraînement sur le jeu de données Open X-Embodiment. Ce résultat adresse un angle mort critique du déploiement robotique réel : il est structurellement impossible de couvrir dans un dataset d'entraînement l'ensemble des conditions visuelles dégradées rencontrées en production (éclairage adverse, occlusions partielles, flou de bougé, saleté sur les capteurs). Les VLA actuels, malgré leurs performances en benchmark, accusent une chute significative dès qu'une perturbation inédite apparaît, ce qui constitue un frein majeur à leur industrialisation. L'approche proposée réduit ce gap sim-to-real sans alourdir les pipelines de collecte de données, ce qui est pertinent pour les intégrateurs cherchant à déployer des systèmes génériques sans ingénierie de dataset coûteuse. Le contexte de ce travail est la montée en puissance des architectures VLA pour la manipulation robotique généraliste, portée notamment par Physical Intelligence avec Pi-0 (OpenPi), qui fait office de référence dans la catégorie 7B. Open X-Embodiment, le corpus de référence pour le pré-entraînement multi-robot, reste difficile d'accès pour des équipes à ressources limitées. StableVLA se positionne explicitement contre cette tendance à l'échelle, en pariant sur l'efficacité paramétrique. Le papier reste un preprint arXiv sans validation industrielle annoncée, et les métriques de robustesse présentées gagneraient à être confrontées à des évaluations sur matériel réel dans des conditions non contrôlées.

RobotiqueOpinion
1 source
Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu
15arXiv cs.RO 

Vers des robots durables : affiner les modèles VLA par apprentissage par renforcement continu

Une équipe de chercheurs publie sur arXiv (2602.10503, février 2026) une méthode de fine-tuning appelée LifeLong-RFT, conçue pour permettre aux modèles VLA (Vision-Language-Action) de s'adapter en continu à de nouvelles tâches sans effacer les précédentes. Les VLA, tels que pi-0 de Physical Intelligence ou OpenVLA, sont pré-entraînés sur des datasets massifs et variés, ce qui leur confère une bonne généralisation. Leur adaptation à des domaines spécifiques repose cependant majoritairement sur le Supervised Fine-Tuning (SFT), une approche qui exige de larges volumes de données tâche-spécifiques et souffre du catastrophic forgetting : le modèle oublie ses acquis antérieurs en assimilant de nouvelles compétences. LifeLong-RFT substitue au SFT un mécanisme de Reinforcement Fine-Tuning (RFT) indépendant de tout feedback environnemental en ligne et de tout reward model pré-entraîné. La méthode repose sur trois signaux de récompense combinés : le QACR (Quantized Action Consistency Reward), qui vérifie la cohérence de la prédiction d'actions dans l'espace discret ; le CTAR (Continuous Trajectory Alignment Reward), qui aligne les chunks d'actions continues sur des trajectoires de référence ; et le FCR (Format Compliance Reward), qui garantit la validité structurelle des sorties. Sur le benchmark LIBERO dédié à l'apprentissage continu, LifeLong-RFT affiche un gain de 22 points de taux de succès moyen par rapport au SFT, en n'utilisant que 20 % des données d'entraînement pour s'adapter à de nouvelles tâches. Les expériences couvrent SimplerEnv, LIBERO et des scénarios réels. Ce résultat s'attaque directement au principal frein à l'apprentissage continu en déploiement : la nécessité de réentraîner un modèle depuis un checkpoint dès qu'on veut lui enseigner une nouvelle opération. Le fait que LifeLong-RFT ne nécessite ni feedback en ligne (interactions réelles avec l'environnement, coûteuses et parfois dangereuses en production) ni reward model séparé réduit considérablement la barrière à l'adaptation terrain. Pour un intégrateur ou un COO industriel, cela signifie qu'un bras manipulateur ou un robot mobile basé VLA pourrait théoriquement apprendre de nouvelles tâches avec un cinquième des données actuellement nécessaires, sans régresser sur ses acquis. La validation partielle sur des tâches réelles renforce la crédibilité des résultats, même si le papier reste un preprint arXiv et que les conditions expérimentales real-world ne sont pas détaillées dans le résumé public. La course aux VLA comme politique unifiée pour la robotique généraliste s'est intensifiée depuis 2024 avec pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et Helix (Figure AI), tous cherchant à résoudre l'adaptation domaine-spécifique avec un minimum de données supplémentaires. LifeLong-RFT s'inspire directement des techniques GRPO et RLHF qui ont transformé le post-training des LLMs, les transposant ici au niveau des chunks d'actions robotiques. Il se positionne comme un paradigme post-training alternatif au SFT, sans contrainte d'infrastructure lourde. Aucun déploiement ni partenariat industriel n'est annoncé : il s'agit d'une contribution académique avec page projet dédiée. Les suites naturelles incluent l'extension à des architectures VLA plus récentes et des benchmarks multi-tâches à plus longue durée, critères encore absents de cette évaluation.

RobotiqueOpinion
1 source
Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace
16arXiv cs.RO 

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace

Une équipe de recherche publie sur arXiv (arXiv:2602.20200v2) OptimusVLA, un framework Vision-Language-Action (VLA) hiérarchique augmenté de deux modules de mémoire distincts : une Global Prior Memory (GPM) et une Local Consistency Memory (LCM). La GPM remplace le bruit gaussien isotrope standard, utilisé comme point de départ dans les politiques de diffusion, par des priors extraits de trajectoires sémantiquement similaires, réduisant ainsi le nombre d'évaluations de fonction (NFE) nécessaires au débruitage. La LCM, elle, modélise dynamiquement la séquence d'actions déjà exécutées pour contraindre la cohérence temporelle des prochains mouvements. Sur trois benchmarks de simulation, OptimusVLA atteint 98,6 % de taux de succès moyen sur LIBERO, améliore pi0 de 13,5 points sur CALVIN, et obtient 38 % sur le niveau Hard de RoboTwin 2.0. En évaluation réelle, il surpasse pi0 de 42,9 % sur la suite Généralisation et de 52,4 % sur la suite Long-horizon, avec un gain de vitesse d'inférence de 2,9x. Ces résultats pointent deux verrous concrets du paradigme VLA actuel : l'inefficacité computationnelle des politiques de diffusion à point de départ aléatoire, et l'amnésie des politiques réactives qui ignorent l'historique d'exécution. Le gain de 2,9x en inférence est significatif pour le déploiement temps-réel sur hardware embarqué. Le bond sur les tâches long-horizon (+52,4 % vs pi0) est probablement l'indicateur le plus pertinent pour les intégrateurs industriels, car les tâches réelles ne se réduisent pas à des gestes isolés. Il convient cependant de noter que l'article ne détaille pas le robot utilisé ni le nombre de scénarios testés en réel, ce qui limite l'évaluation indépendante de la portée de ces gains. Le modèle pi0, développé par Physical Intelligence (San Francisco), sert ici de référence principale dans la comparaison, ce qui illustre son statut de baseline de facto dans la recherche VLA en 2025. Le domaine compte également GR00T N2 de NVIDIA, OpenVLA ou encore les travaux de Google DeepMind, tous confrontés au même arbitrage efficacité/généralisation. OptimusVLA reste à ce stade un résultat de recherche préliminaire (preprint non évalué par les pairs), sans pipeline de déploiement ni partenaire industriel annoncé. La prochaine étape naturelle serait une validation sur une plateforme humanoïde commerciale avec des scénarios définis de façon indépendante.

RobotiqueOpinion
1 source
Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique
17arXiv cs.RO 

Génération de vidéo 4D intégrant la géométrie pour la manipulation robotique

Des chercheurs ont publié sur arXiv (référence 2507.01099, version 4) un modèle de génération vidéo 4D destiné à améliorer la planification et la manipulation robotique. L'approche prend en entrée une seule image RGB-D par point de vue, c'est-à-dire une image couleur couplée à une carte de profondeur, et génère des séquences vidéo futures alignées spatialement et temporellement depuis de nouveaux angles de caméra, sans nécessiter la connaissance préalable des poses de caméra. La cohérence géométrique multi-vue est imposée pendant l'entraînement par une supervision fondée sur l'alignement de nuages de points inter-vues (cross-view pointmap alignment), forçant le modèle à construire une représentation 3D partagée de la scène. Les vidéos 4D prédites sont ensuite exploitées par un tracker de pose 6DoF disponible sur étagère pour reconstituer les trajectoires de l'effecteur terminal du robot, produisant des politiques de manipulation qui généralisent à des points de vue inédits. Les expériences portent sur plusieurs jeux de données robotiques simulés et réels, avec de meilleures performances visuelles et spatiales que les approches de référence. Ce résultat s'attaque directement à l'un des verrous majeurs du déploiement industriel de la manipulation robotique : la dépendance à une calibration précise des caméras et à leur positionnement fixe. En apprenant implicitement la géométrie de la scène plutôt qu'en la recevant comme entrée explicite, le modèle produit des prédictions visuellement stables là où les approches concurrentes dérivent dès qu'on change l'angle de vue. Pour un intégrateur ou un COO industriel, cela signifie qu'une cellule robotisée pourrait potentiellement réutiliser une politique apprise sans reconfigurer l'ensemble du système de vision si une caméra est déplacée. L'utilisation d'un tracker 6DoF hors catalogue pour extraire les trajectoires limite par ailleurs le besoin d'infrastructure propriétaire et simplifie l'intégration. Ce travail s'inscrit dans la vague des "world models" appliqués à la robotique, aux côtés d'approches comme UniSim ou des modèles VLA (Vision-Language-Action) à grande échelle qui cherchent eux aussi à donner aux robots une compréhension prédictive de leur environnement. La principale réserve est que le papier est une prépublication arXiv, sans validation industrielle annoncée ni partenaire de déploiement identifié : c'est de la recherche amont, pas un produit expédié. Les méthodes concurrentes s'appuyant sur des poses de caméra explicites, comme les approches NeRF ou 3D Gaussian Splatting pour la manipulation, offrent parfois une précision supérieure dans des environnements très contrôlés, mais au prix d'une configuration plus contraignante. Les prochaines étapes naturelles seraient une validation sur des tâches de manipulation plus complexes, une montée en échelle sur des plateformes comme les bras Franka ou UR, et une intégration dans des pipelines de politique complète de type diffusion ou transformer.

RobotiquePaper
1 source
Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle
18Interesting Engineering 

Vidéo : le cerveau robotique de Genesis permet une manipulation au niveau humain et un entraînement à grande échelle

Genesis AI a présenté GENE-26.5, un modèle de fondation robotique conçu pour doter les robots de capacités de manipulation au niveau humain. La vidéo de démonstration publiée par l'entreprise montre des robots accomplissant une séquence culinaire de 20 étapes (couper des tomates, casser un oeuf d'une seule main, coordonner les deux bras pendant la cuisson), ainsi que la préparation d'un smoothie avec service en l'air, des tâches de laboratoire (pipettage, transfert de liquides), du câblage pour assemblage électronique, la résolution d'un Rubik's Cube en manipulation aérienne continue, et l'interprétation d'une pièce de piano rapide. Pour alimenter l'entraînement du modèle, l'entreprise a développé un gant haptique équipé d'une peau électronique à capteurs tactiles, établissant une correspondance 1:1:1 entre la main humaine, le gant et la main robotique. Genesis revendique un coût matériel cent fois inférieur aux solutions de télé-opération conventionnelles, et une efficacité de collecte de données cinq fois supérieure. Le moteur de données associé intègre également des vidéos égocentriques issues de caméras portables et des vidéos publiques centrées sur l'activité humaine. Ces résultats, s'ils se confirment en environnement réel non contrôlé, représentent une avancée potentiellement significative sur l'un des verrous les plus tenaces de la robotique : l'écart d'incarnation (embodiment gap) entre les mains humaines et robotiques, qui limite depuis des années la transférabilité des données d'entraînement. La cartographie 1:1 glove-to-robot est une approche déjà explorée par des acteurs comme Physical Intelligence (pi-0) et plusieurs laboratoires académiques, mais Genesis revendique une démonstration à une échelle et une polyvalence inédites. Pour les intégrateurs industriels et les décideurs cherchant à automatiser des tâches non structurées (assemblage fin, préparation culinaire en volume, logistique d'entrepôt), la promesse d'un système généraliste capable d'apprendre directement des gestes humains quotidiens, sans retraining extensif, représenterait un changement de paradigme. Il faut toutefois noter que les démonstrations sont des vidéos éditées, sans données indépendantes sur le taux d'échec, les conditions d'éclairage, ou la reproductibilité en cycle de production continu. Genesis AI s'inscrit dans un segment en forte concurrence avec Physical Intelligence (pi-0, Berkeley), Figure AI (Figure 03, déployé avec BMW), Tesla (Optimus Gen 3), NVIDIA (GR00T N2) et Apptronik (Apollo). L'approche par gant haptique à bas coût rappelle les travaux d'Enchanted Tools, acteur français du service robotique, qui mise également sur la capture de mouvement humain pour réduire le coût d'entraînement. Genesis n'a pas encore annoncé de déploiements industriels confirmés ni de partenariats nominatifs : GENE-26.5 reste à ce stade une annonce de produit accompagnée d'une démonstration vidéo, pas un système disponible commercialement. L'entreprise indique prévoir le déploiement de ses gants en milieu de travail réel via des partenariats industriels, avec pour objectif de constituer une bibliothèque de compétences humaines à grande échelle pour l'entraînement robotique.

RobotiqueActu
1 source
Des agents IA pour les équipes de robots
19IEEE Spectrum AI 

Des agents IA pour les équipes de robots

Le laboratoire de physique appliquée de l'université Johns Hopkins (APL) a publié une présentation détaillant ses travaux récents sur l'IA agentique appliquée aux équipes de robots collaboratifs. Baptisée "Agentic AI for Robot Teams", cette communication expose une architecture scalable conçue pour doter des systèmes robotiques hétérogènes de capacités d'autonomie, de coordination et d'adaptabilité. Les chercheurs y décrivent comment des agents fondés sur des grands modèles de langage (LLM) peuvent être déployés sur du matériel réel, avec des démonstrations impliquant des équipes de robots aux profils et capacités différents. Le document, disponible sous forme de livre blanc, présente également les leçons tirées des phases de recherche et développement en cours. L'enjeu est considérable : faire travailler ensemble des robots qui ne partagent ni les mêmes capteurs, ni les mêmes actionneurs, ni les mêmes logiciels impose des défis de coordination que les architectures classiques peinent à résoudre. En intégrant des LLM comme couche de raisonnement et de planification, les équipes de l'APL cherchent à rendre ces systèmes capables de s'adapter dynamiquement aux imprévus, de se répartir les tâches et de maintenir une cohérence collective sans supervision humaine constante. Cette approche pourrait transformer des domaines comme la logistique autonome, la gestion de catastrophes, les opérations militaires ou l'exploration de milieux hostiles, où envoyer des équipes humaines reste risqué ou impossible. Le Johns Hopkins APL est l'un des principaux centres de recherche appliquée du Département de la Défense américain, ce qui situe ces travaux dans un contexte stratégique lié à la robotique militaire et aux systèmes autonomes multi-agents. La montée en puissance des LLM depuis 2022 a ouvert une nouvelle voie pour la robotique agentique, jusqu'ici freinée par la rigidité des architectures de contrôle traditionnelles. Les suites annoncées portent sur la généralisation de l'architecture à des équipes plus larges et plus hétérogènes, ainsi que sur l'amélioration de la robustesse dans des environnements dégradés ou incertains.

RobotiqueActu
1 source
OpenFrontier : navigation générale guidée par des frontières vision-langage
20arXiv cs.RO 

OpenFrontier : navigation générale guidée par des frontières vision-langage

Des chercheurs ont publié sur arXiv (identifiant 2503.05377) OpenFrontier, un cadre de navigation robotique en monde ouvert conçu pour fonctionner sans entraînement ni fine-tuning spécifique à la tâche. Le principe central : reformuler la navigation comme une succession d'identifications et d'atteintes de sous-objectifs éparses, en sélectionnant des "frontières visuelles" comme ancres sémantiques. Ces frontières, zones situées à la limite du champ perceptif du robot, servent de relais entre les instructions en langage naturel et les décisions de déplacement. OpenFrontier s'intègre à des modèles vision-langage (VLN) et vision-langage-action (VLA) existants sans reconstruction 3D dense de l'environnement ni collecte de données à grande échelle. Les auteurs rapportent des performances zero-shot sur plusieurs benchmarks de navigation standardisés et un déploiement expérimental sur un robot mobile réel. Ce résultat est notable parce que les approches end-to-end conditionnées sur le langage naturel exigent habituellement soit un entraînement interactif, soit des milliers de trajectoires annotées, soit une adaptation au robot cible. OpenFrontier contourne ces verrous en exploitant les frontières visuelles comme points d'ancrage pour les priors sémantiques du modèle, réduisant la charge computationnelle (pas de carte 3D sémantique dense) et le besoin en données d'entraînement. Pour un intégrateur de robots mobiles autonomes (AMR) ou un décideur industriel, cela ouvre la perspective de déploiements en environnement non structuré sans cycle de fine-tuning propre à chaque site. La performance zero-shot annoncée reste cependant à confronter à des conditions opérationnelles réelles : les benchmarks utilisés sont des environnements de laboratoire contrôlés, non des entrepôts ou espaces publics. OpenFrontier s'inscrit dans une dynamique de recherche qui cherche à transférer les capacités des grands modèles vision-langage vers la navigation mobile sans les contraintes classiques de l'apprentissage par renforcement. Des approches concurrentes comme SayNav, VLMaps ou les politiques VLA de Physical Intelligence (pi0) requièrent soit des environnements annotés, soit des datasets de démonstrations humaines, soit les deux. La méthode des frontières visuelles comme ancres sémantiques est plus légère, mais reste contrainte aux scénarios où la limite perceptive du robot capture les objectifs sémantiques pertinents. En l'état, OpenFrontier est un preprint académique et non un produit commercialisé : les validations en monde réel décrites correspondent à des tests expérimentaux contrôlés, pas à un déploiement industriel à l'échelle.

💬 L'idée de traiter les bords du champ de vision comme des ancres sémantiques au lieu de construire une carte 3D complète, c'est simple et ça coupe court à des années de galère en intégration terrain. Zéro fine-tuning par site, zéro dataset de trajectoires annotées, pour un déployeur d'AMR c'est exactement ce qu'on attendait. Reste que c'est un preprint testé en labo, et qu'un entrepôt avec des chariots élévateurs c'est une autre planète.

RobotiqueOpinion
1 source
HoloMotion-1 : rapport technique
21arXiv cs.RO 

HoloMotion-1 : rapport technique

Un rapport technique déposé sur arXiv (2605.15336) présente HoloMotion-1, un modèle fondateur de mouvement pour robots humanoïdes conçu pour le suivi de posture corps entier en mode zero-shot, sans adaptation spécifique à la tâche cible. L'originalité du système tient à son corpus hybride : des mouvements reconstruits par vision à partir de vidéos "in-the-wild" constituent la principale source de diversité comportementale, tandis que des données de motion capture (MoCap) soigneusement sélectionnées assurent une supervision haute fidélité. Architecturalement, HoloMotion-1 s'appuie sur un Transformer Mixture-of-Experts (MoE) à activation sparse avec inférence par KV-cache pour le contrôle temps réel, complété par une stratégie d'entraînement sur séquences longues. Testé sur plusieurs benchmarks de mouvement non vus à l'entraînement, le modèle se transfère directement sur un robot humanoïde physique sans fine-tuning additionnel. Le transfert zero-shot vers hardware réel est l'affirmation la plus structurante du rapport : la majorité des approches de contrôle humanoïde exigent jusqu'ici un ajustement pour chaque morphologie ou environnement de déploiement, ce qui freine la généralisation industrielle. L'usage massif de vidéos in-the-wild comme source d'entraînement, plutôt que du MoCap en laboratoire, est une rupture méthodologique potentielle qui élargit le spectre de comportements appris sans nécessiter d'infrastructure de capture coûteuse. L'architecture MoE avec KV-cache emprunte à l'outillage des grands modèles de langage pour répondre aux contraintes de latence du contrôle embarqué temps réel. Le résumé mentionne une amélioration significative de la précision de tracking sur benchmarks, sans préciser les marges numériques. L'affiliation des auteurs n'est pas indiquée dans ce résumé arXiv, ce qui est inhabituel pour un rapport technique de cette envergure. HoloMotion-1 s'inscrit dans un espace concurrentiel actif : NVIDIA a publié GR00T N2 pour le contrôle généraliste d'humanoïdes, Physical Intelligence (pi_0) entraîne des politiques multi-tâche sur données hétérogènes, et plusieurs laboratoires comme CMU, UCB ou ETH Zurich travaillent sur le transfert sim-to-real. La notion de "modèle fondateur de mouvement" réutilisable sur plusieurs plateformes s'inscrit dans la tendance à standardiser les couches de contrôle bas niveau des humanoïdes. La prochaine étape logique serait la validation multi-morphologies sur des plateformes comme Unitree H1/G1, Fourier GR1 ou Agility Digit, et des tests en conditions industrielles réelles.

💬 Le zero-shot sur hardware réel, c'est l'assertion qui fait tout le travail ici. Si ça tient vraiment sans fine-tuning par morphologie, c'est une rupture nette avec ce qu'on voit d'habitude, où chaque robot demande son propre round d'adaptation. Bémol quand même : pas d'affiliation indiquée sur l'arXiv, les marges numériques absentes, ça sent le papier un peu pressé.

RobotiqueOpinion
1 source
PhysBrain 1.0 : rapport technique
22arXiv cs.RO 

PhysBrain 1.0 : rapport technique

PhysBrain 1.0 (arXiv:2605.15298, mai 2026) est un pipeline VLA (vision-language-action) qui convertit de la vidéo égocentrique humaine à grande échelle en supervision de commonsense physique structuré, avant de transférer ce savoir vers le contrôle robotique. Un moteur de données extrait quatre types d'informations depuis ces vidéos (éléments de scène, dynamiques spatiales, exécution d'actions, relations géométriques tenant compte de la profondeur) et les transforme en paires questions-réponses pour entraîner les VLM PhysBrain. Les priors physiques résultants sont ensuite injectés dans des politiques VLA via un mécanisme d'adaptation qualifié de "capability-preserving et language-sensitive". Évalué sur cinq benchmarks (ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, RoboCasa), le modèle revendique des résultats état de l'art, avec des performances hors domaine particulièrement fortes sur SimplerEnv. L'abstract ne fournit pas de métriques chiffrées; le rapport complet reste nécessaire pour valider ces affirmations. L'argument central est que les trajectoires robot constituent une source de supervision trop étroite pour acquérir une compréhension physique générale: coûteuses à collecter par téléopération et peu diversifiées, elles limitent structurellement la généralisation des VLA. La vidéo égocentrique humaine, disponible en volumes bien supérieurs, couvre une variété d'interactions physiques avec le monde (saisies, contacts, équilibre, textures) que les datasets robot n'atteignent pas. La robustesse hors domaine sur SimplerEnv est le signal le plus intéressant: si elle se confirme à la lecture du rapport complet, cela suggère que cette stratégie atténue le problème de généralisation qui frappe la majorité des VLA entraînés uniquement sur données robot. Pour un intégrateur ou un COO industriel, cela laisse entrevoir une réduction du volume de démonstrations téléopérées nécessaires lors de chaque nouveau déploiement. PhysBrain s'inscrit dans une compétition dense autour des VLA physiques. Physical Intelligence (pi0, pi0.5) capitalise sur de larges datasets de téléopération multi-robot; NVIDIA GR00T N2 cible la compréhension physique via simulation massive; Google DeepMind (RT-2) et le modèle open-source Octo ont posé les bases de la catégorie. L'angle de PhysBrain, passant par un intermédiaire de commonsense structuré en QA plutôt que par un entraînement direct sur trajectoires, rappelle les stratégies de pre-training visuel comme R3M ou MVP, mais va plus loin avec un pipeline d'extraction supervisée à quatre dimensions. Le modèle est pour l'instant validé sur robot WidowX, une plateforme de manipulation accessible; la prochaine étape logique serait de tester le transfert sur des architectures humanoïdes ou à plus haute dextérité, là où la compréhension physique générale apporte le plus de valeur.

💬 Le vrai problème des VLA, c'est qu'ils apprennent à partir de données robot trop étroites et trop chères à collecter. PhysBrain contourne ça en allant chercher le commonsense physique dans des vidéos humaines à grande échelle, et je trouve les perfs hors domaine sur SimplerEnv plus convaincantes que les benchmarks habituels. Testé sur WidowX seulement pour l'instant, donc on attend la suite.

RobotiqueOpinion
1 source
SkiP : quand ignorer et quand affiner pour une manipulation robotique efficace
23arXiv cs.RO 

SkiP : quand ignorer et quand affiner pour une manipulation robotique efficace

Une équipe de chercheurs présente SkiP (Skip Policy), une nouvelle méthode d'apprentissage par imitation pour la manipulation robotique, publiée en prépublication sur arXiv (arXiv:2505.15536). Le constat de départ est simple : les politiques actuelles, qu'il s'agisse de Diffusion Policy, ACT ou d'architectures de type VLA, génèrent une prédiction d'action à chaque pas de contrôle, que le robot traverse un espace libre ou exécute un contact précis. SkiP introduit un mécanisme dit d'"action relabeling" : dans les segments dits "skip", la cible d'entraînement par clonage comportemental est remplacée par l'action d'entrée du prochain segment clé, permettant à la politique de sauter les étapes redondantes en une seule décision. La détection automatique de ces segments repose sur "Motion Spectrum Keying" (MSK), une procédure agnostique à la tâche qui analyse la complexité locale du signal d'action sans annotation manuelle. Validée sur 72 tâches de manipulation simulées et trois tâches en robotique réelle, la méthode réduit le nombre de pas exécutés de 15 à 40 % tout en maintenant ou améliorant les taux de réussite selon le backbone de politique utilisé. L'intérêt industriel est réel, même si les conditions expérimentales restent académiques. Réduire de 15 à 40 % la charge computationnelle d'une politique en inférence, sans dégrader les performances sur des phases critiques comme la saisie ou l'alignement de pièces, ouvre une voie concrète vers le déploiement sur des contrôleurs embarqués à ressources limitées. Contrairement aux approches hiérarchiques qui nécessitent un planificateur de saut séparé, SkiP s'exécute dans un réseau unique, ce qui simplifie l'intégration. Le fait que la méthode soit backbone-agnostic, compatible avec Diffusion Policy, ACT et autres, facilite son adoption sans refonte de pipeline. Cependant, les résultats sur robot réel se limitent à trois tâches, et les vidéos de démonstration restent à vérifier : la généralisation à des environnements industriels non structurés reste à prouver. Sur le plan académique, SkiP s'inscrit dans une vague de travaux cherchant à rendre l'imitation learning plus efficace en termes de calcul, aux côtés de méthodes comme BESO ou RISE, qui s'attaquent respectivement au coût du score matching et à la résolution de la prédiction d'action. La compression temporelle des trajectoires est aussi explorée par des équipes comme Physical Intelligence (pi.ai) dans le contexte de pi-0, ou par des groupes académiques autour des VLA (Vision-Language-Action models). Aucun acteur européen ou français n'est directement impliqué dans ce travail, issu d'une institution non identifiée dans le résumé arXiv disponible. Les prochaines étapes naturelles seraient une validation sur des tâches à plus longue temporalité, un test en conditions industrielles réelles, et une intégration dans des pipelines de fine-tuning rapide, domaine où la réduction des pas d'exécution devient un levier de coût non négligeable.

RobotiqueOpinion
1 source
FocalPolicy : découpage fréquentiel et flow matching ancré localement pour une politique visuomotrice cohérente
24arXiv cs.RO 

FocalPolicy : découpage fréquentiel et flow matching ancré localement pour une politique visuomotrice cohérente

Une équipe de chercheurs a déposé en mai 2026 sur arXiv (référence 2605.15944) FocalPolicy, une nouvelle architecture de politique visuomotrice pour la manipulation robotique apprise par démonstration. Le problème ciblé est celui des discontinuités inter-chunks : les politiques actuelles découpent les séquences d'action en segments successifs (chunks), et les raccords entre ces segments génèrent des saccades qui perturbent l'apprentissage de tâches longues. FocalPolicy propose deux contributions principales : le Frequency-Optimized Chunking, qui régularise la structure des actions dans le domaine fréquentiel sur plusieurs chunks futurs, et le Locally Anchored flow matching, qui améliore la propagation du signal lors de l'entraînement par consistency flow matching. Un objectif composite dit de "foresight" supervise simultanément l'alignement temporel des actions proximales et la cohérence fréquentielle à plus long horizon. Les auteurs déclarent surpasser les approches existantes sur des benchmarks de manipulation, sans détailler les marges d'amélioration dans l'abstract. Pour les équipes travaillant sur la manipulation dextère, cette contribution s'attaque à un problème concret : les politiques issues de Diffusion Policy ou de Pi-0 (Physical Intelligence) produisent des trajectoires localement précises mais saccadées sur des horizons longs, comme l'assemblage multi-étapes ou la manipulation d'objets souples. La contrainte fréquentielle proposée impose une régularité globale sans augmenter la fenêtre de contexte ni le coût d'inférence, avantage réel pour les systèmes embarqués. La généralisation annoncée à d'autres architectures de base ouvre la porte à une intégration dans des pipelines existants, à condition que les gains tiennent sur hardware réel : les expériences publiées restent sur bancs standardisés, sans déploiement industriel déclaré. Le problème de cohérence inter-chunks a émergé avec ACT (Action Chunking with Transformers, Zhao et al. 2023), architecture phare des robots bimanuel ALOHA, avant que Diffusion Policy (Chi et al. 2023) et Physical Intelligence, avec Pi-0 puis Pi-0.5, n'adoptent les modèles génératifs pour distribuer des actions complexes. FocalPolicy s'inscrit dans cette lignée comme une amélioration structurelle ciblée, sans proposer de changement de paradigme. Le code et des démos sont annoncés sur focalpolicy.github.io, mais aucune timeline de mise à disposition ni partenariat industriel ne figure dans le preprint.

RobotiqueOpinion
1 source
Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir
25The Decoder 

Les modèles d'action universels permettent aux robots de simuler les conséquences avant d'agir

Les World Action Models (WAM) constituent une nouvelle famille de modèles d'IA pour la robotique, documentée dans une étude récente qui recense et organise une centaine de publications scientifiques autour de deux grandes lignes architecturales. Contrairement aux systèmes actuels, ces modèles ne se contentent pas d'associer des mouvements à des images de caméra : ils simulent mentalement les conséquences d'une action avant de l'exécuter, en modélisant comment l'environnement va évoluer. L'enjeu est considérable pour le secteur. Les robots industriels et domestiques actuels restent fragiles face à l'imprévu, car leurs modèles n'ont aucune représentation interne de la physique du monde. Les WAM offrent une capacité de planification proactive : un bras robotique peut anticiper qu'attraper un objet d'une certaine façon le fera basculer, et corriger sa trajectoire avant même de bouger. Cela ouvre la voie à des robots beaucoup plus robustes et adaptables dans des environnements non contrôlés. L'avantage décisif de cette approche réside dans les données d'entraînement : les WAM peuvent apprendre à partir de vidéos ordinaires du monde réel, sans étiquetage des actions robotiques, un type de donnée qui était jusqu'ici quasi inutilisable pour les IA robotiques classiques. Cette propriété lève un verrou majeur, car les vidéos non annotées sont disponibles en quantité massive sur internet. La compétition entre laboratoires de recherche et géants de la tech pour maîtriser ce type de modèle devrait s'intensifier dans les prochains mois.

💬 Ce qui m'intéresse là-dedans, c'est pas le robot qui réfléchit avant de bouger, c'est qu'il peut apprendre à partir de vidéos ordinaires, sans annotation spécifique. Les données robotiques étiquetées coûtent une fortune à produire, les vidéos YouTube non, et il y en a des milliards d'heures. C'est le genre de verrou qui, une fois levé, accélère tout le reste.

RobotiqueOpinion
1 source
San Francisco accueille un club de combat de robots, General Catalyst fait le buzz
26The Information AI 

San Francisco accueille un club de combat de robots, General Catalyst fait le buzz

Jeudi dernier, une boîte de nuit du quartier SoMa à San Francisco accueillait un spectacle pour le moins inhabituel : des combats de robots humanoïdes de la taille d'un enfant dans une cage octogonale, sur fond de musique électronique et d'un animateur en blazer à paillettes. L'événement, baptisé "Robot Fight Night and Dance Off", réunissait quelques centaines de spectateurs venus encourager des machines maladroites à se frapper mutuellement. Derrière ce cirque technologique se cache Nebius, une société de cloud computing cherchant à se faire connaître : les robots, fabriqués par la firme chinoise Unitree, avaient été entraînés et chorégraphiés par Ultimate Fighting Bots, une ligue de sports pour robots humanoïdes, sur la plateforme cloud de Nebius. Dans le même temps, General Catalyst, l'un des fonds de capital-risque les plus influents de la Silicon Valley, publiait une vidéo marketing qui a cumulé 2,5 millions de vues sur Twitter en quelques jours, déclenchant une vive polémique dans le milieu du venture capital. Ces deux événements illustrent, chacun à leur manière, une forme de surchauffe dans l'industrie technologique. La robotique concentre aujourd'hui des sommes colossales : Jensen Huang de Nvidia y voit "la prochaine frontière de l'IA", Elon Musk présente Optimus comme "le plus grand produit de Tesla", et la startup Figure de Brett Adcock atteignait une valorisation de 39 milliards de dollars l'an dernier. Des dizaines de milliards ont été injectés dans des entreprises qui promettent de remplacer des millions de travailleurs dans les usines et les maisons de retraite. Transformer ces machines en attractions de combat revient, selon Shane Wilson, associé chez Citta Capital, à démontrer "le biais testostérone des startups en phase d'amorçage". La vidéo de General Catalyst, elle, a agacé Marc Andreessen et ses équipes : le personnage du capital-risqueur imprudent et peu sérieux qu'elle met en scène ressemble de façon troublante à Andreessen lui-même. Propulsée par ses réactions en ligne, la vidéo est devenue l'un des sujets les plus commentés entre investisseurs cette semaine, certains la qualifiant de "de mauvais goût". La soirée SoMa confirmait pourtant une chose : la révolution robotique annoncée ressemble pour l'instant moins à une armée de Terminators qu'à une procession de machines titubantes peinent à se porter des coups. Un ingénieur d'OpenAI présent dans la salle reconnaissait que les robots n'avaient guère progressé depuis un an. Quant à General Catalyst, habituellement discret dans les joutes verbales entre fonds, cette incursion dans le marketing viral marque un tournant dans la guerre d'image qui oppose les grandes firmes de la Silicon Valley. Le secteur du venture capital, sous pression alors que la bulle IA s'emballe, ne résiste plus à la tentation de la mise en scène, qu'il s'agisse de robots qui se battent maladroitement ou de vidéos qui règlent des comptes à peine voilés.

💬 Des robots humanoïdes qui trébuchent dans une cage octogonale pendant qu'un mec en blazer à paillettes crie dessus, c'est le meilleur résumé de l'état réel de la robotique en 2025. Un ingénieur d'OpenAI sur place qui admet que ça n'a pas bougé depuis un an, ça dit tout. La hype à 39 milliards pour Figure, les discours de Jensen Huang... bon, sur le papier ça claque, mais le produit, lui, peine encore à lever le bras sans tomber.

RobotiqueOpinion
1 source
RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes
27Robotics & Automation News 

RLWRLD dévoile un modèle fondation axé sur la dextérité pour robots humanoïdes

RLWRLD, une startup spécialisée dans les modèles fondation pour la robotique physique, a dévoilé RLDX-1 lors d'un événement privé baptisé "Dexterity Night in SF". Ce modèle fondation est conçu pour permettre aux robots humanoïdes d'exécuter des tâches à contact riche : préhension d'objets, versement de liquides et utilisation d'outils. L'entreprise a publié des résultats sur trois types de benchmarks : manipulation sur table avec des humanoïdes, manipulation en cuisine et versement de café en conditions réelles. Les métriques précises n'ont pas été rendues publiques au moment de l'annonce, ce qui limite toute évaluation indépendante des performances revendiquées. L'approche "dexterity-first" marque un choix de priorité distinct dans la course aux modèles fondation pour robots. La manipulation fine reste le principal goulot d'étranglement de la robotique humanoïde à usage industriel : la locomotion est largement résolue, mais la préhension d'objets variés dans des environnements non structurés demeure difficile à généraliser. L'inclusion d'évaluations en conditions réelles (café, cuisine) plutôt qu'exclusivement en laboratoire suggère une volonté de démontrer une réduction du sim-to-real gap. Pour un intégrateur ou un COO industriel, un modèle capable de gérer des objets divers sans reprogrammation par tâche représente un levier de productivité concret, à condition que les résultats tiennent hors conditions contrôlées. RLWRLD s'inscrit dans un segment en densification rapide : celui des fournisseurs de couche d'intelligence logicielle pour robots tiers, sans fabriquer leur propre hardware. Physical Intelligence (modèle Pi-0), qui adopte une stratégie similaire, est le concurrent le plus direct. En parallèle, Figure AI (Figure 03), Apptronik, 1X et Boston Dynamics développent des modèles intégrés hardware-logiciel. L'annonce de RLWRLD reste au stade du teaser technique : aucune date de disponibilité commerciale, aucun partenaire constructeur ni client pilote n'a été communiqué.

RobotiqueOpinion
1 source
Vous vous souvenez du robot Figure 03 ? Il travaille maintenant 40 heures d’affilée
28Le Big Data 

Vous vous souvenez du robot Figure 03 ? Il travaille maintenant 40 heures d’affilée

Le robot humanoïde Figure 03, développé par la startup américaine Figure AI, vient de réaliser une démonstration marquante dans le secteur de la logistique : plus de 40 heures de tri de colis en continu, sans interruption ni assistance humaine. Cette performance a été rendue possible grâce à Helix-02, le nouveau réseau neuronal maison qui pilote les capacités du robot durant ces longues sessions de travail. Figure AI précise que le système est capable de détecter ses propres erreurs et de reprendre automatiquement une tâche interrompue. La gestion des batteries est également automatisée, plusieurs unités fonctionnant en relais pour garantir une continuité opérationnelle. Parallèlement, l'entreprise annonce avoir expédié 350 robots depuis son usine BotQ de Sunnyvale, en Californie, à un rythme de production d'environ un robot par heure. Ce qui change avec cette démonstration, c'est le déplacement du curseur dans la robotique industrielle : il ne s'agit plus de prouver qu'un humanoïde peut saisir un objet sans le faire tomber, mais qu'il peut tenir un poste de travail pendant des dizaines d'heures dans un environnement réel. Pour les entrepôts logistiques, la chaîne d'approvisionnement et les usines qui tournent en 3x8, cette endurance autonome représente le véritable verrou technologique à franchir. Un robot capable de travailler 40 heures sans supervision humaine n'est plus un prototype de laboratoire : c'est un candidat sérieux au remplacement de postes pénibles, répétitifs et difficiles à pourvoir. La question économique devient alors très concrète pour les opérateurs logistiques. Figure AI a été fondée en 2022 seulement, par Brett Adcock, et s'est imposée à une vitesse surprenante dans une course dominée par des acteurs établis comme Boston Dynamics ou Tesla, dont le robot Optimus reste une référence dans le secteur. La société a multiplié les démonstrations ces derniers mois, dont une vidéo montrant le Figure 03 ranger une chambre avec des gestes fluides et adaptés à l'environnement, cherchant à distinguer ses robots des démos très contrôlées qui ont souvent entaché la crédibilité du secteur. La prochaine étape sera d'ordre commercial et opérationnel : transformer ces démonstrations en déploiements industriels durables, avec des contrats clients, une maintenance à l'échelle, et des garanties de fiabilité sur le long terme. C'est là que se jouera la vraie bataille entre les prétendants à la robotique humanoïde de masse.

UELes opérateurs logistiques et industriels européens (entrepôts, chaînes d'approvisionnement, usines 3x8) devront intégrer l'émergence de robots humanoïdes autonomes dans leur planification stratégique à moyen terme.

💬 40 heures en continu sans personne dans la boucle, c'est le truc qui change vraiment l'équation. Jusqu'ici les demos robotique c'était "regarde il attrape une balle", là on parle d'endurance en condition réelle, avec gestion autonome des batteries et reprise d'erreur, dans un entrepôt qui tourne. Reste à voir ce que ça donne avec la maintenance à l'échelle, parce qu'un robot par heure sorti d'usine c'est ambitieux, et les promesses de Figure AI méritent encore qu'on les regarde tourner 6 mois avant de signer des contrats.

RobotiqueOpinion
1 source
Evo-Depth : un modèle vision-langage-action (VLA) léger intégrant la perception de profondeur
29arXiv cs.RO 

Evo-Depth : un modèle vision-langage-action (VLA) léger intégrant la perception de profondeur

Des chercheurs ont publié sur arXiv (arXiv:2605.14950, mai 2025) Evo-Depth, un modèle VLA (Vision-Language-Action) de 0,9 milliard de paramètres conçu pour la manipulation robotique. L'architecture repose sur trois composants : un module d'encodage de profondeur implicite (Implicit Depth Encoding Module) qui extrait des représentations de profondeur à partir d'images RGB multi-vues sans capteur dédié, un module d'amélioration spatiale (Spatial Enhancement Module) qui fusionne ces features avec les représentations vision-langage via une modulation adaptative, et une stratégie d'entraînement progressif (Progressive Alignment Training) qui aligne ces représentations enrichies avec la génération d'actions. Sur quatre benchmarks de simulation et en conditions réelles, Evo-Depth affiche le meilleur taux de succès moyen parmi les méthodes comparées, avec la plus faible empreinte mémoire GPU et la fréquence d'inférence la plus élevée. L'enjeu est direct pour les intégrateurs et les équipes robotique : les VLA actuels peinent à raisonner spatialement parce qu'ils traitent des images 2D plates, ce qui crée un écart entre la compréhension sémantique (ce qu'est l'objet) et la compréhension géométrique (où il se trouve exactement). Les approches qui ajoutent des capteurs 3D, LiDAR, caméras RGB-D, résolvent le problème au prix d'une complexité matérielle et d'une sensibilité accrue au bruit de reconstruction. Evo-Depth démontre qu'il est possible d'inférer une représentation de profondeur compacte depuis du RGB seul, à moindre coût de calcul : c'est un argument opérationnel pour des déploiements en environnements non équipés de capteurs de profondeur, typiquement les entrepôts non instrumentés ou les robots de service. Les VLA à base de transformers pré-entraînés, notamment pi0 (Physical Intelligence), OpenVLA, ou encore RoboFlamingo, constituent le paysage concurrentiel direct. Ces modèles atteignent généralement plusieurs milliards de paramètres et requièrent une infrastructure GPU conséquente pour l'inférence embarquée. Evo-Depth se positionne dans le segment "efficient VLA", aux côtés de travaux comme RoboMamba ou SpatialVLA, en pariant sur la compression plutôt que sur la puissance brute. Il s'agit pour l'instant d'un preprint arXiv non évalué par les pairs, sans code ou poids publics annoncés à ce stade : les résultats sont prometteurs, mais la reproductibilité reste à confirmer avant toute intégration industrielle.

RobotiqueActu
1 source
Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA
30Robotics & Automation News 

Ai2 publie un modèle de robotique ouvert conçu pour l'automatisation réelle par IA

L'Allen Institute for AI (Ai2), centre de recherche indépendant basé à Seattle et fondé par Paul Allen en 2014, a publié cette semaine MolmoAct 2, un modèle de fondation robotique open source conçu pour améliorer l'exécution de tâches physiques en environnement réel. Contrairement aux approches précédentes centrées sur des scénarios de laboratoire hautement contrôlés, MolmoAct 2 cible la généralisation à des environnements non structurés, en s'appuyant sur l'architecture multimodale de Molmo, le modèle vision-langage qu'Ai2 avait rendu public en 2024. Le modèle est diffusé sous licence ouverte, avec poids et code disponibles publiquement. L'enjeu pour l'industrie est direct : les modèles de fondation robotiques à diffusion ouverte réduisent la barrière d'entrée pour les intégrateurs et les équipes R&D qui ne disposent pas des ressources pour entraîner des politiques de zéro. MolmoAct 2 s'inscrit dans la lignée des travaux sur les VLA (Vision-Language-Action models), une architecture qui couple perception visuelle, compréhension du langage naturel et génération de commandes motrices. L'ouverture du modèle permet des audits indépendants et une adaptation à des morphologies robotiques variées, ce qui est difficile avec des modèles propriétaires comme GR00T N2 de NVIDIA ou π0 de Physical Intelligence. Ai2 est surtout connu pour ses contributions au NLP (AllenNLP, Semantic Scholar) avant de pivoter vers la robotique incarnée. MolmoAct 2 le place directement en concurrence avec les initiatives open source existantes comme OpenVLA (Berkeley) et les modèles RT-X de Google DeepMind, dans un secteur où Physical Intelligence, Figure AI et 1X Technologies se disputent le leadership sur les déploiements industriels. L'article source étant partiellement tronqué, les métriques de performance (taux de succès, benchmarks sur manipulation) et les éventuels partenariats de déploiement n'ont pas pu être vérifiés.

UELes équipes R&D et intégrateurs européens peuvent accéder librement aux poids et au code de MolmoAct 2, réduisant la dépendance aux modèles propriétaires américains pour le développement de politiques robotiques.

💬 C'est le genre de modèle qu'on attend depuis que tout le monde se bat pour faire des démos en labo. L'ouverture des poids, c'est pas juste un geste de générosité, c'est ce qui permet aux équipes R&D d'adapter le truc à leur propre morphologie robotique sans repartir de zéro. Reste à voir si ça tient face à des environnements vraiment non structurés, parce que "généralisation" c'est un mot qu'on lit souvent dans les papiers, moins souvent dans les entrepôts.

RobotiqueOpinion
1 source
L'IA physique s'approche des usines à mesure que les entreprises testent des robots humanoïdes
31AI News 

L'IA physique s'approche des usines à mesure que les entreprises testent des robots humanoïdes

La société britannique Humanoid s'apprête à déployer ses robots humanoïdes dans les usines de l'équipementier industriel allemand Schaeffler, avec un objectif de 1 000 à 2 000 machines installées sur les sites de production mondiaux du groupe d'ici 2032. Les premières livraisons sont prévues entre décembre 2026 et juin 2027 sur deux sites allemands : Herzogenaurach, où les robots s'occuperont de la manutention de cartons, et Schweinfurt, qui servira de terrain de test à plus grande échelle. En parallèle, Schaeffler deviendra fournisseur privilégié d'Humanoid pour ses actionneurs articulaires jusqu'en 2031, un contrat portant sur plus d'un million de pièces et couvrant plus de la moitié des besoins d'Humanoid pour ses plateformes humanoïdes à roues. Le montant total de l'accord n'a pas été divulgué. De son côté, la startup sud-coréenne RLWRLD collecte activement des données de mouvement auprès de travailleurs dans des hôtels, des entrepôts logistiques et des commerces de détail, notamment au Lotte Hotel Seoul, chez le groupe logistique CJ et dans des magasins de la chaîne japonaise Lawson, afin d'entraîner ses systèmes robotiques sur des gestes réels. Ces déploiements marquent une accélération concrète de l'IA physique dans les environnements industriels et de service, après des années de promesses restées au stade expérimental. La dextérité manuelle, identifiée comme priorité par les ingénieurs de RLWRLD, est au cœur des enjeux : les robots doivent reproduire des gestes précis comme plier des serviettes ou insérer un objet dans une boîte avant de la poser sur un tapis roulant. Pour Schaeffler, l'automatisation de tâches répétitives dans ses lignes de production représente un levier de compétitivité dans un contexte de pression sur les coûts industriels. Pour les startups comme Humanoid et RLWRLD, ces contrats valident leur modèle et leur permettent de financer le développement technologique à travers des déploiements réels. Le secteur se structure rapidement autour d'une échéance commune : 2028, année à laquelle plusieurs acteurs, dont RLWRLD, anticipent un déploiement à grande échelle des robots industriels. Hyundai Motor prévoit d'introduire des humanoïdes Boston Dynamics dans ses usines mondiales dès cette date, en commençant par son site de Géorgie. Samsung Electronics ambitionne quant à lui de transformer l'ensemble de ses sites de fabrication en "usines pilotées par l'IA" d'ici 2030, avec humanoïdes et robots spécialisés en production. Ces annonces suscitent l'inquiétude des syndicats sud-coréens, qui alertent sur les risques pour l'emploi et sur l'érosion des compétences techniques qualifiées. La Confédération coréenne des syndicats appelle gouvernement et employeurs à associer les travailleurs aux décisions, avant que le mouvement ne devienne irréversible.

UELes premiers déploiements de robots humanoïdes sont prévus dès fin 2026 sur des sites allemands de Schaeffler (Herzogenaurach et Schweinfurt), soulevant des questions directes sur l'emploi industriel et la transformation des métiers qualifiés en Europe.

💬 Après des années de prototypes qui trébuchent, on passe enfin à des bons de commande et des dates de livraison. Le détail qui compte chez Schaeffler, c'est qu'ils sont simultanément client d'Humanoid et fournisseur de leurs actionneurs, un deal croisé qui ancre vraiment la relation dans le long terme. 2028 comme horizon commun pour tout le secteur, on verra si les chaînes d'approvisionnement suivent le rythme.

RobotiqueOpinion
1 source
Quels sont les facteurs limitants de la navigation vision-langage ?
32arXiv cs.RO 

Quels sont les facteurs limitants de la navigation vision-langage ?

Une équipe de chercheurs publie StereoNav (arXiv:2605.13328, mai 2026), un framework Vision-Language-Action (VLA) conçu pour la navigation robotique guidée par instructions en langage naturel, domaine désigné sous le terme Vision-and-Language Navigation (VLN). Sur les benchmarks standards R2R-CE et RxR-CE, le système atteint des taux de succès (SR) de 81,1 % et 67,5 %, avec des scores SPL (Success weighted by Path Length) de 68,3 % et 52,0 % respectivement, positionnant StereoNav en état-de-l'art sur RGB égocentrique. Ces performances sont obtenues avec nettement moins de paramètres et de données d'entraînement que les approches concurrentes fondées sur la mise à l'échelle. Des déploiements physiques sur robot dans des environnements non structurés réels confirment une amélioration substantielle de la fiabilité de navigation. La contribution centrale de StereoNav est de remettre en cause le paradigme dominant du scaling: les auteurs soutiennent que le vrai goulot d'étranglement pour combler le sim-to-real gap ne réside pas dans la taille des modèles ou le volume de données d'entraînement, mais dans l'absence d'un ancrage spatial robuste (spatial grounding) et de représentations cross-domaines stables. Ils introduisent en réponse des Target-Location Priors, représentations visuelles persistantes invariantes entre simulation et déploiement réel, qui stabilisent la navigation même lorsque les instructions verbales sont vagues ou incomplètes. La vision stéréo complète le dispositif en construisant une représentation unifiée sémantique et géométrique, résistante aux perturbations visuelles fréquentes en environnement industriel: flou de mouvement, variations d'éclairage, changements de perspective. Pour un intégrateur ou un COO industriel, le signal est clair: atteindre ces performances sans modèles XXL réduit significativement les coûts de déploiement et d'inférence. La VLN s'appuie historiquement sur le benchmark Room-to-Room (R2R) introduit en 2018, mais le passage du simulateur Matterport3D au monde physique restait un défi largement ouvert. StereoNav entre en compétition directe avec des VLA généralistes misent sur l'échelle paramétrique: pi-0 de Physical Intelligence, GR00T N2 de NVIDIA, et Helix de Figure AI. L'architecture proposée choisit une voie opposée, fondée sur l'efficience et les priors géométriques explicites plutôt que la capacité brute. Il s'agit à ce stade d'un résultat académique sans déploiement commercial annoncé, mais les expériences physiques documentées dépassent le registre de la démonstration en laboratoire et constituent une base sérieuse pour des pilotes industriels à venir.

UEL'approche architecture légère de StereoNav pourrait réduire les coûts de déploiement VLA pour les intégrateurs industriels européens, sans nécessiter d'infrastructure de calcul massive.

💬 Le vrai goulot d'étranglement de la navigation robot, c'est pas la taille du modèle. StereoNav le démontre proprement : meilleures perfs sur les benchmarks standards, moins de paramètres, et des déploiements physiques qui tiennent en dehors du labo. Reste à voir si ça tient à l'échelle industrielle, mais l'argument contre le scaling aveugle a enfin des chiffres derrière.

RobotiqueOpinion
1 source
Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels
33arXiv cs.RO 

Quoi ignorer, quoi traiter : affinage par renforcement des modèles VLA robustes aux distracteurs visuels

Des chercheurs ont publié mi-mai 2026 sur arXiv (2605.13105) PAIR-VLA (Paired Action Invariance & Sensitivity for Visually Robust VLA), un framework de fine-tuning par apprentissage par renforcement (RL) destiné à rendre les modèles Vision-Language-Action (VLA) robustes aux variations visuelles à l'heure du déploiement. La méthode ajoute deux objectifs auxiliaires pendant l'optimisation PPO (Proximal Policy Optimization) : un terme d'invariance qui réduit l'écart entre distributions d'actions pour des paires visuellement distinctes mais dont la tâche reste identique (distracteurs différents en arrière-plan, par exemple), et un terme de sensibilité qui encourage des distributions séparables lorsque le changement visuel modifie effectivement la tâche requise (objet cible en pose différente). Évalué sur le benchmark de simulation ManiSkill3 avec deux architectures VLA représentatives, OpenVLA et π₀.₅ de Physical Intelligence, le framework affiche des gains moyens de 16,62 % sur π₀.₅ et 9,10 % sur OpenVLA face à cinq catégories de shifts visuels hors distribution : distracteurs inédits, changements de texture, variations de pose de l'objet cible, changements de point de vue et variations d'éclairage. Ce résultat adresse un angle mort structurel du déploiement industriel des VLA : les récompenses de tâche standard supervisent le succès d'une manipulation, mais ne distinguent pas entre un changement visuel anodin et un changement qui exige une adaptation comportementale de la part du robot. PAIR-VLA convertit les variantes visuelles en signal comportemental au moment du RL, et non en simple augmentation d'observations. L'aspect le plus saillant est la généralisation croisée relevée en ablations : une guidance d'invariance apprise sur des variantes de distracteurs et de textures se transfère aux shifts de pose et d'éclairage, ce qui suggère que le framework capture quelque chose de structurel dans la distinction pertinent/non-pertinent plutôt qu'un surapprentissage de domaine. Le contexte est celui d'une course intense autour des VLA pour la manipulation robotique. OpenVLA (UC Berkeley, 2024) s'est imposé comme référence open-source ; π₀ et π₀.₅ de Physical Intelligence (San Francisco) visent des applications industrielles à plus grande échelle, tandis que les travaux de Google DeepMind sur RT-2, et les modèles Octo et RoboFlamingo, densifient le paysage concurrent. PAIR-VLA est pour l'instant un preprint sans déploiement annoncé ni validation sur robot physique, ce qui constitue la limite principale à noter. La méthode s'applique en post-training RL au-dessus de checkpoints VLA existants sans réentraînement complet, avantage pratique non négligeable pour les intégrateurs qui s'appuient sur des modèles publics. La confirmation que ces gains en simulation résistent au reality gap reste l'étape décisive à venir.

RobotiqueOpinion
1 source
Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)
34arXiv cs.RO 

Guide, Pense, Agit : le raisonnement incarné interactif dans les modèles vision-langage-action (VLA)

Des chercheurs ont déposé sur arXiv (arXiv:2605.13632, mai 2026) GTA-VLA (Guide, Think, Act), un framework Vision-Language-Action interactif qui permet d'injecter des indices visuels explicites dans le raisonnement d'un robot avant l'exécution. Contrairement aux VLA classiques qui appliquent un mapping direct perception-action appris sur données d'entraînement, GTA-VLA introduit une étape de raisonnement spatial conditionné : l'opérateur peut fournir des points d'affordance, des boîtes englobantes ou des trajectoires dessinées sur l'image, que le modèle intègre dans une chaîne de pensée (Chain-of-Thought, CoT) avant de générer les commandes motrices. Une tête d'action légère ("reactive action head") assure ensuite l'exécution. Sur le benchmark SimplerEnv WidowX en conditions in-domain, le système atteint un taux de succès de 81,2 %, présenté comme état de l'art sur cette tâche. Les auteurs rapportent qu'une seule interaction visuelle suffit à améliorer substantiellement les performances sous perturbations visuelles ou ambiguïtés spatiales hors distribution (OOD). Ce résultat pointe une limite structurelle des VLA actuels : leur fragilité face aux shifts de distribution, c'est-à-dire dès que l'environnement de déploiement diffère des données d'entraînement. Les approches CoT existantes exposent le raisonnement intermédiaire mais restent aveugles à la guidance humaine, rendant la reprise sur erreur difficile sans réentraînement. GTA-VLA propose une troisième voie : maintenir l'autonomie du modèle tout en ouvrant un canal de correction humain minimal, ciblé sur l'espace visuel. Pour un intégrateur industriel, c'est un argument concret contre le demo-to-reality gap : si le robot échoue, l'opérateur désigne visuellement l'objet cible plutôt que de réécrire une instruction texte. La métrique de 81,2 % sur SimplerEnv mérite toutefois d'être contextualisée : ce benchmark reste un environnement simulé contrôlé, et aucun résultat sur hardware réel n'est communiqué dans le papier. GTA-VLA s'inscrit dans l'effervescence des architectures VLA depuis Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou Helix de Figure AI, qui ont tous cherché à coupler raisonnement de haut niveau et exécution robotique fluide. L'apport spécifique est de rendre ce raisonnement "steerable" via des priors spatiaux explicites, là où Pi-0 ou GR00T N2 restent essentiellement autonomes une fois déployés. Publié en preprint non encore évalué par des pairs, le papier ne mentionne ni déploiement sur plateforme physique ni partenariats industriels annoncés. Les prochaines étapes naturelles seraient une validation sur manipulateurs réels (WidowX physique, Franka) et une évaluation de la robustesse de l'interface de guidance en conditions industrielles réelles.

RobotiqueOpinion
1 source
SECOND-Grasp : préhension dextérique guidée par le contact sémantique
35arXiv cs.RO 

SECOND-Grasp : préhension dextérique guidée par le contact sémantique

Des chercheurs ont publié en mai 2025 sur arXiv (2605.13117) SECOND-Grasp (SEmantic CONtact-guided Dexterous Grasping), un cadre unifié permettant à des mains robotiques multi-doigts d'adapter leurs stratégies de préhension à des consignes en langage naturel tout en garantissant la stabilité physique du contact. Le pipeline enchaîne un raisonnement vision-langage pour identifier les zones de contact probables, une segmentation multi-vues, puis un module baptisé SGCR (Semantic-Geometric Consistency Refinement) qui raffine ces prédictions par cohérence inter-vues et suppression des régions géométriquement invalides, produisant des cartes de contact 3D exploitables. Ces cartes alimentent un apprentissage de politique via cinématique inverse, entraîné sur le dataset DexGraspNet. Sur des catégories d'objets vus en entraînement, le système atteint 98,2 % de taux de succès au levage ; sur des catégories non vues, 97,7 % ; la préhension guidée par l'intention progresse de 12,8 % et 26,2 % respectivement face aux baselines, validé sur Shadow Hand et Allegro Hand. Le résultat le plus significatif est précisément cette quasi-absence de dégradation entre catégories vues et non vues : cela suggère que le couplage sémantique-géométrique produit des représentations suffisamment abstraites pour généraliser hors distribution, un verrou classique du dexterous grasping. L'intégration native du langage dans la planification de contact, plutôt qu'en couche de sélection aval, place SECOND-Grasp dans la lignée des architectures VLA appliquées à la manipulation fine, comme Pi-0 (Physical Intelligence) ou les travaux récents de DeepMind. Pour un décideur industriel, la promesse est lisible : un système capable de comprendre où et comment saisir selon une tâche verbalisée, sans ré-entraînement par catégorie d'objet. Les métriques restent toutefois issues de benchmarks contrôlés ; le transfert sim-to-real en environnement industriel non structuré n'est pas encore démontré. Le dexterous grasping est un chantier ouvert depuis les années 1990, longtemps fragmenté entre approches analytiques (calcul de wrench space) et méthodes data-driven. L'essor des modèles vision-langage a rouvert la question en conditionnant la préhension par le langage naturel. Les concurrents directs dans cet espace incluent GraspGPT, FoundationGrasp et les travaux de Stanford sur DexArt. En Europe, Enchanted Tools (robot Miroki) explore la manipulation expressive mais n'a pas publié de résultats comparables sur le grasping structuré. La prochaine étape naturelle pour SECOND-Grasp serait une validation sur plateforme physique en scène non contrôlée, potentiellement intégrée dans un pipeline humanoïde ou sur bras industriel polyvalent.

RobotiqueOpinion
1 source
Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes
36Le Big Data 

Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes

Fondée en 2016 à Hangzhou par Wang Xingxing, Unitree Robotics s'est imposée comme l'un des acteurs les plus actifs de la robotique mobile en Chine. Partie de travaux sur la locomotion quadrupède, l'entreprise a rapidement commercialisé une gamme de robots destinés à la recherche et à l'ingénierie, dont les modèles Laikago et AlienGo, conçus pour valider le contrôle moteur et la stabilité dynamique. Elle a ensuite lancé la gamme Go, avec le Go1 puis le Go2, des robots quadrupèdes intégrant navigation autonome, perception multi-capteurs et traitement embarqué en temps réel. Ces machines sont capables d'évoluer sur des surfaces variées, en intérieur comme en extérieur, et d'adapter leur déplacement à des environnements non structurés. Unitree développe également des robots humanoïdes centrés sur la locomotion bipède, élargissant ainsi son périmètre au-delà des quatre pattes. L'impact de ces développements est double. D'un côté, Unitree a contribué à démocratiser l'accès aux robots quadrupèdes en abaissant significativement les coûts par rapport aux solutions concurrentes, ce qui a permis à des laboratoires universitaires, des équipes de recherche et des développeurs indépendants d'expérimenter à moindre coût sur des plateformes matérielles réelles. De l'autre, la qualité des modèles Go en termes de stabilité et de perception a accéléré les travaux sur la locomotion autonome et la navigation en environnement réel, deux briques fondamentales pour les futures applications industrielles et urbaines de la robotique mobile. Le contexte dans lequel Unitree s'est développée est celui d'une compétition mondiale intense autour de la robotique incarnée, avec Boston Dynamics comme référence technique historique côté américain et un écosystème chinois en pleine montée en puissance soutenu par des financements publics et privés massifs. Wang Xingxing a choisi une approche pragmatique, privilégiant l'intégration matérielle maîtrisée et l'accessibilité commerciale plutôt que la démonstration spectaculaire. Cette stratégie a permis à Unitree de construire une base d'utilisateurs réelle dans la recherche et l'éducation, tout en préparant le terrain vers des marchés plus larges comme la surveillance, l'inspection industrielle ou l'assistance en environnement urbain. Le virage vers les humanoïdes, visible dans les démonstrations récentes, s'inscrit dans la même logique : capitaliser sur l'expertise en locomotion pour adresser les usages où la forme bipède devient un avantage opérationnel.

RobotiqueOpinion
1 source
L'IA physique et la robotique autonome s'imposent dans le grand public avec une conférence à San Jose
37AI News 

L'IA physique et la robotique autonome s'imposent dans le grand public avec une conférence à San Jose

La Physical AI Expo North America se tiendra les 18 et 19 mai 2026 au San Jose McEnery Convention Center, en Californie. L'événement rassemble durant deux jours des ingénieurs, des chercheurs et des dirigeants d'entreprises autour d'un thème central : l'intégration de l'intelligence artificielle dans des systèmes physiques autonomes. Parmi les intervenants confirmés figurent Leslie Karpas, directeur mondial de la Physical AI chez NVIDIA, Arne Stoschek, vice-président en charge de l'IA et de l'autonomie chez Airbus Acubed, Vinesh Sukumar, vice-président IA chez Qualcomm, Sungho Kim, PDG du Hyundai Global Software Center, ainsi que Naresh Dulam, vice-président senior du génie logiciel chez JPMorgan. Le programme est structuré en deux journées distinctes : la première consacrée à la stratégie IA, à l'infrastructure et aux données à grande échelle, la seconde dédiée à la robotique, aux systèmes autonomes et au passage effectif des prototypes à la production industrielle. Ce type de conférence traduit une inflexion majeure dans l'industrie technologique : l'IA n'est plus cantonnée aux logiciels et aux interfaces conversationnelles, elle s'incarne désormais dans des machines capables de percevoir leur environnement, de raisonner et d'agir de manière autonome. Pour les secteurs de la fabrication, de la logistique, de l'automobile et de la défense, l'enjeu n'est plus de démontrer la faisabilité des systèmes intelligents, mais d'en organiser le déploiement à grande échelle. Les entreprises investissent massivement pour résoudre des problèmes concrets : fiabilité des systèmes en conditions réelles, scalabilité de l'infrastructure, sécurité des interactions homme-machine et retour sur investissement mesurable. La présence de JPMorgan au côté de NVIDIA ou d'Airbus illustre que l'IA physique dépasse désormais les seuls secteurs de la robotique et de l'automobile pour toucher la finance et les services. Cette évolution s'inscrit dans une dynamique plus large qui s'est accélérée ces dix-huit derniers mois. Après une première vague dominée par les grands modèles de langage et les outils génératifs, l'industrie de l'IA se tourne vers ce que certains appellent la "couche physique" : des robots d'entrepôt, des véhicules autonomes, des bras industriels pilotés par des modèles de perception et de décision en temps réel. Des acteurs comme NVIDIA avec sa plateforme Jetson, Qualcomm avec ses puces embarquées, ou des constructeurs comme Hyundai investissent pour capter ce marché encore en structuration. La difficulté centrale reste le passage du prototype au déploiement opérationnel, freiné par des défis d'intégration, de certification et de gestion des données en environnement non contrôlé. La Physical AI Expo se positionne comme un espace de coordination entre ces différentes parties prenantes, à un moment où les standards industriels et les modèles économiques restent encore largement à définir.

UELa participation d'Airbus Acubed illustre que les industriels européens s'engagent dans la structuration de l'IA physique, dont les standards en cours de définition affecteront directement les secteurs manufacturiers, logistiques et aéronautiques européens.

RobotiqueOpinion
1 source
SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données
38arXiv cs.RO 

SEVO : observation virtuelle enrichie sémantiquement pour la manipulation VLA robuste par éclairage actif et collecte de données

Des chercheurs publient sur arXiv (arXiv:2605.11114, mai 2025) une méthode baptisée SEVO (Semantic-Enhanced Virtual Observation) visant à résoudre l'un des problèmes les plus documentés des politiques VLA (Vision-Language-Action) et d'apprentissage par imitation : leur effondrement dès qu'elles quittent l'environnement d'entraînement. Sans modification de l'architecture du modèle, SEVO agit sur le flux caméra RGB brut via trois mécanismes combinés : des caméras fixes sur le corps du robot dont les champs de vision couvrent l'intégralité de l'espace de manipulation, un éclairage actif en spectre rouge qui normalise physiquement l'apparence des objets, et une segmentation YOLO en temps réel qui produit une représentation sémantique invariante au fond. Les tests portent sur des bouteilles d'eau transparentes -- objets délibérément difficiles car ils se confondent visuellement avec leur environnement -- dans une tâche de pick-and-place répétée sur deux plateformes mobiles. Avec SEVO, la politique ACT atteint 95 % de succès en environnement d'entraînement et 85 % en environnement inédit ; SmolVLA atteint 83 % et 75 % respectivement. Sans SEVO, ces mêmes politiques plafonnent à 75 %/70 % en entraînement et s'effondrent à 30-35 % hors contexte. Ces résultats remettent directement en cause le paradigme dominant qui consiste à compenser le manque de robustesse par une mise à l'échelle des modèles. Les praticiens de la communauté open source rapportaient déjà des taux de transfert quasi nuls avec les benchmarks ACT et SmolVLA standards, pourtant affichant des scores élevés en laboratoire. SEVO démontre que la conception de l'observation -- ce que le robot "voit" et comment -- combinée à une diversification systématique des données de téléopération (variations d'éclairage, de fond, d'objets distracteurs) constitue le levier de généralisation le plus efficace, bien devant le choix du modèle. Pour un intégrateur ou un COO industriel, l'implication est directe : un robot à bas coût bien "observé" et entraîné sur des données variées surpasse un modèle plus sophistiqué entraîné dans des conditions homogènes. Le contexte est celui de l'essor des toolchains communautaires autour des VLA, notamment les frameworks lekiwi et SO-101 sur lesquels ACT et SmolVLA sont régulièrement évalués. La "sim-to-real gap" et le "domain shift" sont des problèmes ouverts depuis des années dans la manipulation robotique ; des approches comme domain randomization ou data augmentation tentaient déjà d'y répondre par le calcul. SEVO prend le parti inverse : agir sur le hardware d'observation et le protocole de collecte plutôt que sur l'architecture ou la puissance de calcul. Les suites logiques de ces travaux incluent l'extension à des tâches multi-étapes, à des objets plus variés, et potentiellement à des bases mobiles commerciales -- un terrain sur lequel des acteurs comme Boston Dynamics (Spot), AgileX ou les startups européennes de manipulation à coût réduit sont directement concernés.

UESmolVLA, développé par HuggingFace (entreprise franco-américaine), est directement évalué dans cette étude, les équipes européennes travaillant sur la manipulation VLA disposent d'un levier hardware-protocole immédiatement applicable pour multiplier leurs taux de succès hors environnement d'entraînement, sans changer d'architecture ni investir dans des modèles plus lourds.

💬 J'attendais quelqu'un pour le montrer proprement : le domain shift, c'est pas un problème de modèle, c'est un problème d'observation. SEVO passe de 30 à 85 % de succès hors environnement d'entraînement en contrôlant l'éclairage, les angles de caméra et la segmentation temps réel, sans changer une ligne d'architecture. Un robot bas coût bien observé bat un modèle sophistiqué entraîné dans une bulle.

RobotiqueOpinion
1 source
RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme
39arXiv cs.RO 

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Une équipe de chercheurs présente RIO (Robot I/O), un framework Python open source publié en mai 2026 (arXiv:2605.11564), conçu pour standardiser les flux de travail en apprentissage robotique multi-plateformes. RIO propose des composants modulaires couvrant le contrôle robot, la téleopération, la mise en forme des données, la configuration des capteurs et le déploiement de politiques d'action (policies). Le framework a été validé sur trois morphologies distinctes, bras unique, bimanuel et humanoïde, sur quatre plateformes matérielles combinant divers préhenseurs et caméras. À partir de données collectées par téleopération via RIO, l'équipe a affiné des VLA (Vision-Language-Action models) de pointe, dont π0.5 (Physical Intelligence) et GR00T N2 (NVIDIA), sur des tâches domestiques : saisir-et-déposer, plier du linge et récurer un bol. Le problème central que RIO adresse est structurel et bien documenté dans la communauté : le code robotique est massivement spécifique à chaque configuration matérielle, ce qui rend le partage de données, de modèles et de pipelines entre équipes extrêmement coûteux en temps de reconfiguration. Ce verrou ralentit concrètement la progression vers des capacités cross-embodiment, c'est-à-dire des robots généralistes capables de s'adapter à différentes morphologies sans recodage complet. En proposant des abstractions qui découplent la logique de contrôle du matériel sous-jacent, RIO réduit ce surcoût et ouvre la possibilité de mutualiser des datasets entre utilisateurs disposant de plateformes hétérogènes. Pour les équipes de R&D, cela signifie que des données collectées sur un bras Franka pourraient alimenter l'entraînement d'un humanoïde, sous réserve que les abstractions tiennent à l'échelle réelle. La course aux VLA généralistes s'est accélérée depuis 2024 avec π0 de Physical Intelligence, GR00T de NVIDIA, Helix de Figure AI et OpenVLA de la communauté open source, chacun souffrant du même écueil d'intégration matérielle. RIO s'inscrit dans un courant de standardisation analogue à ce que ROS a accompli pour le middleware, mais centré sur la couche données et déploiement de policies. Des projets concurrents comme RLDS (Google DeepMind), LeRobot (Hugging Face) ou le protocole DROID tentent également de résoudre cette fragmentation. RIO se distingue par sa légèreté et son focus explicite sur le déploiement VLA multi-morphologie. Aucun partenariat industriel ni déploiement commercial n'est annoncé : il s'agit d'une publication académique avec mise en open source intégrale, site de référence à robot-i-o.github.io.

UELes laboratoires européens de robotique travaillant sur le cross-embodiment ou le fine-tuning de VLA pourraient adopter RIO pour mutualiser données et pipelines entre plateformes hétérogènes, réduisant le coût de reconfiguration.

RobotiqueActu
1 source
Modèles d'action du monde : la prochaine frontière de l'IA incarnée
40arXiv cs.RO 

Modèles d'action du monde : la prochaine frontière de l'IA incarnée

Une équipe de chercheurs a publié le 16 mai 2026 sur arXiv (réf. 2605.12090) la première revue systématique d'un paradigme émergent qu'ils formalisent sous le nom de World Action Models (WAMs). Là où les modèles Vision-Language-Action (VLA) actuels, comme Pi-0 de Physical Intelligence, GR00T N2 de NVIDIA ou OpenVLA, apprennent des mappings réactifs observation-vers-action, les WAMs modélisent explicitement la dynamique physique de l'environnement. Concrètement, un WAM génère une distribution jointe sur les états futurs et les actions, plutôt que sur les actions seules. Les auteurs proposent une taxonomie structurée en deux grandes familles : les WAMs en cascade (Cascaded WAMs), où un modèle prédictif alimente un planificateur d'action en pipeline, et les WAMs joints (Joint WAMs), où prédiction d'état et génération d'action sont coappris dans une architecture unifiée, avec des subdivisions selon la modalité de génération, le mécanisme de conditionnement et la stratégie de décodage d'action. L'enjeu industriel est significatif. Les VLA purs souffrent d'un déficit fondamental : ils réagissent aux observations sans anticiper les conséquences physiques de leurs actions, ce qui limite leur robustesse hors distribution et leur capacité à planifier sur des horizons longs. L'intégration d'un world model permet en théorie de simuler mentalement les effets d'une action avant de l'exécuter, un prérequis pour la manipulation dextère complexe, la navigation en environnement non structuré, ou la récupération après erreur. C'est précisément le gap sim-to-real et le reality gap des démos en laboratoire que ce paradigme cherche à combler à l'échelle. Pour un intégrateur ou un COO industriel, cela signifie potentiellement des robots plus fiables sur des tâches non scriptées, sans retraining complet à chaque variation de contexte. Ce travail s'inscrit dans une compétition intense entre Physical Intelligence (Pi-0, financement de 400 M$), NVIDIA (GR00T N2, Isaac Lab), Boston Dynamics, Figure AI et des acteurs académiques comme Berkeley et Stanford. Côté données, les auteurs identifient quatre sources majeures : la télé-opération robot, les démonstrations humaines portables (caméras égo-centriques), la simulation et les vidéos internet à grande échelle, chacune avec ses biais propres. La revue pointe aussi l'absence de benchmarks standardisés pour évaluer la plausibilité physique et le bon sens commonsense des WAMs, un frein à la comparaison rigoureuse. Les prochaines étapes identifiées incluent des protocoles d'évaluation unifiés et l'extension vers des tâches de manipulation longue durée en conditions réelles.

RobotiqueOpinion
1 source
NavOL : une politique de navigation par apprentissage par imitation en ligne
41arXiv cs.RO 

NavOL : une politique de navigation par apprentissage par imitation en ligne

NavOL est une approche d'apprentissage en ligne par imitation pour les politiques de navigation robotique, présentée dans un preprint arXiv (2605.11762) en mai 2026. Le système repose sur une politique de diffusion préentraînée qui projette des observations locales vers des waypoints futurs. Son apprentissage s'organise en boucle rollout-mise à jour : en phase de rollout, la politique agit dans un simulateur et interroge un planificateur global disposant d'un accès privilégié à l'environnement complet pour obtenir des segments de trajectoire optimaux comme labels de référence ; en phase de mise à jour, la politique s'entraîne sur ces paires observation-trajectoire collectées en ligne. Construit sur IsaacLab avec rendu parallèle haute fidélité et randomisation de domaine (pose de caméra, paires départ-arrivée), le système s'entraîne simultanément sur 50 scènes sur 8 GPU RTX 4090, collectant plus de 2 000 trajectoires nouvelles par heure, chacune comptant en moyenne plus de 400 pas. Les auteurs introduisent également un benchmark de navigation visuelle en intérieur avec des positions de départ et d'arrivée prédéfinies, conçu pour évaluer la généralisation zéro-shot. NavOL s'attaque à deux blocages classiques de la navigation robotique autonome : le décalage de distribution de l'imitation hors ligne, qui génère des erreurs composées lors du déploiement réel, et la nécessité de concevoir des fonctions de récompense pour l'apprentissage par renforcement. En entraînant la politique sur ses propres rollouts explorés plutôt que sur un corpus statique, le système réduit ce gap de manière plus systématique. Le volume de données généré automatiquement (2 000+ trajectoires/heure) et les gains de performance cohérents sur le benchmark NavDP ainsi que sur le benchmark propriétaire des auteurs indiquent que l'approche pourrait remplacer des pipelines de collecte de données expertes coûteux pour les intégrateurs travaillant sur la navigation en intérieur structuré. Les politiques de navigation visuelle pour robots mobiles constituent un champ actif, avec des approches récentes comme les VLA (Vision-Language-Action models) et les politiques de diffusion qui cherchent à généraliser sans reward engineering. NavOL s'inscrit dans cette dynamique en exploitant IsaacLab, le simulateur d'NVIDIA, pour un entraînement massivement parallèle requérant 8 GPU RTX 4090 haut de gamme. Un point de vigilance : les expériences en conditions réelles mentionnées dans le papier restent peu détaillées dans le résumé, et la performance en simulation peut diverger significativement des résultats terrain, un écart (sim-to-real gap) que ce type d'approche prétend atténuer sans nécessairement le supprimer. Les prochaines étapes naturelles concerneraient l'évaluation sur des environnements extérieurs plus ouverts et l'intégration avec des VLA pour des tâches impliquant un raisonnement sémantique plus riche.

RobotiqueActu
1 source
DexTwist : téléopération en réalité mixte pour la saisie en torsion avec une main dextérique
42arXiv cs.RO 

DexTwist : téléopération en réalité mixte pour la saisie en torsion avec une main dextérique

Une équipe de recherche a publié DexTwist, un framework de téléopération dextre via réalité mixte (MR) ciblant les manipulations rotationnelles en contact riche : ouverture de bouchons, rotation de clés, vissage de boulons. L'article, déposé sur arXiv (arXiv:2605.12182) en mai 2026, documente un échec connu des approches classiques de retargeting : minimiser l'erreur d'angle articulaire ou de position des doigts ne suffit pas quand les morphologies humaine et robot divergent. DexTwist opère en trois étapes - détection d'une prise tripode (pouce-index-majeur), estimation en temps réel de l'axe hélicoïdal (screw axis) et de la magnitude de torsion souhaitée, puis raffinement résiduel dans l'espace articulaire minimisant quatre termes simultanément : angle atteint, cohérence de l'axe, fermeture des doigts, stabilité tripode. Les expériences en simulation et en conditions réelles montrent des gains en suivi angulaire et en stabilité de l'axe par rapport à une baseline de retargeting vectoriel classique. Le problème central est l'embodiment gap : les différences de longueurs de segments, d'axes articulaires et de géométrie des phalanges distales entre main humaine et main robot provoquent un glissement tangentiel des doigts plutôt qu'une rotation stable de l'objet, phénomène désigné comme screw axis drift. Ce glissement dégrade directement la qualité des démonstrations collectées pour l'imitation learning ou les modèles VLA (Vision-Language-Action). Or, la téléopération MR est l'une des rares méthodes scalables pour générer des données de manipulation dextre à volume, et sa fiabilité sur les tâches rotationnelles conditionne directement la qualité des datasets sur lesquels reposent les futurs modèles généraux. La téléopération MR pour les mains robotiques s'est imposée ces dernières années comme alternative aux gants haptiques (DEXMO, SenseGlove) et à la capture de mouvement, avec un déploiement moins contraignant. Des travaux antérieurs comme DexPilot ou AnyTeleop avaient posé les bases du retargeting générique, sans adresser spécifiquement les mouvements de vissage. DexTwist se positionne dans un espace qui inclut également les approches par renforcement pur ou les diffusion policies pour mains dextres commerciales (Allegro, Shadow Hand, LEAP Hand). L'étape suivante naturelle serait d'intégrer ce retargeting fonctionnel dans un pipeline d'imitation learning complet afin de vérifier si la meilleure qualité de démonstration améliore effectivement les politiques autonomes en aval - un gap sim-to-real que l'article n'adresse pas encore.

RobotiqueOpinion
1 source
Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs
43IEEE Spectrum Robotics 

Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs

Hello Robot annonce Stretch 4, une nouvelle version de son robot domestique non-humanoïde, conçu pour des déploiements pilotes réels dans des environnements résidentiels. La rupture principale avec les versions précédentes est l'intégration d'une base omnidirectionnelle : le robot peut désormais se translater dans n'importe quelle direction sans avoir à pivoter au préalable, grâce à des roues omnidirectionnelles initialement développées pour les fauteuils roulants motorisés, après six mois de développement dédié. La tête pan-tilt d'origine est remplacée par une suite sensorielle plus complète offrant un champ de vision nettement élargi : deux lidars hémisphériques, des caméras Luxonis pour la vision et la navigation, et une caméra de profondeur montée sur le poignet pour la manipulation. L'architecture de calcul repose sur un Intel NUC 15 pour le système principal, complété par un NVIDIA Jetson Orin NX mis à disposition des chercheurs pour le traitement visuel et l'IA. Le robot embarque des capacités autonomes de base (cartographie, navigation, autocharge) ainsi que des fonctionnalités de démonstration comme la saisie autonome d'objets. Aucun prix public n'a été communiqué, mais Hello Robot positionne Stretch 4 comme accessible comparé aux humanoïdes actuels. Ce lancement illustre une thèse alternative à la course aux humanoïdes : Aaron Edsinger (CEO) et Charlie Kemp (CTO) misent sur la sécurité, le coût maîtrisé et la praticabilité réelle plutôt que sur la morphologie anthropomorphe. La philosophie de Hello Robot sur l'autonomie tranche nettement avec le secteur : plutôt que de collecter massivement des données en espérant qu'une autonomie commercialement viable en émergera, l'entreprise conserve un opérateur humain dans la boucle, à des niveaux variables allant du contrôle direct à la supervision pure. Cette posture est plus prudente mais aussi plus immédiatement intégrable dans des contextes réels, notamment pour des intégrateurs ou des opérateurs non spécialisés. Sur le plan sensoriel, Hello Robot a renoncé à l'approche "Tesla" (multitude de caméras bon marché) au profit d'une logique "Waymo" : des données plus riches et fiables pour un comportement plus sûr et intelligent, au détriment potentiel du coût. Stretch existe depuis plusieurs années comme plateforme de recherche, avec une communauté active dans les laboratoires universitaires. Hello Robot a été fondé sur le principe du robot minimaliste, et Stretch 4 est le premier modèle explicitement conçu pour franchir le seuil vers des déploiements opérationnels. Le secteur de la robotique humanoïde est actuellement dominé par des acteurs très capitalisés comme Figure (Figure 03), Tesla (Optimus Gen 3), Physical Intelligence (Pi-0) et NVIDIA (GR00T N2), tous positionnés sur des cas d'usage industriels ou logistiques. Hello Robot occupe une niche différente : le marché domestique et de service, avec une approche morphologiquement sobre et des coûts structurellement plus bas. La prochaine étape annoncée est une phase de déploiements pilotes en environnement résidentiel réel, destinée à qualifier les conditions de passage à l'échelle.

UELes laboratoires de recherche européens utilisant la plateforme Stretch pourraient bénéficier de cette nouvelle version, mais aucun déploiement ou partenariat européen n'est annoncé.

RobotiqueOpinion
1 source
Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs
44Robotics Business Review 

Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs

Hello Robot a annoncé le 12 mai 2026 la disponibilité immédiate de Stretch 4, la quatrième génération de sa plateforme de manipulation mobile à usage général, au prix de 29 950 dollars. Le robot conserve l'architecture distinctive de la gamme, bras télescopique, base omnidirectionnelle, mais intègre une refonte complète selon les termes de Charlie Kemp, co-fondateur et CTO. L'enveloppe sensorielle est significativement enrichie : deux lidars 3D hémisphériques, trois caméras haute résolution, six capteurs laser linéaires et des caméras fisheye RGB à obturateur global couvrent l'environnement à 360 degrés, réduisant drastiquement les angles morts même lorsque le bras est en extension. Une caméra centrale haute résolution surveille spécifiquement l'espace de travail du préhenseur pour les tâches de manipulation fine. La vitesse du bras, du lift et de la base a été doublée par rapport à Stretch 3, et la portée totale étendue de 10 %. Un nouveau système d'alimentation permet jusqu'à huit heures d'autonomie, avec station de recharge autonome intégrée. Ce qui distingue Stretch 4 dans le segment des robots de service tient moins aux gains de vitesse qu'à sa philosophie sensorielle, explicitement calquée sur l'approche "sensor-rich" de Waymo pour le véhicule autonome. Aaron Edsinger, CEO, l'exprime sans détour : les robots mobiles actuels sont "relativement aveugles" aux personnes et aux obstacles dynamiques, ce qui représente un frein réel au déploiement en environnements non structurés, domiciles, établissements de santé. Pour les intégrateurs et les équipes de recherche qui ciblent ces contextes, Stretch 4 offre une base perceptuelle nettement plus robuste que la génération précédente. La hausse de taille répond à un besoin fonctionnel concret : accompagner des utilisateurs en fauteuil roulant motorisé, dont la tête se situe plus haut. La conception reste délibérément orientée sécurité intrinsèque, masse basse, absence d'actionneurs luttant contre la gravité, sans prétendre à une certification formelle, ce qu'Edsinger reconnaît explicitement. Hello Robot a été fondée en 2017 et a commercialisé Stretch à partir de 2020. La plateforme compte aujourd'hui plus de mille utilisateurs dans vingt-trois pays, principalement des laboratoires académiques et des équipes de R&D industrielle. Stretch 3 avait remporté le RBR50 Robotics Innovation Award 2025 dans la catégorie "Robots for Good". La stratégie open-source de Hello Robot la positionne différemment des acteurs humanoïdes (Figure, Agility, Apptronik) ou des robots de service propriétaires (Boston Dynamics Spot). Dans le segment des manipulateurs mobiles à bras unique destinés à la recherche, la concurrence directe inclut Fetch Robotics (racheté par Zebra), le PR2 en voie d'extinction, et les nouvelles plateformes de Robotics+AI startups comme Kepler. Stretch 4 cible une niche précise, recherche en IA physique, assistance aux personnes à mobilité réduite, où le rapport prix/polyvalence sensorielle constitue l'argument principal. Aucune timeline de certification sécurité n'a été communiquée.

RobotiqueActu
1 source
MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale
45arXiv cs.RO 

MVB-Grasp : filtrage par boîte de volume minimal des saisies par diffusion pour la manipulation frontale

Une équipe de chercheurs a publié sur arXiv (référence 2505.09672) MVB-Grasp, un système de saisie robotique conçu pour le bras Unitree Z1, un manipulateur à 6 degrés de liberté (DOF) positionné en configuration frontale, c'est-à-dire face à l'objet plutôt qu'en vue surplombante. Le dispositif expérimental associe une caméra Intel RealSense D405, un détecteur d'objets YOLOv8 et le générateur de prises GraspGen basé sur la diffusion. L'innovation centrale est un filtre géométrique fondé sur la boîte englobante de volume minimal orientée (MVBB) : en analysant les normales des faces de cette boîte en temps O(N), le système élimine les candidats de saisie qui traverseraient la table ou s'aligneraient mal avec les faces accessibles de l'objet. Une fonction de re-scoring combine le score du discriminateur appris et l'alignement géométrique avec un coefficient alpha fixé à 0,85. Sur 81 épisodes de simulation MuJoCo (cylindre, boîte asymétrique, bouteille d'eau), MVB-Grasp atteint 59,3 % de succès contre 24,7 % pour GraspGen seul, soit un gain de 2,4x, confirmé ensuite en conditions réelles sans nécessiter de ré-entraînement du modèle. Ce résultat est notable parce qu'il pointe un angle mort structurel de la recherche en manipulation : les benchmarks standards comme GraspNet-1Billion ou YCB-Video sont quasi-exclusivement conçus pour des caméras en vue de dessus sur des manipulateurs haut de gamme à large espace de travail. Or une part croissante des déploiements industriels et de service implique des bras montés sur des piédestaux fixes ou des AMR, en saisie frontale, avec des contraintes cinématiques sévères. Le fait que le gain soit obtenu sans ré-entraînement, uniquement par un filtre géométrique injecté en post-traitement, démontre que le "sim-to-real gap" dans ces configurations n'est pas seulement un problème de données mais aussi de biais dans la sélection des poses candidates. C'est une piste directement exploitable pour les intégrateurs qui déploient des manipulateurs à bas coût dans des cellules contraintes. Le Unitree Z1 est un bras compact vendu autour de 4 000 à 6 000 dollars, souvent utilisé en recherche académique comme alternative économique aux UR5 ou Franka Panda. La diffusion appliquée à la génération de prises est un axe actif depuis 2022-2023 (GraspGen, SE(3)-DiffusionFields, DexGraspNet 2.0), mais la majorité des travaux optimisent pour des postures overhead. Côté concurrents directs sur les manipulateurs frontaux contraints, les approches d'Enchanted Tools et les travaux issus du LAAS-CNRS en France explorent des contraintes similaires, bien que sur des plateformes différentes. La prochaine étape logique pour cette équipe serait d'étendre le protocole à des objets articulés ou transparents, et d'intégrer le filtre MVBB dans une boucle de planification réactive plutôt qu'en sélection statique de candidats.

UELe filtre MVBB est directement exploitable sans ré-entraînement par des intégrateurs européens déployant des manipulateurs en configuration frontale sur AMR ou piédestaux fixes, et s'inscrit dans la continuité de travaux menés au LAAS-CNRS et chez Enchanted Tools en France sur des contraintes cinématiques similaires.

💬 Un filtre géométrique pur, injecté en post-traitement, qui multiplie le taux de succès par 2,4 sans ré-entraîner le modèle : c'est le genre de résultat qui devrait faire rougir pas mal d'équipes qui empilent des couches de deep learning là où une contrainte bien posée suffit. Ce qui est vraiment utile ici, c'est qu'ils pointent un biais structurel évident en retrospective : tous les benchmarks standards supposent une caméra en vue de dessus, alors que la moitié des bras déployés en prod sont en configuration frontale sur des AMR ou des piédestaux fixes. Le filtre MVBB, tu peux le brancher demain sur ton pipeline existant.

RobotiquePaper
1 source
Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)
46arXiv cs.RO 

Comprendre les méthodes d'inférence asynchrone pour les modèles vision-langage-action (VLA)

Les modèles Vision-Language-Action (VLA), qui combinent perception visuelle, raisonnement linguistique et génération d'actions motrices, souffrent d'un défaut opérationnel central : leur latence d'inférence crée une désynchronisation entre l'observation capturée et l'action exécutée, phénomène désigné sous le terme de "staleness". Quatre approches ont émergé quasi-simultanément pour y remédier : IT-RTC (correction par inpainting à l'inférence), TT-RTC (simulation de délai à l'entraînement), VLASH (conditionnement sur état futur estimé) et A2C2 (correction résiduelle légère à chaque pas de contrôle). Publiée le 12 mai 2025 sous la référence arXiv:2605.08168, une étude systématique compare ces quatre méthodes sous conditions contrôlées via deux codebases unifiées, évaluées sur la suite Kinetix avec des politiques MLPMixer et sur le benchmark LIBERO de manipulation avec SmolVLA, en faisant varier les délais jusqu'à d = 20 pas de contrôle. Les résultats établissent une hiérarchie claire selon le régime de délai. A2C2 domine sur Kinetix avec un taux de résolution supérieur à 90 % jusqu'à d = 8, et prend la tête sur LIBERO à partir de d = 4 ; c'est la méthode la plus efficace pour des délais modérés à élevés. TT-RTC s'impose comme la plus robuste des approches basées sur l'entraînement : elle généralise au-delà de la distribution de délais vue en phase d'entraînement et n'ajoute aucun overhead à l'inférence, ce qui la rend attractive pour des déploiements contraints en calcul. IT-RTC reste compétitif à faibles délais mais se dégrade nettement avec des chunks longs (H = 30) ou des délais importants. VLASH affiche un compromis explicite entre régimes : son efficacité dépend directement de la plage de fine-tuning [0, d\_max] choisie, imposant un calibrage préalable en fonction du délai attendu en production. Ce travail répond à un besoin criant de la communauté VLA, dont les modèles emblématiques, pi-0 de Physical Intelligence, GR00T N2 de NVIDIA et SmolVLA de Hugging Face, visent un déploiement sur robots réels soumis à des contraintes temps-réel strictes. L'absence de benchmark commun rendait jusqu'ici les comparaisons entre méthodes impossibles et freinait l'adoption industrielle, chaque équipe évaluant sa solution sur son propre protocole. En publiant deux codebases reproductibles (github.com/TheAyos/async-vla-inference), les auteurs offrent aux équipes robotiques un cadre de référence pour choisir leur stratégie de correction selon leur architecture et leurs contraintes de latence. Les prochaines étapes naturelles incluent la validation sur robots physiques et l'extension à des VLA de plus grande taille, où les délais d'inférence sont encore plus prononcés.

UEHuggingFace (entreprise d'origine française) est directement impliquée via SmolVLA, utilisé comme benchmark de référence dans cette étude comparative, ce qui renforce son positionnement central dans l'écosystème VLA mondial.

💬 Le staleness dans les VLA, tout le monde savait que c'était un problème, mais sans benchmark commun on naviguait à vue, chaque équipe évaluant sa solution sur son propre protocole. Ce papier établit enfin une hiérarchie claire : A2C2 pour la majorité des cas d'usage, TT-RTC si tu es contraint en calcul et que tu veux zéro overhead à l'inférence. Le fait que SmolVLA de HuggingFace soit la référence de manipulation, c'est pas anodin pour la visibilité européenne dans la course aux robots.

RobotiqueOpinion
1 source
SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel
47arXiv cs.RO 

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Une équipe de recherche associée à DreamVu a publié début mai 2026 SABER (Scalable Action-Based Embodied Dataset for Real-World VLA Adaptation), un corpus de données d'action robotique centré sur les environnements de grande distribution, présenté dans l'arXiv 2605.09613. Le jeu de données a été constitué à partir de plus de 100 heures de captures naturelles dans plusieurs supermarchés réels, sans mise en scène, sans script et sans télé-opération de robot. Deux flux de capteurs ont été utilisés simultanément : une caméra égocentrique montée sur la tête enregistre les manipulations fines des mains à hauteur d'interaction, tandis que la caméra 360° ALIA de DreamVu observe l'ensemble de la scène sous angle exocentrique. Le corpus final comprend 44 800 échantillons d'entraînement répartis en trois représentations d'action : 25 000 séquences d'actions latentes encodées selon le schéma LAPA, 18 600 trajectoires de postures de main dextre recalées dans l'espace articulaire robot, et 1 200 séquences de mouvement corps entier synchronisées retargétées vers une morphologie humanoïde. Appliqué au modèle de fondation robotique GR00T N1.6 de NVIDIA via une recette de post-entraînement multi-tâche à backbone partagé, SABER atteint un taux de succès moyen de 29,3 % sur dix tâches de manipulation en grande distribution, soit 2,19 fois la performance de la baseline de fine-tuning (13,4 %). Ces résultats, bien que modestes en valeur absolue (moins d'un tiers de succès), apportent un argument concret au débat sur le "data gap" qui freine la généralisation des VLA (Vision-Language-Action models) hors de leurs distributions d'entraînement. Les modèles de fondation robotique généralistes comme GR00T ou Pi-0 de Physical Intelligence peinent à performer sur des tâches de manipulation en contexte retail, non par défaut d'architecture, mais parce que ces environnements sont structurellement absents de leurs corpus de préentraînement. La télé-opération pour combler ce vide est onéreuse, logistiquement contrainte et difficile à passer à l'échelle. SABER propose une alternative : capturer des comportements humains naturels en magasin, puis retargéter les trajectoires vers l'espace articulaire du robot, sans jamais déployer ce dernier pendant la phase de collecte. Le gain 2x sur la baseline valide l'hypothèse que la qualité et la spécificité domaine des données comptent autant que l'architecture du modèle, une position qui nuance la course aux paramètres observée depuis 2024. DreamVu, startup spécialisée dans les caméras omnidirectionnelles de précision, s'appuie sur sa caméra ALIA pour se positionner comme fournisseur d'infrastructure de collecte de données pour la robotique incarnée, un segment en pleine structuration. Sur le plan concurrentiel, SABER entre en tension directe avec des initiatives comme Open-X Embodiment (Google DeepMind), DROID, ou les datasets propriétaires de Figure AI et Apptronik, mais se distingue par son ancrage sectoriel retail et l'absence de robot pendant la collecte. GR00T N1.6, le modèle testé, est la version publiée par NVIDIA en 2025 dans le cadre de son projet Isaac GR00T, qui vise à fournir une fondation pré-entraînée pour humanoïdes. Le dataset et le code sont disponibles publiquement sur dreamvu.ai/saber, ce qui ouvre la voie à des réplications et extensions vers d'autres verticales (logistique, pharmacie, restauration rapide) où la manipulation fine en environnement non contrôlé reste un verrou non résolu.

RobotiqueOpinion
1 source
VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action
48arXiv cs.RO 

VP-VLA : le prompting visuel comme interface pour les modèles vision-langage-action

Publiée en mars 2026 sur arXiv (référence 2603.22003v3), VP-VLA est une architecture à deux systèmes qui dissocie raisonnement de haut niveau et exécution motrice dans les modèles Vision-Language-Action. Le problème adressé est structurel : les VLA actuels effectuent un unique passage en avant (forward pass) censé gérer simultanément l'interprétation d'instructions, l'ancrage spatial et le contrôle moteur de bas niveau, ce qui dégrade la précision spatiale et la robustesse hors distribution. VP-VLA sépare ces responsabilités via une interface de prompts visuels : un "Planificateur Système 2" décompose les instructions en sous-tâches et localise objets et positions cibles, puis rend ces ancres spatiales directement dans l'espace RGB natif sous forme de réticules et boîtes englobantes. Un "Contrôleur Système 1", entraîné avec un objectif auxiliaire d'ancrage visuel, génère ensuite les trajectoires de bas niveau à partir de ces prompts. En simulation et en environnement réel, VP-VLA surpasse les baselines end-to-end QwenOFT (basé sur les modèles Qwen d'Alibaba) et GR00T-N1.6 (NVIDIA), les deux références industrielles les plus avancées du moment. L'intérêt architectural tient à l'évitement du mismatch de modalité que créent les représentations intermédiaires denses -- masques d'affordance, cartes de contrôle spécialisées -- qui obligent les modèles à jongler entre espaces de représentation hétérogènes. En substituant des annotations légères directement dans l'espace RGB natif, VP-VLA maintient une cohérence de modalité tout au long du pipeline. Pour les intégrateurs industriels et les équipes de déploiement robotique, cela se traduit concrètement par une meilleure robustesse aux configurations non vues à l'entraînement et une précision spatiale accrue sur les tâches de manipulation. La séparation explicite planification/exécution faciliterait aussi la mise à jour ou le remplacement indépendant de chaque composant, un avantage non négligeable en contexte de déploiement itératif. VP-VLA s'inscrit dans un mouvement plus large de déconstruction des VLA monolithiques, après RT-2, OpenVLA, et les architectures GR00T de NVIDIA. La publication en version v3 indique des révisions successives, signe probable d'une soumission à une conférence de premier rang (IROS 2026, CoRL 2026 ou RSS 2026). Le choix de GR00T-N1.6 et QwenOFT comme baselines positionne explicitement VP-VLA face aux approches portées par des acteurs industriels majeurs. Aucun déploiement physique industriel ni partenariat de production n'est annoncé à ce stade : les expériences réelles restent en environnement de laboratoire. La page projet ouverte (visualprompt-vla.github.io) laisse présager une publication du code, ce qui favoriserait une adoption rapide et une validation indépendante par la communauté robotique.

UELes laboratoires européens actifs en VLA (INRIA, CEA-List) pourraient bénéficier d'une architecture open-source plus robuste hors distribution si le code est publié, mais aucun acteur ou déploiement européen n'est impliqué à ce stade.

RobotiqueOpinion
1 source
Politique de flux stochastique guidé par interpolation
49arXiv cs.RO 

Politique de flux stochastique guidé par interpolation

Une équipe de chercheurs publie le 13 mai 2026 sur arXiv (réf. 2605.10051) une méthode de guidage en temps réel pour les politiques robotiques génératives : SSIP, ou Streaming Stochastic Interpolant Policy. L'objectif est d'orienter une politique à l'inférence, sans réentraîner le modèle, vers de nouveaux objectifs dynamiques tels que l'évitement d'obstacles imprévus ou l'alignement sur des préférences opérateur modifiées en cours d'exécution. Les auteurs formalisent le terme de guidage optimal via l'équation de Kolmogorov rétrograde, ce qui établit mathématiquement un "drift" modifié garantissant l'échantillonnage depuis une distribution cible. Deux mécanismes complémentaires sont proposés : STEG (Stochastic Trajectory Ensemble Guidance), sans entraînement, pour une adaptation zéro-shot par calcul de gradients à la volée ; et CCG (Conditional Critic Guidance), entraîné, pour une inférence amortie. L'enjeu industriel est direct : les architectures "chunk-based", qui génèrent des séquences d'actions par blocs discrets, dominent les politiques génératives en robotique mais souffrent d'une latence structurelle qui les rend peu adaptées aux environnements non structurés ou aux changements de contraintes en cours d'exécution. SSIP généralise la Streaming Flow Policy (SFP) déterministe en y intégrant un cadre stochastique guidé, permettant un contrôle réactif en temps réel. Les évaluations empiriques montrent que l'approche surpasse significativement les politiques chunk-based en réactivité et produit un guidage physiquement valide, c'est-à-dire des trajectoires mécaniquement cohérentes et pas seulement mathématiquement plausibles. Pour un intégrateur industriel, cela réduit le besoin de réentraînement coûteux dès qu'une contrainte opérationnelle évolue. Ce travail s'inscrit dans la vague des politiques génératives pour la manipulation robotique, un espace où Physical Intelligence (pi0, pi0.5), Figure (Helix) et NVIDIA (GR00T N2) ont récemment imposé des architectures fondées sur le flow matching ou la diffusion. La plupart de ces systèmes fonctionnent en mode chunk, ce qui limite leur réactivité face aux perturbations imprévues. SSIP se positionne comme une couche de guidage universelle, applicable aussi bien à des politiques généralistes qu'à des tâches industrielles exigeant une adaptation dynamique. L'approche STEG est particulièrement notable : sans réentraînement, elle abaisse le seuil d'adoption pour des déploiements en conditions réelles. Ce travail reste pour l'instant une contribution académique, sans déploiement annoncé ni partenariat industriel déclaré.

RobotiqueOpinion
1 source
Locomotion humanoïde de bout en bout apprise à partir de pixels bruts
50arXiv cs.RO 

Locomotion humanoïde de bout en bout apprise à partir de pixels bruts

Une équipe de recherche a publié sur arXiv (réf. 2602.06382v2) un framework end-to-end permettant à un robot humanoïde de naviguer sur terrain varié en s'appuyant uniquement sur des images brutes de caméras stéréo de profondeur, sans carte de terrain préchargée à l'inférence. Le système s'articule autour de deux contributions distinctes. La première est une simulation haute-fidélité du capteur stéréo qui reproduit les artefacts de matching et les incertitudes de calibration réels, comblant le fossé entre l'entraînement simulé et le déploiement physique. La seconde est une approche de distillation comportementale tenant compte de la vision : une politique enseignante, entraînée sur des cartes de hauteur parfaites ("privileged height maps"), transfère ses connaissances à une politique étudiante ne recevant que des observations de profondeur bruitées, via un alignement dans l'espace latent et des tâches auxiliaires invariantes au bruit. Pour la gestion multi-terrain, une architecture multi-critic et multi-discriminator attribue des réseaux dédiés à chaque type de surface. La méthode a été validée sur deux plateformes humanoïdes équipées de caméras stéréo différentes, couvrant des défis tels que plateformes surélevées, larges brèches et traversée bidirectionnelle de longs escaliers. Ce travail s'attaque à un verrou majeur : la quasi-totalité des politiques de locomotion par reinforcement learning contournait jusqu'ici la perception visuelle en utilisant des cartes de terrain parfaites en simulation, inexistantes sur robot réel. En intégrant explicitement les imperfections du capteur dans la boucle d'entraînement, les auteurs montrent qu'un humanoïde peut naviguer en milieu non structuré avec seulement des caméras RGB-D grand public. Pour un intégrateur ou un décideur industriel, cela réduit potentiellement la suite sensorielle nécessaire et évite le recours au LiDAR ou à la cartographie préalable. L'architecture multi-discriminator règle également la friction habituellement observée entre les objectifs conflictuels d'apprentissage sur terrains homogènes et hétérogènes, une limite connue des politiques locomotion généralistes. La locomotion humanoïde basée vision est un champ de bataille actif : Unitree (H1, G1) et Agility Robotics (Digit) privilégient encore largement la proprioception, tandis que Boston Dynamics (Atlas), Figure (Figure 03) et Physical Intelligence (Pi-0) y intègrent progressivement la vision dans leurs pipelines de contrôle. NVIDIA pousse GR00T N2 comme couche commune de synthèse de mouvement simulé. Ce papier de février 2026 s'inscrit dans une vague cherchant à rendre la locomotion bas niveau aussi robuste que les policies VLA (Vision-Language-Action) le sont pour la manipulation. La validation sur deux plateformes différentes constitue un signal positif de généralisation, mais les métriques quantitatives détaillées (taux de succès, vitesse de marche, distance franchissable) ne figurent pas dans le résumé et méritent vérification avant toute décision d'intégration opérationnelle.

RobotiquePaper
1 source