Aller au contenu principal

Robotique — page 4

628 articles · page 4 sur 13

Actualités robotique et IA : robots autonomes, drones, véhicules autonomes et robots humanoïdes.

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle
151MarkTechPost RobotiqueActu

Genesis AI lance Nyx, Quadrants et Genesis World 1.0, une plateforme physique pour évaluer les modèles de robotique à grande échelle

Genesis AI a lancé Genesis World 1.0, une plateforme de simulation conçue pour accélérer le développement des modèles de fondation en robotique. La suite se compose de quatre éléments : un moteur physique, Nyx (un moteur de rendu par lancer de rayons en temps réel), Quadrants (un compilateur Python vers GPU), et une interface de simulation. Le problème que tente de résoudre cette plateforme est concret : évaluer une politique robotique sur une centaine de tâches avec plusieurs centaines d'épisodes chacune nécessite normalement plus de 200 heures de fonctionnement continu avec un opérateur humain et un seul robot. Genesis World 1.0 ramène cette même évaluation à moins de 30 minutes, sans intervention humaine ni matériel physique, avec une reproductibilité bit à bit des résultats. C'est un gain d'environ deux ordres de grandeur sur le temps de cycle d'évaluation. Ce bond de performance change fondamentalement la manière dont les équipes de recherche peuvent comparer des variantes de modèles. Jusqu'ici, la lenteur de l'évaluation réelle obligeait à faire des choix brutaux sur le nombre de checkpoints testés, biaisant de facto les décisions de développement. Genesis AI a délibérément choisi d'utiliser la simulation pour l'évaluation avant de l'utiliser pour la génération de données d'entraînement, et ce pour une raison méthodologique précise : si entraînement et évaluation partagent la même distribution simulée, un gain de performance peut simplement refléter une meilleure adaptation au simulateur, et non un progrès réel. L'approche retenue, baptisée "zero-shot real-to-sim", consiste à évaluer en simulation des politiques entraînées exclusivement sur des données réelles. Les résultats de corrélation sont probants : la corrélation de Pearson entre les performances en simulation et sur robot physique atteint 0,8996 (intervalle de confiance à 95 % : [0,7439 ; 0,9314]), calculée sur trois variantes de modèles (Small, Medium, Large), 14 tâches et 200 épisodes par tâche, avec un million d'itérations bootstrap. Le Mean Maximum Rank Violation (MMRV) s'établit à 0,0166, ce qui signifie que le simulateur préserve fidèlement le classement relatif des modèles entre eux. Genesis AI évolue dans un secteur en pleine structuration, où des acteurs comme Google DeepMind, Physical Intelligence ou encore Boston Dynamics investissent massivement dans les modèles de fondation pour la robotique généraliste. La qualité du simulateur est devenue un avantage compétitif direct : Genesis revendique un écart de réalité réduit de 45 % par rapport au meilleur simulateur concurrent, mesuré par le score FID sur leur jeu de données. Pour diagnostiquer précisément les sources de divergence simulation-réalité, l'équipe a construit un banc de test côte à côte permettant de faire fonctionner simultanément le simulateur et un robot physique depuis la même initialisation, en permutant les sources d'observations (caméra, proprioception) pour isoler si les écarts viennent de la physique, du rendu, des communications ou du contrôle. Nyx, le moteur de rendu intégré, vise des images 1080p sans bruit en moins de 4 millisecondes sur un GPU grand public haut de gamme, en s'appuyant sur le lancer de rayons matériel et des splats gaussiens 3D pour les zones où la reconstruction en maillage reste insuffisante.

1 source
Une startup forme des robots en envoyant des humains filmer le ménage chez vous
152Ars Technica AI 

Une startup forme des robots en envoyant des humains filmer le ménage chez vous

La startup allemande MicroAGI propose depuis le 28 mai 2026 un service de nettoyage à domicile entièrement gratuit aux habitants de New York, avec une contrepartie inhabituelle : les agents de ménage portent des caméras qui enregistrent l'intégralité de leur intervention. Le service est accessible via l'application Shift, lancée simultanément par l'entreprise. Pour réserver, les utilisateurs doivent fournir leur numéro de téléphone, adresse e-mail, adresse du domicile et les instructions d'accès. Chaque session dure environ deux heures. La communication autour du lancement a été soignée : vidéos sur X et LinkedIn accompagnées des notes de piano d'« Empire State of Mind » de Jay-Z et Alicia Keys. Les images captées par les caméras servent à entraîner la prochaine génération de robots domestiques. MicroAGI se décrit comme une équipe d'ingénieurs, de chercheurs et d'opérateurs dont la mission est d'« accélérer l'IA incarnée », c'est-à-dire des systèmes capables d'agir physiquement dans le monde réel. Le modèle économique est clair : les habitants obtiennent un ménage gratuit, la startup obtient des données rares et précieuses, des séquences vidéo en vue subjective montrant comment un humain navigue dans un appartement, manipule des objets et exécute des tâches quotidiennes. Ce type de données est l'un des goulots d'étranglement majeurs du développement de robots ménagers. L'initiative s'inscrit dans une course mondiale à la robotique domestique, où des acteurs comme Figure, Physical Intelligence ou Boston Dynamics investissent des centaines de millions de dollars pour doter des robots d'une compréhension fine de l'environnement humain. La collecte de données via des humains équipés de caméras est une approche déjà adoptée par plusieurs laboratoires, mais rarement proposée directement au grand public sous forme de service commercial. Le modèle soulève néanmoins des questions sur la vie privée : les résidents invitent chez eux des inconnus munis de caméras, dans leurs espaces les plus intimes. MicroAGI n'a pas encore précisé comment ces données seront stockées, protégées ou éventuellement partagées.

UEMicroAGI étant une startup allemande, ses pratiques de collecte de données vidéo au domicile de particuliers pourraient être scrutées au regard du RGPD européen.

Cette startup IA nettoie votre maison gratuitement pour entraîner ses futurs robots
153The Verge 

Cette startup IA nettoie votre maison gratuitement pour entraîner ses futurs robots

La startup américaine Shift a annoncé jeudi sur les réseaux sociaux un programme inédit : le nettoyage gratuit de domiciles en échange de données d'entraînement pour robots. Le principe est simple, Shift envoie des agents de ménage équipés de caméras qui filment chaque geste : aspiration, dépoussiérage, lavage de vitres, rangement. Ces vidéos constituent le dataset comportemental que la société utilise pour entraîner ses modèles robotiques. Shift justifie l'économie du deal sur son site : "Vous obtenez un appartement impeccable. Nous obtenons des données d'entraînement. Tout le monde y gagne." Aucun prix de revient ni volume de déploiements n'a été communiqué à ce stade. Ce modèle économique inversé illustre une tension structurelle du secteur : collecter des données de manipulation en environnement domestique réel reste l'un des goulets d'étranglement les plus coûteux pour entraîner des robots polyvalents. Les espaces domestiques sont non structurés, imprévisibles et très variés, exactement ce qui fait défaut aux datasets synthétiques ou aux environnements d'entrepôt contrôlés. Si Shift valide que la valeur des données couvre effectivement le coût opérationnel des interventions, ce modèle pourrait devenir un template pour d'autres acteurs cherchant à scaler la collecte de données en monde réel sans financement massif en propre. Shift s'inscrit dans une vague de startups spécialisées dans la collecte de données robotiques, en concurrence avec des initiatives comme celles de Physical Intelligence (pi0) ou les programmes internes de Figure et 1X. La stratégie rappelle aussi les approches de crowdsourcing adoptées dans l'autonome (dashcams, flottes instrumentées). L'équipement porté par les agents, notamment un casque visiblement encombrant visible dans la vidéo promotionnelle, suggère un dispositif de capture multi-angle encore en phase de prototypage. Aucun partenariat industriel ni timeline de produit n'a été annoncé.

RobotiqueOpinion
1 source
X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel
154Pandaily 

X-Square Robot dévoile WALL-WM, le premier modèle du monde à IA incarnée avec prédiction au niveau événementiel

La startup chinoise X-Square Robot, connue pour sa série GreatWall de modèles de fondation robotiques, publie WALL-WM, présenté comme le premier world model à prédiction par événements sémantiques pour la robotique incarnée. Le papier associé, "WALL-WM: Carving World Action Modeling at the Event Joints", décrit une architecture en trois couches : une couche d'entrée d'instructions d'événements, une couche de prédiction centrale utilisant l'optimiseur Muon distribué (DMuon) pour une meilleure stabilité de convergence, et une stratégie de packing multi-événements réduisant les pertes de calcul lors de l'entraînement. Sur les benchmarks de génération vidéo incarnée, WALL-WM surpasse Wan2.1-14B et Open-Sora 2.0 sur qualité de mouvement, cohérence sémantique et plausibilité physique. Sur le benchmark Core15 L1, il dépasse Pi0.5 de Physical Intelligence et DreamZero sur les tâches de base, raisonnement, manipulation dextre et généralisation sous instruction abstraite. L'intérêt technique réside dans un changement de paradigme pour les modèles d'action. Les architectures VLA dominantes prédisent des chunks d'actions à intervalles fixes, où sera la main du robot dans 0.1, 0.2, 0.3 secondes, ce qui force le modèle à mémoriser des déplacements millimétriques par frame plutôt qu'à comprendre l'objectif sémantique ("saisir la tasse"). Cette fragilité structurelle signifie qu'un changement d'objet ou de surface suffit à faire échouer le modèle. WALL-WM prédit directement l'état cible, c'est-à-dire le moment de la saisie, puis génère synchroniquement la séquence d'actions pour y parvenir. Le papier identifie par ailleurs un problème architectural fondamental : texte, vision et action opèrent sur des géométries de manifold distinctes, et leur projection directe dans un espace latent partagé dégrade les représentations préentraînées, un défaut que l'architecture cherche à corriger via ses trois couches spécialisées. X-Square Robot s'inscrit dans la course des laboratoires chinois aux fondations VLA et world models, aux côtés d'Unitree, Fourier Intelligence et Agibot. Les benchmarks publiés visent directement Physical Intelligence (Pi0.5) et ses homologues américains comme Figure AI. Il faut toutefois souligner que WALL-WM reste, à ce stade, une publication de recherche sans déploiement commercial ni pilote industriel annoncé. Les performances sur benchmark L1 ne préjugent pas des résultats en conditions réelles, où l'éclairage variable, la déformation des objets et les perturbations de contact constituent le vrai test de la généralisation sim-to-real. Aucune timeline de productisation n'est mentionnée dans l'annonce.

RobotiqueOpinion
1 source
PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle
155arXiv cs.RO 

PhAIL : un benchmark VLA sur robots réels et une méthodologie distributionnelle

PhAIL (Physical AI Leaderboard, phail.ai) est un benchmark open-source présenté sur arXiv (arXiv:2605.29710) qui évalue des politiques VLA (vision-language-action) sur un bras Franka FR3 en conditions réelles. Le protocole remplace le traditionnel taux de succès binaire à timeout fixe par une méthodologie distributionnelle centrée sur la fonction de distribution cumulative du temps-avant-succès (CDF). Deux outils distincts structurent l'évaluation : un score nommé Human-Relative Throughput (HRT), grandeur sans dimension avec intervalles de confiance bootstrap, ancré à la téléopération humaine sur le même équipement ; et un test de significativité Kolmogorov-Smirnov calculé par objet puis macro-moyenné. Le benchmark a été appliqué à quatre VLAs publiques, dont GR00T (NVIDIA), ACT et OpenPI, avec jusqu'à 30 rollouts par cellule (modèle x objet). Résultat central : le meilleur VLA évalué reste environ sept fois plus lent par opération que la référence humaine, mesuré via le ratio RMST. L'enjeu est méthodologique autant que technique. L'état de l'art en évaluation VLA repose presque universellement sur un taux de succès à timeout fixe avec N inférieur ou égal à 25 rollouts et sans intervalles de confiance, ce qui rend les comparaisons proches statistiquement non résolvables. PhAIL démontre que le test KS macro-moyenné tranche deux paires proches (GR00T vs. ACT, OpenPI vs. ACT) là où les métriques binaires échouent, toujours à N inférieur ou égal à 30 rollouts. La paire la plus serrée, OpenPI vs. GR00T, reste irrésolue dans le budget expérimental alloué. Le facteur sept entre humain et meilleur VLA constitue un point d'ancrage concret pour les intégrateurs et décideurs industriels qui doivent arbitrer entre performance annoncée et réalité opérationnelle. La publication s'inscrit dans un effort de standardisation comparable à ce qu'ImageNet ou GLUE ont accompli pour la vision par ordinateur et le traitement du langage naturel. Le champ VLA manquait d'un protocole reproductible et statistiquement rigoureux, rendant les comparaisons entre Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA), OpenPI ou les architectures propriétaires de Figure et Boston Dynamics difficiles à interpréter. Le Franka FR3, très répandu en recherche académique, sert de plateforme de référence, et le benchmark est entièrement ouvert : dataset, artefacts par rollout et implémentation de bout en bout disponibles sur phail.ai. Les prochaines étapes naturelles incluent l'extension à d'autres plateformes matérielles, à des tâches bimanuelles ou de manipulation complexe, et l'intégration de VLAs propriétaires dans le protocole.

UELe benchmark PhAIL repose sur le bras Franka FR3 très répandu dans les laboratoires académiques européens, offrant aux chercheurs et intégrateurs UE un protocole rigoureux et reproductible pour évaluer les VLAs en conditions réelles et quantifier objectivement l'écart entre performance annoncée et réalité opérationnelle.

💬 Ce que je retiens, c'est le facteur 7. Le meilleur VLA testé reste sept fois plus lent qu'un humain sur la même tâche, et c'est la première fois qu'on a une mesure comme ça, proprement ancrée sur de la téléopération humaine réelle avec du KS test et des intervalles de confiance. Le benchmark binaire à timeout qu'on utilisait jusque-là, c'était du bricolage habillé en science.

RobotiqueOpinion
1 source
Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots
156arXiv cs.RO 

Qwen-VLA : un modèle vision-langage-action (VLA) unifié pour les tâches, environnements et morphologies de robots

Qwen-VLA, présenté en préprint arXiv par l'équipe Qwen d'Alibaba (arXiv:2605.30280, mai 2026), est un modèle de fondation incarné qui unifie dans un seul système la manipulation robotique, la navigation vision-et-langage et la prédiction de trajectoires. L'architecture étend la pile vision-langage de Qwen par un décodeur d'action basé sur un Diffusion Transformer (DiT), permettant de générer des actions continues en plus du raisonnement perceptif. L'entraînement joint combine trajectoires de manipulation réelles, démonstrations égocentrées humaines, données de simulation synthétique et jeux de données de navigation. Sur les benchmarks publiés, Qwen-VLA-Instruct atteint 97,9 % sur LIBERO, 86,1 %/87,2 % sur RoboTwin-Easy/Hard, 73,7 % sur Simpler-WidowX, et 69,0 % de taux de succès d'objectif sur R2R en navigation. En conditions réelles sur plateforme ALOHA, le modèle affiche 76,9 % de succès moyen hors-distribution (OOD) et 26,6 % en zéro-shot sur DOMINO, une tâche de manipulation dynamique. La contribution principale est le "embodiment-aware prompt conditioning" : des descriptions textuelles propres à chaque robot spécifient morphologie et conventions de contrôle, permettant théoriquement à un seul jeu de poids de s'adapter à plusieurs plateformes sans réentraînement dédié. Pour les intégrateurs et les COO industriels, c'est directement le problème du cross-embodiment qui freine les déploiements à l'échelle. Les scores OOD sont pertinents mais méritent d'être nuancés : ils portent sur des environnements de laboratoire, et les 76,9 % sur ALOHA concernent une plateforme à deux bras en contexte contrôlé, pas un robot industriel en conditions de production. La sélection des séquences de démonstration dans les preprints arXiv est notoirement favorable aux cas réussis. Qwen-VLA s'inscrit dans la course aux VLA généralistes, aux côtés de pi-0 de Physical Intelligence (spécialisé manipulation, 400 M$ levés), GR00T N2 de NVIDIA (cross-embodiment annoncé en 2025) et OpenVLA d'UC Berkeley. Son décodeur DiT le rapproche des approches diffusion-based de pi-0, par opposition aux méthodes token-based. Qwen étant déjà un modèle ouvert d'Alibaba largement adopté dans des stacks vision-langage, son extension à l'action physique offre aux équipes de recherche et d'intégration un point d'entrée solide pour le fine-tuning multi-tâche multi-robot. Aucun déploiement commercial n'est annoncé à ce stade : c'est un travail de recherche, pas un produit lancé.

UELes équipes de recherche et d'intégration robotique européennes peuvent exploiter ce modèle ouvert Alibaba pour du fine-tuning multi-robot multi-tâche, mais aucun partenariat ni déploiement européen n'est annoncé.

RobotiqueOpinion
1 source
Quand un robot doit-il réfléchir ? Raisonnement adaptatif aux ressources par apprentissage par renforcement pour la prise de décision robotique
157arXiv cs.RO 

Quand un robot doit-il réfléchir ? Raisonnement adaptatif aux ressources par apprentissage par renforcement pour la prise de décision robotique

Des chercheurs ont publié sur arXiv (arXiv:2603.16673) un framework appelé RARRL (Resource-Aware Reasoning via Reinforcement Learning), conçu pour résoudre un problème concret des robots dotés d'agents LLM : décider à quel moment invoquer un raisonnement coûteux, et quand agir directement. L'approche est hiérarchique, RARRL n'apprend pas une politique de contrôle bas niveau, mais une politique d'orchestration haut niveau qui détermine dynamiquement si le robot doit raisonner, quel "rôle de raisonnement" activer, et quel budget computationnel allouer à l'appel LLM, en fonction des observations courantes, de l'historique d'exécution et des ressources restantes. Les expériences, conduites avec des profils de latence empiriques mesurés sur le benchmark ALFRED (tâches domestiques en langage naturel), montrent que RARRL améliore le taux de succès des tâches tout en réduisant la latence d'exécution et en renforçant la robustesse, comparé à des stratégies de raisonnement fixe ou heuristique. Ce travail adresse un goulot d'étranglement structurel pour les robots embarquant des LLM : chaque appel d'inférence coûte plusieurs centaines de millisecondes à plusieurs secondes, ce qui crée des interruptions dans l'exécution motrice et réduit la fiabilité en conditions réelles. Un raisonnement systématique ralentit le robot ; un raisonnement insuffisant génère des erreurs de planification. RARRL propose une solution par apprentissage par renforcement pour calibrer ce compromis à l'exécution, ce qui est plus robuste que les règles codées en dur ou les seuils de confiance statiques. Pour les intégrateurs déployant des bras manipulateurs ou des robots mobiles avec couche LLM, cette approche suggère qu'il est possible de garder des modèles large et capables sans sacrifier la réactivité temps réel, un argument commercial non négligeable face aux pressions pour downscaler les modèles embarqués. Le problème du "quand raisonner" s'inscrit dans une problématique plus large des architectures VLA (Vision-Language-Action) et des agents robotiques hybrides, où des frameworks comme SayCan (Google DeepMind, 2022), RT-2 ou plus récemment Pi-0 (Physical Intelligence) ont montré que l'intégration LLM/politique motrice reste coûteuse à orchestrer. RARRL se positionne comme une couche d'orchestration agnostique au modèle sous-jacent, potentiellement applicable à des stacks existants. La démonstration reste sur simulateur/benchmark ALFRED ; le passage à du matériel réel avec contraintes temps-réel dures (ARM embarqué, bus CAN à 1 kHz) n'est pas encore documenté, ce qui constitue la prochaine étape évidente pour valider l'approche hors laboratoire.

RobotiqueOpinion
1 source
Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles
158arXiv cs.RO 

Apprentissage d'une politique visuelle par simulation pour l'insertion de cheville dans des trous inconnus en conditions réelles

Des chercheurs proposent sur arXiv (2205.04297) un système d'insertion visuelle peg-in-hole capable de s'adapter à des formes de trous inconnues au déploiement, après entraînement exclusivement en simulation. L'architecture combine trois modules en cascade : un réseau de segmentation (SN), un réseau de capteur virtuel (VSN) qui estime la pose de la pièce cible, et un réseau de contrôle (CN) qui pilote l'insertion. Le VSN et le CN sont entraînés une seule fois en simulation sur un ensemble de formes génériques ; seul le SN est affiné lors du passage au monde réel, via quelques centaines d'échantillons collectés en moins d'une minute de démonstration humaine. Appliqué à la recharge automatique de véhicule électrique, le système atteint un taux de réussite de 10/10 en 2 à 3 secondes, validé en configurations eye-to-hand et eye-in-hand. Le principal apport est de réduire drastiquement le coût du transfert sim-to-real pour des tâches de manipulation de précision. Les approches classiques exigent soit une large collecte de données réelles, soit une modélisation CAO de chaque référence cible, deux contraintes rédhibitoires sur les lignes d'assemblage à forte variabilité de références. En découplant la perception de la politique générique, les auteurs montrent qu'il suffit d'adapter un seul module léger par nouvelle forme, ce qui ouvre la voie à des systèmes vision-pour-assemblage déployables sans ingénierie lourde par référence. Le résultat sur la recharge EV reste à nuancer : 10 essais constituent un échantillon statistiquement limité, et les conditions de test (tolérance mécanique, variabilité d'éclairage) ne sont pas précisées. La tâche peg-in-hole est un benchmark classique de la robotique d'assemblage, longtemps dominé par le contrôle en force et la modélisation géométrique. Ce travail s'inscrit dans la vague des politiques visuelles généralisables entraînées en sim, portée notamment par les approches VLA de Physical Intelligence (Pi-0) et les travaux de meta-learning de Chelsea Finn. L'application à la recharge de véhicule électrique est stratégiquement opportune : plusieurs constructeurs européens cherchent à automatiser cette opération sans infrastructure dédiée côté borne. Les suites naturelles attendues sont une validation sur un spectre plus large de tolérances dimensionnelles, des conditions d'éclairage industriel variées, et une comparaison formelle avec les méthodes hybrides force-vision existantes.

UELa méthode de transfert sim-to-real modulaire pourrait intéresser les constructeurs automobiles européens qui cherchent à automatiser la recharge de véhicules électriques sans infrastructure dédiée côté borne.

RobotiquePaper
1 source
La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles
159Interesting Engineering 

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

NVIDIA a présenté huit travaux de recherche en robotique à l'International Conference on Robotics and Automation (ICRA) 2026, tous centrés sur la réduction du "sim-to-real gap" -- l'écart de performance entre un robot entraîné en simulation et ce même robot confronté au monde physique. Parmi les systèmes mis en avant, COMPASS entraîne des robots exclusivement dans Isaac Lab (le simulateur NVIDIA) avant de transférer les politiques apprises vers des corps physiques différents. Sur 20 essais réels impliquant des robots mobiles autonomes et des humanoïdes, le framework atteint un taux de succès de 80 % en navigation, soit 4,5 fois supérieur aux baselines par imitation learning. Le système Grasp-MPC, dédié à la préhension en environnement encombré, a été entraîné sur 2 millions de trajectoires simulées couvrant 8 000 objets distincts, et atteint 75 % de succès sur des objets inconnus contre 41 % pour les méthodes de référence. Le framework SPARR, appliqué à l'assemblage industriel, découpe la tâche en deux couches -- une politique apprise en sim, corrigée en temps réel sur le hardware réel -- et affiche 38 % de gain sur le taux de succès d'assemblage et 30 % de réduction du temps de cycle par rapport aux baselines zero-shot sim-to-real. Enfin, PEEK améliore l'attention visuelle des robots (filtrage du bruit visuel non pertinent), avec une précision multipliée jusqu'à 41 fois pour des politiques purement simulées. Une collaboration avec Carnegie Mellon, l'Université de l'Utah et l'Université de Sydney a produit SEAL, un framework qui contraint le robot à n'exécuter que les séquences d'actions cohérentes avec son raisonnement planifié. Ces résultats sont significatifs pour les intégrateurs et les décideurs industriels, car ils montrent que le sim-to-real gap -- longtemps considéré comme le verrou structurel de la robotique apprise -- commence à se refermer de façon mesurable, au moins en conditions de laboratoire. Le gain de 30 % sur le temps de cycle (SPARR) est un chiffre qui parle directement aux opérateurs de lignes d'assemblage. Il convient cependant de nuancer : les taux de succès rapportés (75-80 %) sont mesurés dans des protocoles contrôlés par les chercheurs eux-mêmes, sans déploiement industriel validé en production. Les vidéos sélectionnées pour illustrer ces travaux suivent les conventions habituelles des communications académiques, qui ne montrent pas les échecs. La progression reste réelle, mais le passage de 80 % à 99 % de fiabilité -- seuil requis pour la plupart des applications industrielles critiques -- reste un problème ouvert. NVIDIA positionne cette recherche comme la couche logicielle et de simulation de son écosystème robotique plus large, qui inclut Isaac Lab, Isaac GR00T X Embodiment Sim et Omniverse NuRec. La compagnie ne fabrique pas de robots mais ambitionne de devenir l'infrastructure sur laquelle l'industrie entraîne ses systèmes, face à des concurrents comme Google DeepMind (avec ses travaux sur RT-2 et Gemini Robotics), Meta (V-JEPA) et Physical Intelligence (pi0). Sur le segment de la simulation pour la robotique, des acteurs comme Mujoco (DeepMind) et Genesis (MIT/CMU) occupent également le terrain. Les prochaines étapes annoncées par NVIDIA passent par l'extension des datasets ouverts et la montée en échelle des plateformes de simulation, sans timeline de commercialisation précisée pour les frameworks présentés à l'ICRA.

UELes intégrateurs industriels européens en robotique d'assemblage pourraient à terme bénéficier des frameworks sim-to-real NVIDIA (Isaac Lab, SPARR), mais aucun déploiement ni partenariat européen n'est annoncé à ce stade.

💬 Le 30% de gain sur le temps de cycle, c'est le seul chiffre qui va faire bouger un décideur industriel. NVIDIA ne fabrique pas de robots mais joue exactement le même coup qu'avec les GPU : devenir l'infrastructure incontournable avant que le marché soit mature, face à DeepMind, Meta et les autres. Reste que passer de 80% à 99% de fiabilité, le vrai seuil pour les lignes critiques, c'est encore une autre histoire.

RobotiquePaper
1 source
NVIDIA Research fait progresser la robotique de la simulation au monde réel
160NVIDIA AI Blog 

NVIDIA Research fait progresser la robotique de la simulation au monde réel

À l'occasion de l'International Conference on Robotics and Automation (ICRA) 2026, NVIDIA Research a présenté huit articles scientifiques parmi les 28 acceptés, tous centrés sur le transfert simulation-vers-réel en robotique. Les travaux couvrent l'ensemble de la chaîne de développement : coordination de bras multiples, navigation sur des morphologies de robots variées, préhension d'objets inconnus et manipulation de matières déformables. Parmi les systèmes présentés, ScheduleStream exploite les GPU pour planifier les mouvements de plusieurs bras robotiques en parallèle, atteignant une accélération de 3x par rapport aux approches séquentielles classiques, et tourne notamment sur la plateforme embarquée Jetson de NVIDIA. COMPASS, un cadre de politique de navigation, combine apprentissage par imitation et apprentissage par renforcement résiduel dans le simulateur Isaac Lab pour généraliser à des robots de morphologies très différentes, sans jamais utiliser de données réelles lors de l'entraînement. Résultat : un taux de succès moyen 4,5 fois supérieur à la référence, et environ 80 % de réussite sur 20 essais réels avec des robots mobiles autonomes et des humanoïdes. Grasp-MPC, de son côté, a été entraîné sur 2 millions de trajectoires simulées issues de 8 000 objets différents, apprenant à saisir des objets inédits dans des environnements encombrés avec un taux de succès de 75 %, contre 41 % pour la méthode de référence. L'importance de ces résultats tient à ce qu'ils résolvent des verrous concrets qui bloquaient l'industrialisation de la robotique. Former un robot à naviguer dans un environnement et devoir tout recommencer dès qu'on change de plateforme physique est un frein majeur au déploiement à grande échelle. COMPASS supprime ce problème en apprenant des compétences transférables entre corps mécaniques différents, ouvrant la voie à des flottes hétérogènes d'agents robotiques dans des entrepôts, des hôpitaux ou des usines. Grasp-MPC, lui, corrige en temps réel la trajectoire d'approche du robot dans les derniers centimètres, là où les systèmes à plan fixe échouent le plus souvent. Ces avancées signifient qu'il devient possible de déployer des robots capables de traiter des tâches non scriptées dans des environnements désordonnés et imprévisibles, sans recalibration permanente. Ces recherches s'inscrivent dans une mutation profonde du secteur : la robotique sort de l'ère des démos contrôlées pour entrer dans celle de l'autonomie généralisable. NVIDIA joue un rôle structurant dans cette transition en fournissant à la fois les outils de simulation (Isaac Lab, Omniverse NuRec pour les jumeaux numériques), les bibliothèques de calcul (cuRobo, GraspGen) et le matériel embarqué (Jetson). Le fait que COMPASS et Grasp-MPC atteignent des performances robustes sans aucune donnée réelle lors de l'entraînement est une preuve de maturité du sim-to-real. La prochaine étape sera l'intégration de modèles vision-langage-action capables de raisonner avant d'agir, plusieurs des papiers ICRA ouvrant déjà cette direction.

UELes industriels et laboratoires de robotique européens (automobile, logistique, santé) pourront exploiter ces avancées sim-to-real pour déployer des flottes robotiques hétérogènes sans recalibration permanente entre plateformes.

RobotiqueActu
1 source
Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire
161arXiv cs.RO 

Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire

Une étude publiée sur arXiv en mai 2026 (réf. 2605.28726) remet en question une hypothèse largement répandue dans le déploiement des politiques robotiques VLA : le contrôle de vitesse constituerait un indicateur fiable de défaillance motrice. Les chercheurs ont soumis trois architectures VLA majeures, VQ-BeT (tokens discrets), Diffusion Policy et ACT (architectures continues), à un protocole unifié de 450 épisodes sur deux plateformes : PushT et ALOHA, ce dernier couvrant la manipulation bimane à 14 degrés de liberté. Premier résultat : le taux d'inversion de direction est le seul prédicteur universel de défaillance, avec des AUROC de 0,93, 0,79 et 0,91 selon l'architecture (p < 0,001). Le monitoring des à-coups (jerk) se révèle prédictif uniquement pour les architectures à tokens discrets, avec un gradient décroissant de 0,88 à 0,41 en passant aux architectures continues. Le contrôle de vitesse, lui, affiche des AUROC entre 0,41 et 0,52 sur les architectures continues, soit un niveau proche du hasard. Ces résultats ont une portée directe pour les équipes de déploiement : le contrôle de vitesse est actuellement le mécanisme de sécurité le plus répandu dans les bases de code VLA en production, et il s'avère inefficace pour détecter une défaillance imminente sur les architectures continues (AUROC 0,52 sur ACT, 0,41 sur Diffusion Policy). L'étude établit que les familles discrètes et continues produisent des signatures de défaillance qualitativement différentes, et qu'aucun moniteur unique ne peut couvrir les deux. Pour un intégrateur ou un COO déployant un humanoïde ou un bras collaboratif en cellule de production, un indicateur de sécurité mal calibré représente un risque opérationnel concret, pas une nuance académique. La distinction discret/continu dans les VLA est connue depuis les travaux fondateurs sur ACT (Zhao et al., 2023) et Diffusion Policy (Chi et al., 2023), mais ses implications sur le monitoring n'avaient pas été quantifiées à cette échelle. L'étude repose sur SafeContract, un toolkit open source de surveillance en boîte noire sans réentraînement, avec calibration conforme, accessible sur GitHub (krishnam94/vla-edge). Les acteurs déployant aujourd'hui des architectures continues, notamment Figure AI avec Figure 03, Physical Intelligence avec son modèle π0, ou Boston Dynamics, sont directement concernés par ces résultats. La prochaine étape logique est l'intégration de moniteurs architecture-spécifiques dans les pipelines de validation sim-to-real, en amont de toute mise en production sur site.

UELes intégrateurs et équipes R&D européens déployant des architectures VLA continues (ACT, Diffusion Policy) doivent auditer leurs mécanismes de surveillance de sécurité, le contrôle de vitesse, mécanisme dominant en production, s'avérant quasi-aléatoire pour détecter les défaillances sur ces architectures.

💬 Le contrôle de vitesse comme indicateur de sécurité sur les VLA continus, c'est à peu près aussi fiable que tirer à pile ou face. Ce n'est pas une petite subtilité académique : c'est le mécanisme le plus déployé en production aujourd'hui, et il détecte les défaillances imminentes avec un AUROC de 0,41 sur Diffusion Policy. Reste à voir combien d'intégrateurs vont vraiment auditer leurs pipelines après ça, mais l'étude arrive au bon moment, avec un toolkit open source en bonus.

RobotiqueOpinion
1 source
Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes
162arXiv cs.RO 

Comment apprendre aux robots : comparaison entre guidage kinesthésique, joystick et gestes

Une étude publiée sur arXiv en mai 2026 (arXiv:2605.28033) compare trois modalités d'apprentissage par démonstration pour robots manipulateurs : le guidage kinesthésique (l'opérateur déplace physiquement le bras du robot), la téléopération par joystick, et l'enseignement par gestes de la main. Conduit avec huit participants sur trois tâches de manipulation, le protocole mesure le taux de succès en rejeu, la charge cognitive via l'échelle NASA-TLX modifiée, et les erreurs courantes commises pendant la phase d'enseignement. Le guidage kinesthésique produit les démonstrations les plus courtes et la charge de travail la plus faible ; c'est aussi la méthode la plus performante sur les tâches à fort contenu en contact et sensibles à l'orientation. La téléopération par joystick prend l'avantage sur la tâche de saisie de cheville simple (peg picking). Les gestes de la main, bien que moins fiables en général, surpassent les attentes et atteignent dans certains cas des performances comparables au guidage kinesthésique. Ces résultats ont une portée directe pour les intégrateurs qui cherchent à déployer du learning-from-demonstration (LfD) en milieu industriel sans expertise robotique avancée. Le fait que le guidage kinesthésique reste supérieur sur les tâches contact-riches valide une hypothèse structurante du secteur : la qualité de la démonstration dépend de la bande passante haptique du canal d'enseignement, et un joystick 6-DOF n'y suffit pas pour les trajets fins. À l'inverse, la performance correcte des gestes sur certaines tâches ouvre une piste pour des scénarios sans accès physique au robot, ce qui intéresse les déploiements en cellule fermée ou à distance. Le panel de huit participants reste cependant limité pour généraliser, et l'article ne détaille pas les conditions de capture des gestes ni les taux d'échec absolus. L'apprentissage par démonstration est un axe de recherche actif depuis les années 2000, avec une accélération marquée depuis l'émergence des politiques visuomotrices (VLA) comme ACT, Diffusion Policy ou pi0 de Physical Intelligence. La comparaison de modalités d'enseignement reste peu explorée expérimentalement, la majorité des travaux se concentrant sur les architectures de politiques plutôt que sur l'interface homme-robot en amont. Des acteurs comme Wandercraft ou Enchanted Tools, qui développent des robots à usage humain en Europe, sont directement concernés par ces compromis d'utilisabilité. La prochaine étape logique serait d'étendre l'étude à des panels plus larges et à des tâches bimanipulation, domaine où l'avantage kinesthésique pourrait être encore plus marqué.

UEWandercraft et Enchanted Tools, qui développent des robots à usage humain en France, sont directement concernés par ces compromis de modalité d'enseignement pour le déploiement de leurs plateformes auprès d'opérateurs non-experts.

RobotiquePaper
1 source
Tabero : manipulation douce par retour de force en boucle fermée (vision, toucher, langage)
163arXiv cs.RO 

Tabero : manipulation douce par retour de force en boucle fermée (vision, toucher, langage)

Une équipe de recherche a publié sur arXiv (preprint 2605.27886, mai 2026) Tabero, un benchmark et une suite de modèles destinés à doter les robots d'une manipulation douce et contrôlée par retour de force en temps réel. Le système repose sur deux composantes : d'abord un benchmark qui recycle des trajectoires de manipulation robotique open-source pour générer automatiquement des tâches combinant vision, toucher et instructions en langage naturel, sans nécessiter de collecte de données tactiles from scratch ; ensuite Tabero-VTLA, une architecture Vision-Langage-Action (VLA) dotée d'une interface de commande découplée force/position, exécutée par un contrôleur hybride fixe. Résultat clé annoncé : sous instructions de manipulation douce, le modèle réduit la force de préhension moyenne de plus de 70 % tout en maintenant un taux de succès élevé sur les tâches testées. Le code est publié sur GitHub. Il s'agit d'un preprint de recherche, pas d'un produit déployé. Ce résultat s'attaque à une limite connue des VLA actuels : ces modèles, entraînés principalement sur des données visuelles et textuelles, ne disposent pas de mécanismes de rétroaction de force en boucle fermée, ce qui les rend inadaptés à la manipulation d'objets fragiles ou aux interactions physiques avec des humains. La réduction de 70 % de la force de préhension est un chiffre notable, mais il faut le contextualiser : les détails sur la diversité des tâches, les matériaux et les conditions de test restent limités dans ce résumé, et les vidéos de démonstration associées aux preprints de ce type sont souvent sélectionnées pour maximiser l'effet. Le pipeline de génération de données tactiles par revalorisation de trajectoires existantes est en revanche une contribution méthodologique potentiellement réutilisable par d'autres équipes. Les VLA à toucher intégré constituent un chantier ouvert dans la course aux robots polyvalents. Les modèles pi-zero de Physical Intelligence et GR00T N2 de NVIDIA ont popularisé les architectures VLA pour la manipulation généraliste, mais s'appuient quasi exclusivement sur la vision. Du côté du toucher, des capteurs comme GelSight ou DIGIT existent en laboratoire mais restent rarement intégrés dans les pipelines d'entraînement à grande échelle. Tabero tente de combler ce fossé par une approche data-efficient. Les prochaines étapes naturelles seraient une validation sur robot physique dans des conditions industrielles réelles, notamment pour des cas d'usage comme l'assemblage de composants délicats ou la collaboration humain-robot en contexte manufacturier.

RobotiqueOpinion
1 source
Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique
164arXiv cs.RO 

Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique

Une équipe de chercheurs a publié le 28 mai 2026 (arXiv:2605.28812) une nouvelle représentation tactile baptisée Centre de Pression (CoP, pour Center-of-Pressure), qui permet un transfert sim-to-real zéro-shot sur une main robotique multi-doigts pour des tâches de contact intensif. Les deux scénarios de validation retenus sont représentatifs de cas industriels difficiles : l'insertion de type cheville-trou (peg-in-hole) et l'équilibrage d'une balle sur les doigts. La méthode repose sur une calibration des capteurs tactiles via la dynamique différentiable, permettant d'estimer l'orientation de chaque taxel (l'équivalent tactile d'un pixel) sans mesures de force de référence. Les résultats montrent que les politiques conditionnées sur CoP surpassent deux baselines classiques : le contact binaire grossier et les taxels bruts non traités. Le verrou que CoP cherche à lever est bien identifié dans le domaine : le sim-to-real gap pousse la majorité des approches actuelles à réduire les données tactiles à des signaux bas-dimensionnels, sacrifiant la richesse nécessaire aux manipulations précises. CoP change l'équation en ancrant la représentation dans des principes physiques rigoureux plutôt que dans des heuristiques d'ingénierie, préservant la densité d'information tout en maintenant la robustesse au transfert. Un résultat secondaire notable : les politiques apprennent à encoder des propriétés physiques comme la masse de l'objet tenu de façon émergente, sans supervision explicite. Pour les intégrateurs et les équipes de robotique d'assemblage, cela ouvre la perspective de rendre compétitif l'apprentissage par renforcement en simulation pour des tâches de précision, sans collecter des milliers d'heures de données réelles. Ce travail s'inscrit dans une compétition académique soutenue autour de la manipulation dextère tactile, où plusieurs groupes de recherche (Berkeley, CMU, MIT, ETH Zurich) ont progressé sur le sim-to-real pour les capteurs de contact en 2024-2025, sans atteindre le transfert zéro-shot sur une main complète multi-doigts. Côté industriel, Shadow Robot (Royaume-Uni) reste la référence sur les mains tactiles à haute dextérité, tandis que Figure AI et Apptronik misent sur la manipulation corps entier dans des humanoïdes généralistes. Ce papier est un résultat académique : pas de prototype commercial ni de calendrier industriel annoncé, mais la validation sur peg-in-hole, benchmark historique en robotique d'assemblage, et sur une tâche dynamique d'équilibrage renforce sa crédibilité pour les équipes R&D en fabrication avancée.

UEAucun acteur européen n'est directement impliqué, mais les équipes R&D européennes en fabrication avancée (assemblage, manipulation de précision) pourraient exploiter cette méthode pour réduire leur dépendance aux données tactiles réelles coûteuses.

RobotiquePaper
1 source
Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)
165arXiv cs.RO 

Champs d'action neuraux implicites : des points de passage discrets aux fonctions continues pour les modèles vision-langage-action (VLA)

Des chercheurs ont publié en mars 2026 sur arXiv (2603.01766) une méthode baptisée Neural Implicit Action Fields (NIAF), qui reformule la génération des commandes motrices dans les modèles VLA (Vision-Language-Action). La pratique dominante consiste aujourd'hui à prédire des "action chunks" : des séquences de waypoints discrets prélevés à fréquence fixe, héritage de la collecte de données robotiques et du paradigme token-par-token des LLM. NIAF remplace cette représentation par des fonctions d'action continues dans le temps, synthétisées via un modulateur spectral hiérarchique appuyé sur un LLM vision-langage et un prior de mouvement appris. L'architecture produit une variété d'action échantillonnable à résolution temporelle arbitraire et supporte la différentiation analytique pour superviser explicitement vitesse et dérivées d'ordre supérieur. Sur les benchmarks de manipulation CALVIN et LIBERO, NIAF obtient de bonnes performances sur plusieurs backbones. Des tests en conditions réelles confirment la compatibilité avec le contrôle d'impédance stable. L'enjeu est structurel. Les waypoints discrets génèrent des artefacts de quantification et ne fournissent pas les dérivées continues (vitesse, accélération, jerk) requises par les contrôleurs temps-réel industriels. Le contrôle d'impédance, standard dans les cobots et les cellules d'assemblage, exige précisément cette continuité pour adapter la force en temps réel. En supervisant ces grandeurs durant l'entraînement, NIAF réduit le besoin de filtrage post-traitement et améliore potentiellement le transfert simulation-réalité, point critique pour tout déploiement industriel. Pour un intégrateur ou un COO, des politiques apprises directement exploitables sur du matériel réel changent la donne. NIAF s'inscrit dans un champ très concurrentiel : Physical Intelligence (Pi-0, Pi-0.5), NVIDIA (GR00T N2), Google DeepMind (RT-2) et des startups comme Covariant développent tous des VLA confrontés au même problème de discrétisation, inhérent à leur architecture. Les approches par diffusion (DDPM) et flow matching avaient déjà cherché à l'atténuer du côté génératif ; NIAF l'attaque du côté de la représentation fonctionnelle. Aucun déploiement ni partenariat industriel n'est annoncé : les résultats restent limités aux benchmarks simulés et à quelques tests réels, et la validation à grande échelle reste à démontrer.

RobotiqueOpinion
1 source
CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions
166arXiv cs.RO 

CogVLA : un modèle vision-langage-action aligné sur la cognition par routage et sparsification guidés par instructions

Une équipe rattachée au laboratoire JiuTian-VL a publié CogVLA (Cognition-Aligned Vision-Language-Action), une architecture VLA conçue pour réduire les coûts computationnels des modèles robotiques actuels sans sacrifier les performances. Le système repose sur trois modules successifs: EFA-Routing, qui injecte les instructions dans l'encodeur visuel pour compresser les tokens visuels de façon sélective; LFP-Routing, qui élague au niveau du LLM les tokens visuellement ancrés mais jugés non pertinents à l'action visée; et CAtten (Coupled Attention), qui combine attention causale vision-langage avec décodage d'action bidirectionnel en parallèle. Sur le benchmark LIBERO, CogVLA affiche un taux de succès de 97,4%, et 70,0% sur des tâches robotiques réelles. Comparé à OpenVLA, il réduit les coûts d'entraînement d'un facteur 2,5 et la latence d'inférence d'un facteur 2,8. Le code est publié en open source sur GitHub. L'écart entre les 97,4% obtenus sur benchmark et les 70,0% en conditions réelles mérite d'être noté: il reflète le sim-to-real gap persistant que les VLA n'ont pas encore résolu à grande échelle, et nuance les performances annoncées. Sur le fond, CogVLA s'attaque à un problème structurel du domaine: les architectures VLA actuelles, construites sur des VLM de grande taille, exigent un post-training intensif et souffrent d'une latence d'inférence qui freine leur déploiement industriel. La réduction de 2,8x de la latence est potentiellement significative pour les applications temps réel comme la manipulation sur ligne de production ou le pick-and-place à cadence élevée, bien que les conditions de test exactes ne soient pas détaillées dans le papier. La réduction de 2,5x du coût d'entraînement abaisse la barrière d'entrée pour les équipes sans infrastructure GPU de grande échelle. Les VLA (Vision-Language-Action models) représentent l'une des approches les plus actives de la robotique généraliste, associant la compréhension sémantique des LLM à la génération directe de commandes motrices. Les références du domaine incluent Pi-0 (Physical Intelligence), OpenVLA (UC Berkeley), GR00T N2 (NVIDIA) et RT-2 (Google DeepMind). CogVLA se positionne explicitement contre OpenVLA comme baseline de comparaison sur les benchmarks LIBERO. Publié sur arXiv en version 3 (identifiant 2508.21046), ce travail reste à ce stade une contribution académique: aucun partenariat industriel ni calendrier de déploiement n'est mentionné. Il s'inscrit néanmoins dans une tendance de fond visant à rendre les VLA plus légers et plus rapides, condition nécessaire pour leur adoption dans des contextes de production réels.

RobotiqueOpinion
1 source
ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression
167arXiv cs.RO 

ProgVLA : apprentissage de compétences de manipulation robotique guidé par la progression

Des chercheurs ont publié le 28 mai 2026 sur arXiv (réf. 2605.28231) ProgVLA, un modèle vision-langage-action (VLA) compact de 0,1 milliard de paramètres conçu pour la manipulation robotique sous contraintes strictes de calcul et de mémoire. L'architecture repose sur deux mécanismes principaux : un encodeur multimodal à double étage de rééchantillonnage Perceiver, qui compresse des flux variables d'entrées visuelles, linguistiques et proprioceptives en un ensemble fixe de tokens de contexte prêts au contrôle, et un ensemble de "têtes de progression" auxiliaires entraînées par apprentissage par renforcement hors-ligne sur des cibles normalisées d'horizon restant. Ces têtes fournissent à la politique une estimation interne de l'avancement de la tâche, ce qui permet un apprentissage par imitation via flow-matching pondéré par l'avantage et le succès. Sur deux benchmarks standards de manipulation multi-tâche, ProgVLA atteint des taux de réussite compétitifs avec des modèles pré-entraînés nettement plus grands, et les dépasse sur les niveaux de difficulté élevés et les tâches à horizon long. Le modèle a également été validé dans des environnements réels de type "toy kitchen", une validation limitée mais concrète. L'intérêt principal pour les intégrateurs et les équipes de recherche appliquée réside dans le profil de compromis : 0,1 milliard de paramètres seulement, contre les 7B à 70B typiques des VLA récents comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). Ce ratio ouvre la voie à un déploiement sur des plateformes embarquées à budget GPU limité, un obstacle central à la commercialisation des robots manipulateurs au-delà des démonstrateurs de laboratoire. Les ablations publiées sont précises : le rééchantillonneur de contexte appris et le fine-tuning visuel adaptatif à la tâche constituent les deux plus grandes sources de gain, tandis que l'entraînement conscient de la progression apporte un bénéfice supplémentaire ciblé sur les tâches multi-objets et à horizon long. Ce résultat contredit partiellement l'hypothèse selon laquelle seule la taille du modèle détermine la performance sur les tâches complexes. ProgVLA s'inscrit dans une vague de travaux visant à comprimer les VLA sans sacrifier leur capacité de généralisation, une direction prise également par des équipes comme celles qui travaillent sur la distillation de politiques pour des plateformes à faible puissance. Face aux modèles de référence que sont RT-2 (Google DeepMind), OpenVLA (UC Berkeley) et Pi-0, ProgVLA occupe le segment "edge-deployable" encore peu disputé par des solutions validées hors laboratoire. Deux limites sont à noter : le code et les données de benchmark n'étaient pas encore publiés au moment de l'annonce, et la validation réelle se restreint à un environnement toy-kitchen, ce qui rend prématurée toute extrapolation vers des contextes industriels ou des robots commerciaux de type Franka ou UR.

UELes équipes de R&D robotique européennes travaillant sur des plateformes embarquées pourraient surveiller ProgVLA comme alternative légère aux VLA dominants, mais aucun acteur ou programme européen n'est directement impliqué.

RobotiqueOpinion
1 source
AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation
168arXiv cs.RO 

AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation

AdaMorph est un framework de retargeting de mouvement humain vers robot, présenté dans un preprint arXiv (arXiv:2601.07284), qui propose d'unifier sous un seul modèle le transfert de mouvements vers des robots aux morphologies hétérogènes. Les auteurs ont évalué leur approche sur 12 humanoïdes distincts aux topologies cinématiques variées. Le système traite le retargeting comme une tâche de génération conditionnelle : les mouvements sont encodés dans un espace latent "morphology-agnostic" (indépendant de la morphologie du robot cible), puis décodés via un mécanisme de prompting dual. La clé technique est l'Adaptive Layer Normalization (AdaLN), qui module dynamiquement les features du décodeur selon les contraintes d'embodiment du robot cible, plutôt que de concaténer naïvement les paramètres cinématiques en entrée. Un objectif d'entraînement par curriculum garantit la plausibilité physique, notamment la cohérence d'orientation et de trajectoire par intégration. L'enjeu central qu'adresse AdaMorph est le passage à l'échelle : les solutions existantes entraînent un modèle distinct par robot, ce qui devient ingérable à mesure que le catalogue d'humanoïdes s'élargit. Un modèle unifié exploitant des sémantiques de mouvement partagées représente un changement architectural pertinent pour les équipes déployant sur plusieurs plateformes simultanément, qu'il s'agisse d'intégrateurs industriels ou de constructeurs comme Figure, 1X ou Agility Robotics. La généralisation zero-shot sur des mouvements complexes non vus à l'entraînement est le résultat le plus significatif : elle suggère que l'espace latent capture bien l'intent moteur de façon transférable, sans réentraînement par morphologie. Le retargeting de mouvement est un problème ouvert depuis les premières captures de mouvement appliquées à la robotique. Les approches actuelles, notamment les méthodes par apprentissage par renforcement de Berkeley ou des frameworks comme PHC (Perpetual Humanoid Control), traitent généralement une morphologie à la fois. AdaMorph s'inscrit dans la tendance des foundation models appliqués au contrôle robotique, comparable dans son ambition aux politiques généralisables de Physical Intelligence avec pi0. À souligner : il s'agit d'un résultat purement académique, validé en simulation sur 12 robots sans déploiement réel annoncé ni partenariat industriel mentionné. La question du transfert sim-to-real sur des tâches physiques contraintes reste entière.

RobotiquePaper
1 source
Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique
169Ars Technica AI 

Des jambes humanoïdes imprimables en 3D pour libérer l'expérimentation en robotique

Hugging Face a publié le projet LeRobot Humanoid, une paire de jambes robotiques humanoïdes conçue pour être accessible aux chercheurs et aux développeurs. L'ensemble coûte environ 2 500 dollars et repose sur des pièces imprimées en 3D ainsi que des composants disponibles dans le commerce. La publication est complète : elle comprend une liste de matériaux, les fichiers nécessaires à l'impression des pièces, la documentation de câblage, les instructions d'assemblage physique, ainsi que des outils logiciels pour calibrer et contrôler le robot, que ce soit dans un corps physique ou en simulation. Le projet a été présenté dans un billet de blog cosigné par Virgile Batto, ingénieur en robotique chez Hugging Face. Cette initiative pourrait significativement abaisser la barrière d'entrée dans la recherche en robotique humanoïde. Jusqu'ici, développer un robot physique capable de servir de plateforme d'expérimentation représentait un investissement prohibitif, souvent réservé aux grands laboratoires académiques ou aux entreprises bien financées. Disposer d'un corps physique à moins de 3 000 dollars permet aux équipes de taille modeste de tester et d'entraîner des logiciels d'IA robotique en conditions réelles, là où la simulation seule montre ses limites. L'accès au code source, aux schémas et aux fichiers de fabrication facilite aussi la modification, la réparation et l'instrumentation du robot selon les besoins spécifiques de chaque expérience. Hugging Face s'est imposé comme une infrastructure centrale de l'écosystème IA open source, notamment autour des modèles de langage et de vision. Son incursion dans la robotique physique s'inscrit dans une dynamique plus large où plusieurs acteurs tentent de démocratiser le développement de robots intelligents, face à des projets commerciaux comme ceux de Figure AI, 1X Technologies ou Boston Dynamics, qui restent hors de portée pour la plupart des chercheurs indépendants. LeRobot Humanoid ne prétend pas concurrencer ces plateformes avancées, mais vise explicitement un public qui veut comprendre, modifier et apprendre, ouvrant potentiellement la voie à une communauté de robotique ouverte comparable à ce qu'a été Hugging Face pour les modèles de langage.

UEHugging Face, entreprise aux origines françaises cofondée à Paris, démocratise la recherche en robotique humanoïde avec un kit open source à 2 500 $, ouvrant la voie aux laboratoires académiques européens aux budgets limités.

💬 2 500 dollars pour rentrer dans la recherche en robotique humanoïde, c'est une vraie rupture. Hugging Face fait exactement ce qu'ils ont fait pour les LLMs : mettre les fichiers, la doc et les outils sur la table et laisser la communauté faire le reste. Une paire de jambes imprimées chez soi c'est encore loin de Figure AI, mais c'est pas le but.

RobotiqueOpinion
1 source
ANYbotics : l’entreprise porte le marché en avant de la robotique autonome
170Le Big Data 

ANYbotics : l’entreprise porte le marché en avant de la robotique autonome

ANYbotics, entreprise suisse fondée en 2016 comme spin-off de l'ETH Zurich, s'impose comme l'un des acteurs de référence de la robotique quadrupède industrielle. Sa technologie phare, le robot ANYmal, est conçue pour inspecter de manière autonome des installations complexes, usines, raffineries, centrales électriques, sites chimiques, sans intervention humaine directe. La machine se déplace sur des terrains accidentés, grimpe des escaliers, traverse des couloirs étroits et des surfaces humides, et embarque des capteurs capables de détecter des anomalies thermiques ou des fuites de gaz en temps réel. ANYbotics commercialise plusieurs versions de ce robot, dont l'ANYmal X, certifié ATEX pour les zones à risque d'explosion. En décembre 2024, la société a finalisé une levée de fonds de série B de 60 millions de dollars, lui permettant d'accélérer son expansion internationale et de renforcer sa capacité de production. L'enjeu dépasse la simple prouesse mécanique : dans les environnements industriels à haut risque, les robots d'ANYbotics remplacent des rondes humaines régulières par des inspections automatisées continues. Les données collectées permettent d'anticiper les pannes avant qu'elles ne deviennent critiques, réduisant les arrêts non planifiés et les coûts de maintenance. Pour des secteurs comme la pétrochimie, l'énergie ou la chimie, où une défaillance peut avoir des conséquences graves sur la sécurité des travailleurs et la continuité de production, cette approche représente un changement opérationnel concret. L'intérêt des grands groupes industriels pour cette technologie confirme que la robotique d'inspection autonome est en train de passer du stade expérimental à celui de standard industriel. La trajectoire d'ANYbotics illustre la montée en puissance d'un écosystème européen de la robotique avancée, porté par la recherche académique suisse. Les fondateurs ont mis plusieurs années à transformer un prototype de laboratoire en produit fiable pour des environnements réels, validant progressivement leur technologie sur le terrain avant de lever des financements significatifs. L'entreprise évolue dans un marché en pleine consolidation, où elle affronte notamment Boston Dynamics et ses concurrents américains et asiatiques. La levée de 60 millions de dollars en 2024 lui donne les moyens de tenir ce rythme, d'ouvrir de nouveaux marchés géographiques et de diversifier ses certifications réglementaires. Les prochaines étapes concerneront probablement l'intégration plus poussée de l'intelligence artificielle dans l'analyse des données collectées, et l'extension vers de nouveaux secteurs comme les infrastructures d'énergie renouvelable.

UEANYbotics, spin-off suisse de l'ETH Zurich, renforce l'écosystème européen de la robotique industrielle avec des robots d'inspection certifiés ATEX, directement applicables aux installations pétrochimiques et énergétiques en Europe.

RobotiqueOpinion
1 source
L’IA physique : le prochain marché que surveille déjà Wall Street
171Robot Magazine FR 

L’IA physique : le prochain marché que surveille déjà Wall Street

Wall Street identifie désormais la "Physical AI" comme le prochain cycle d'investissement majeur après l'IA générative. Selon plusieurs cabinets spécialisés, le marché mondial de la robotique intelligente et de l'IA physique pourrait dépasser 3 000 milliards de dollars d'ici 2040. Goldman Sachs est plus précis sur le segment humanoïde : 150 milliards de dollars d'ici 2035, avec un marché global de robotique intelligente franchissant les 400 milliards. NVIDIA, valorisé à plus de 3 000 milliards de dollars en 2026, est présenté comme le principal bénéficiaire actuel de cette tendance, son PDG Jensen Huang ayant publiquement intégré la "Physical AI" à sa feuille de route. Tesla, de son côté, est repositionnée dans cette grille de lecture grâce à son robot humanoïde Optimus, au-delà de son coeur de marché automobile. À noter : ces chiffres sont des projections de marché, pas des revenus confirmés, et l'article ne cite aucune métrique opérationnelle de déploiement. La rupture que pointe cet article est structurelle : l'IA générative est restée confinée aux écrans (texte, images, code), tandis que la Physical AI vise à en faire une force de travail dans le monde réel, capable de manipuler des objets, se déplacer et exécuter des tâches physiques de manière autonome. Pour un COO industriel ou un intégrateur, ce changement de paradigme est pertinent dans un contexte de pénuries de main-d'oeuvre persistantes et d'accélération de l'automatisation. Ce qui change pour les décideurs B2B, c'est l'horizon de planification : les fonds se positionnent déjà, ce qui signifie que les valuations des acteurs émergents (robotique, simulation, edge computing industriel) vont probablement se comprimer dans les 18 à 36 prochains mois, avant même que des déploiements à grande échelle soient prouvés. Ce récit s'inscrit dans un cycle bien rodé : après le cloud (AWS, Azure), puis l'IA générative (NVIDIA, OpenAI), les analystes financiers cherchent le prochain thème de surperformance. NVIDIA a amorcé ce pivot avec ses plateformes Isaac (simulation robotique) et Cosmos (world model pour robots), et ses partenariats avec Figure, 1X, Agility Robotics ou Boston Dynamics. Tesla joue la même carte avec Optimus, dont les premières vidéos de ligne de production interne ont été diffusées fin 2024, sans chiffres de cadence publiés. L'article reste toutefois une analyse financière généraliste : il ne cite aucun robot spécifique avec des métriques techniques (DOF, payload, cycle time), aucun site de déploiement confirmé, et aucun acteur européen malgré la pertinence d'entreprises comme Wandercraft ou Enchanted Tools sur ce segment. Les prochaines étapes annoncées restent floues, ce qui est caractéristique du registre "thème d'investissement émergent" plutôt que d'un bilan opérationnel.

UELa dynamique d'investissement Wall Street sur la Physical AI devrait indirectement comprimer les valorisations des startups robotiques européennes dans les 18-36 mois, avant tout déploiement prouvé, ce qui rend la fenêtre de levée de fonds pour des acteurs comme Wandercraft ou Enchanted Tools potentiellement plus courte.

RobotiqueOpinion
1 source
EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)
172arXiv cs.RO 

EXPO-FT : affinage par apprentissage par renforcement économe en données pour les modèles vision-langage-action (VLA)

EXPO-FT est un système de fine-tuning par apprentissage par renforcement (RL) destiné à améliorer la fiabilité des politiques robotiques issues de modèles Vision-Langage-Action (VLA) pré-entraînés. Présenté dans un preprint arXiv (2605.25477, mai 2026), le système atteint un taux de réussite parfait : 30 succès sur 30 tentatives sur trois tâches de manipulation exigeantes. Ces tâches incluent guider une guirlande lumineuse dans son connecteur pour la faire s'allumer, frapper une balle de billard dans une poche, et insérer une fleur dans un goulot de bouteille à vin. Les résultats sont obtenus avec seulement 19,1 minutes en moyenne de données collectées sur robot réel, sans recours à la simulation. Le code source est publié en open source. Ce résultat attaque directement le "reliability gap" : l'écart persistant entre les capacités de généralisation des VLA pré-entraînés et leur fiabilité effective en conditions opérationnelles. Les modèles comme pi-0 (Physical Intelligence), OpenVLA (UC Berkeley) ou RT-2 (Google DeepMind) montrent une bonne généralisation entre tâches, mais peinent à dépasser les seuils de succès nécessaires en production industrielle. EXPO-FT propose une voie médiane : ni repartir de zéro avec du RL pur, coûteux en données et instable, ni se limiter au fine-tuning supervisé qui plafonne rapidement. En moins de 20 minutes de données réelles, le système atteint la perfection sur des exercices combinant précision millimétrique, dynamique de mouvement et robustesse aux variations d'état initial. Pour un intégrateur ou un COO déployant des bras robotiques sur ligne, c'est un signal que le commissioning par RL pourrait se mesurer en minutes plutôt qu'en jours, si ces résultats se confirment hors conditions de laboratoire. Ce travail s'inscrit dans la convergence accélérée entre LLM fondationnels et contrôle robotique amorcée depuis 2023. Google DeepMind avec Gemini Robotics, Physical Intelligence avec pi-0 et Covariant ont démontré que des politiques pré-entraînées à grande échelle offrent une base solide, mais la question du "last mile" restait ouverte. EXPO-FT y répond en publiant une infrastructure de RL finetuning stable et accessible. Les concurrents directs sur ce créneau sont les approches de reinforcement finetuning développées chez 1X Technologies et dans plusieurs labos académiques américains. Côté européen, des acteurs comme Enchanted Tools ou Wandercraft n'ont pas encore publié de travaux équivalents sur le RL finetuning de VLA, soulignant un écart notable avec la recherche américaine sur ce segment précis.

UEL'absence de travaux équivalents côté européen (Enchanted Tools, Wandercraft) souligne un retard compétitif de l'écosystème EU sur le RL finetuning de VLA, segment clé pour industrialiser les politiques robotiques.

💬 30 sur 30, moins de 20 minutes de données réelles, code open source. C'est exactement le type de résultat qu'on attendait pour débloquer le commissioning robotique, parce que le vrai blocage n'a jamais été la généralisation (pi-0 et RT-2 l'ont prouvé) mais la fiabilité en conditions opérationnelles, ce fameux écart qui rend les démos impressionnantes et les déploiements industriels galères. Bon, sur le papier c'est parfait, mais je veux voir ça tenir sur une ligne d'assemblage qui ne ressemble pas à un setup de labo.

RobotiqueOpinion
1 source
SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions
173arXiv cs.RO 

SpecPrune-VLA : accélérer les modèles vision-langage-action via un élagage auto-spéculatif sensible aux actions

SpecPrune-VLA est une méthode d'élagage (pruning) des modèles Vision-Langage-Action (VLA) publiée sur arXiv (arXiv:2509.05614v3, version révisée). Les VLA sont les architectures neuronales qui transforment images et instructions en langage naturel en commandes motrices pour robots manipulateurs. Sans réentraînement requis, la méthode opère à deux niveaux : un élagage statique par action, combinant historique global et attention locale pour réduire les tokens visuels traités à chaque étape, et un élagage dynamique couche par couche selon l'importance estimée de chaque couche du réseau. Un troisième composant, un contrôleur léger, classifie chaque action en "grossière" ou "fine" selon la vitesse de l'effecteur terminal, et ajuste l'agressivité du pruning en conséquence. Résultats annoncés : facteur d'accélération de 1,57x en simulation LIBERO et 1,70x sur tâches réelles, avec dégradation négligeable du taux de succès. L'enjeu est directement industriel. Les modèles VLA tels que pi-0 et pi-0.5 de Physical Intelligence, OpenVLA ou GR00T N2 de NVIDIA sont progressivement déployés dans des cellules de manipulation robotique, mais leur latence d'inférence reste un verrou pour l'embarqué temps réel. Les méthodes d'accélération existantes, focalisées sur la seule information locale à chaque step, provoquent des chutes de taux de succès supérieures à 20%, ce qui est rédhibitoire pour des environnements de production. SpecPrune-VLA exploite la cohérence spatiale et temporelle inhérente aux tâches robotiques : des frames consécutives se ressemblant fortement, des tokens visuels redondants peuvent être supprimés sans sacrifier la précision motrice. L'absence de réentraînement abaisse significativement la barrière d'adoption pour les intégrateurs. Le gain de 1,70x sur tâches réelles est un résultat solide, même si les conditions expérimentales précises (type de robot, nature des tâches, payload) ne sont pas détaillées dans le résumé publié. Le pruning de tokens dans les transformers est une technique mature côté LLMs (SnapKV, DuoAttention), mais son application aux VLA soulève des défis spécifiques liés à la nature temporelle et multimodale des entrées, et au fait que les erreurs motrices se cumulent sur des horizons longs. Les principaux acteurs qui investissent dans la réduction de la latence d'inférence VLA sont NVIDIA avec Isaac GR00T, Physical Intelligence avec ses modèles pi, et Figure AI avec son architecture Helix. Aucun acteur français ou européen n'est mentionné dans ces travaux. La publication en version v3 sur arXiv signale des révisions substantielles depuis la soumission initiale, mais l'acceptation dans une conférence ou un journal n'est pas encore confirmée, ce qui invite à nuancer la portée des résultats annoncés en attendant une évaluation par les pairs.

💬 1,70x sur du matériel réel sans réentraîner, c'est le genre de résultat qui va donner des idées aux intégrateurs qui bloquent sur la latence depuis des mois. La distinction grossière/fine selon la vitesse de l'effecteur, c'est malin : ça montre qu'ils ont pensé à la dynamique réelle du robot, pas juste au benchmark simulé. Bon, c'est encore v3 sur arXiv, pas de validation en conférence pour l'instant, faut garder ça en tête.

RobotiqueOpinion
1 source
IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact
174arXiv cs.RO 

IsaacIPC : simulation haute fidélité et rendu réaliste couplés pour la robotique en contact

Des chercheurs ont publié le 27 mai 2026 sur arXiv (référence 2605.24339) IsaacIPC, un framework de simulation robotique qui couple le moteur IPC (Incremental Potential Contact) accéléré GPU avec l'environnement IsaacSim/Lab de NVIDIA. Le coeur du système repose sur un mapping de déformation entre maillages de simulation et maillages de rendu, permettant un rendu visuel réaliste en temps réel pour des scénarios à contacts riches (manipulation déformable, préhension complexe). Les auteurs introduisent également le GMCP (Geometric Mortar Contact Potential), une nouvelle formulation de potentiel barrière appliquée aux surfaces tactiles pour résoudre les distributions pression-contact avec une précision supérieure aux approches existantes. Le framework est validé sur un robot quadrupède, une main dextre à doigts multiples et un préhenseur UMI (Universal Manipulation Interface). L'enjeu industriel est direct : la qualité des données de simulation conditionne la robustesse des politiques de manipulation entraînées en sim-to-real. IsaacIPC s'attaque au problème du rendu réaliste couplé à la physique du contact, un point de friction majeur pour l'entraînement de VLA (Vision-Language-Action models) et de politiques de manipulation fine. Une simulation visuellement fidèle réduit le domain gap sans recourir à la randomisation agressive, ce qui accélère le déploiement sur hardware réel. La précision tactile apportée par GMCP est particulièrement pertinente pour les intégrateurs travaillant sur l'assemblage ou la chirurgie assistée par robot. Le contexte scientifique est celui d'une compétition intense autour des simulateurs pour la robotique apprenante. IPC, initialement développé en infographie par Li et al. (2020), est reconnu pour sa robustesse aux contacts mais reste coûteux en calcul -- son intégration dans IsaacSim comble un écart entre fidelité physique et vitesse nécessaire à l'entraînement par reinforcement learning. En face, MuJoCo (DeepMind), Genesis et PhysX restent des références, mais peinent sur les déformables et la tactile. IsaacIPC reste à ce stade un preprint académique sans annonce de disponibilité publique dans Isaac Lab, mais son intégration dans l'écosystème NVIDIA ouvre une voie réaliste vers une adoption industrielle rapide si les benchmarks de contact tiennent à l'échelle.

UELes laboratoires européens travaillant sur la manipulation robotique apprenante (INRIA, DLR, ETH Zurich) pourraient bénéficier de cet outil si NVIDIA le rend public dans Isaac Lab, mais aucun impact direct ou immédiat sur la France/UE n'est identifié à ce stade.

💬 Le gap sim-to-real, c'est le problème de fond de la robotique apprenante depuis des années, et là quelqu'un s'y attaque enfin du bon côté: rendu réaliste et physique du contact au même endroit, dans le même outil. Le GMCP pour la tactile fine couplé à IsaacSim, c'est le genre de truc qui permet d'entraîner des VLA sur de la manipulation délicate sans randomiser dans tous les sens pour compenser. Reste à voir si ça sort vraiment dans Isaac Lab, parce que pour l'instant c'est encore un preprint.

RobotiquePaper
1 source
Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique
175arXiv cs.RO 

Échantillonnage guidé à l'inférence par un vérificateur de progression des tâches pour la manipulation robotique

Une équipe de recherche publie TapSampling (arXiv:2605.25547, mai 2026), un cadre plug-and-play d'échantillonnage au moment de l'inférence pour la manipulation robotique. Là où la majorité des travaux du domaine cherchent à améliorer les performances en augmentant la taille des données d'entraînement ou des modèles, TapSampling explore un axe différent : l'exploitation du calcul disponible à l'inférence. Le système repose sur deux composants. D'abord, un Action-VAE qui projette les actions générées par la politique dans un espace latent de faible dimension via une distribution postérieure compressée, permettant de tirer un nombre arbitraire d'actions candidates approximant la distribution réelle. Ensuite, un vérificateur sémantique qui reformule la sélection d'actions comme une prédiction de progression de tâche (task-progress outcome prediction), en exploitant la structure séquentielle intrinsèque des jeux de données robotiques pour choisir l'action la plus prometteuse de façon interprétable. L'intérêt principal réside dans l'agnosticisme vis-à-vis de la politique sous-jacente : TapSampling s'applique sans fine-tuning additionnel à des modèles généralistes existants, qu'ils soient basés sur la diffusion ou sur des architectures autorégressives. Les expériences présentées en simulation et en conditions réelles montrent des améliorations qualifiées de « substantielles » sur plusieurs politiques généralistes, bien que l'abstract ne fournisse pas de chiffres précis de taux de réussite, ce qui invite à la prudence avant de juger de l'ampleur réelle des gains. Pour les ingénieurs robotique et les intégrateurs, l'approche ouvre la possibilité d'améliorer des politiques déjà déployées sans réentraînement, en ajoutant simplement un surcoût computationnel à l'inférence. Ce travail s'inscrit dans une tendance plus large consistant à transposer le test-time compute scaling, popularisé par les grands modèles de langage (OpenAI o1, DeepSeek-R1), vers la robotique embodied. D'autres approches comparables incluent le Best-of-N sampling avec des modèles de récompense appris séparément, ainsi que les méthodes de vérification intégrées dans des politiques comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA). TapSampling se distingue par un vérificateur ancré dans la progression de tâche plutôt que dans une récompense exogène, ce qui lui confère une meilleure lisibilité sémantique. Le code et les modèles sont mis à disposition via la page projet des auteurs, ce qui permettra une reproduction et une évaluation indépendante des résultats annoncés.

RobotiqueActu
1 source
La Chine donne une carte d’identité aux robots humanoïdes : Bientôt le droit de vote ?
176Le Big Data 

La Chine donne une carte d’identité aux robots humanoïdes : Bientôt le droit de vote ?

La Chine a officiellement lancé vendredi une plateforme nationale d'identification des robots humanoïdes, baptisée « Plateforme de services de gestion du cycle de vie complet des humanoïdes ». Pilotée par le Comité de normalisation de la robotique humanoïde et de l'intelligence incarnée, rattaché au ministère chinois de l'Industrie et des Technologies de l'information, cette initiative attribue à chaque robot fabriqué en Chine un identifiant numérique unique, structuré en quatre blocs : un code pays à deux chiffres, un code fabricant à quatre chiffres, un code modèle à six chiffres, et un numéro de série à 17 chiffres pour distinguer chaque unité individuellement. Ce code accompagne la machine de sa fabrication jusqu'à son recyclage et s'applique à l'ensemble de la chaîne, industriels, distributeurs, prestataires, utilisateurs, centres de recyclage. Avant même le lancement officiel, environ 28 000 robots répartis sur 200 modèles disposaient déjà d'une identité numérique, signe que le déploiement était déjà largement anticipé par l'industrie. L'objectif déclaré est de répondre à des enjeux de sécurité, de contrôle et de gouvernance dans un secteur qui évolue plus vite que les réglementations censées l'encadrer. Yu Xiuming, directeur adjoint de l'Institut chinois de normalisation électronique, présente le système moins comme un outil de surveillance que comme une infrastructure industrielle indispensable avant tout déploiement international à grande échelle. Concrètement, la traçabilité complète de chaque unité doit renforcer la responsabilité des fabricants en cas d'incident, faciliter les rappels, et permettre aux autorités de surveiller l'utilisation des machines dans des environnements sensibles. Pour les entreprises, c'est aussi une forme de certification qui facilite l'export et la confiance des clients. Cette initiative s'inscrit dans un contexte de croissance explosive du secteur. Selon une étude IDC citée en janvier 2026, le marché mondial des robots humanoïdes a progressé de 508 % sur un an, avec environ 18 000 unités expédiées à l'échelle mondiale. La Chine est au cœur de cette dynamique, avec plus d'une centaine de fabricants actifs sur son territoire, des entreprises comme Unitree ou Fourier Intelligence ayant déjà attiré l'attention internationale. Pékin mise sur les humanoïdes comme levier stratégique dans sa course technologique face aux États-Unis, et ce système d'identification constitue une étape de normalisation classique dans tout secteur industriel arrivant à maturité. Il pose les bases d'un écosystème plus structuré, condition sine qua non pour que les robots humanoïdes quittent les laboratoires et les usines pilotes pour s'intégrer durablement dans l'économie réelle.

UELes entreprises européennes qui importent ou distribuent des robots humanoïdes fabriqués en Chine devront intégrer ce système d'identification dans leurs processus logistiques et de conformité.

💬 Le titre fait sourire, mais la vraie information c'est que la Chine vient de poser la première brique d'une infrastructure industrielle sérieuse pour les humanoïdes. 508% de croissance sur un an, ça ne se régule pas à la louche. Les boîtes européennes qui importent du chinois vont devoir intégrer ce standard dans leur chaîne, bon gré mal gré.

RobotiqueReglementation
1 source
Des robots autonomes dotés d'une perception précise de l'environnement réel grâce à une avancée d'ingénieurs américains
177Interesting Engineering 

Des robots autonomes dotés d'une perception précise de l'environnement réel grâce à une avancée d'ingénieurs américains

Brain Corp, spécialiste américain des robots autonomes mobiles (AMR) pour environnements commerciaux, annonce un partenariat de recherche avec l'Université de Californie à San Diego (UCSD) autour des technologies de cartographie sémantique et d'intelligence contextuelle. L'objectif est de doter les systèmes autonomes d'une "couche de grounding contextuel", soit une représentation numérique intelligente de l'espace physique qui permet aux robots de comprendre ce qui se passe autour d'eux et de réagir de manière adaptée. Ce partenariat s'appuie sur l'empreinte opérationnelle existante de Brain Corp: plus de 50 000 robots autonomes déployés à l'échelle mondiale, avec plus de 25 millions d'heures d'opérations enregistrées dans des environnements commerciaux variés (centres commerciaux, entrepôts, aéroports). Du côté académique, c'est le Dr. Atanasov, du département Génie électrique et informatique de la Jacobs School of Engineering d'UCSD, qui pilote les travaux. Les avancées issues de cette collaboration seront intégrées dans BrainOS, la plateforme d'autonomie propriétaire de Brain Corp. Ce partenariat signale un pivot stratégique dans la robotique AMR: le secteur passe d'une compétition centrée sur la navigation vers une compétition sur la compréhension contextuelle de l'espace. Le SLAM (Simultaneous Localization and Mapping) a permis de faire sortir les robots des environnements industriels fixes vers des espaces plus dynamiques, mais pour orchestrer des flottes entières de robots, de capteurs fixes et d'agents IA à l'échelle enterprise, la localisation seule ne suffit plus. Il faut que le système distingue un client qui passe d'un obstacle temporaire, ou adapte son comportement à une zone de travaux en temps réel. John Black, CTO de Brain Corp, formule l'enjeu ainsi: "Le défi n'est plus simplement le mouvement ou la perception, mais la compréhension." C'est le passage de la robotique de tâche à la robotique de situation, dont les implications pour la commercialisation à grande échelle sont concrètes, même si les métriques de performance des cartes sémantiques produites par cette collaboration n'ont pas encore été communiquées. Brain Corp, fondée en 2009 et dont le siège est à San Diego, a bâti sa position sur BrainOS, système d'exploitation pour AMR utilisé notamment par des fabricants de machines de nettoyage comme Tennant et Minuteman. Avec 50 000 unités déployées, la société dispose d'un corpus de données opérationnelles réelles que peu d'acteurs de la robotique commerciale peuvent revendiquer, un avantage structurel face à des concurrents comme Avidbots ou SoftBank Robotics. Le partenariat avec l'UCSD s'inscrit dans une tendance plus large: les plateformes AMR cherchent à devenir des couches d'orchestration multi-robots et multi-capteurs, concurrençant indirectement des solutions comme celles de Fetch Robotics (racheté par Zebra Technologies) ou 6 River Systems (acquis par Shopify). À ce stade, aucun budget de recherche, ni calendrier de déploiement de fonctionnalités dans BrainOS, n'a été rendu public.

RobotiquePaper
1 source
Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action
178arXiv cs.RO 

Agentic-VLA : adaptation en ligne efficace pour les modèles vision-langage-action

Une équipe de chercheurs présente Agentic-VLA, un framework d'entraînement agentique pour modèles Vision-Langage-Action (VLA), publié sur arXiv (2605.22896) fin mai 2026. L'approche repose sur trois mécanismes : une synthèse adaptative de récompenses qui génère dynamiquement des fonctions de récompense en décomposant les tâches complexes en sous-objectifs progressifs pour un apprentissage par curriculum ; une exploration guidée par le langage via un modèle critique qui structure la recherche de politique plutôt que de procéder par échantillonnage aléatoire ; et une mémoire d'expériences qui stocke des poids de politique pour amorcer l'adaptation à de nouvelles tâches similaires. Évalué sur le benchmark LIBERO, le framework affiche +12,3% sur les tâches longue portée, +28,5% en apprentissage one-shot, et un transfert inter-tâches passant de 0% à 31,2% sans démonstrations spécifiques aux tâches cibles. La convergence est 2,4 fois plus rapide que les méthodes d'adaptation en ligne existantes. Les résultats tiennent également sur RoboTwin 2.0, benchmark dual-bras, y compris en mode difficile randomisé. Ces performances s'attaquent à deux verrous bien identifiés du déploiement industriel des VLA : la mauvaise généralisation aux environnements non vus et la dépendance aux larges jeux de démonstrations coûteuses à collecter. Le chiffre de 31,2% de transfert sans démonstration est le plus significatif : il suggère qu'un système VLA pourrait s'adapter à une tâche inédite sans données étiquetées supplémentaires, cassant le cycle coûteux de collecte-retrain-validation. Le gain one-shot (+28,5%) est directement exploitable pour les intégrateurs robotiques qui opèrent dans des environnements variés avec peu de données disponibles. Si ces chiffres se confirment hors simulation, Agentic-VLA réduit le coût marginal de l'adaptation d'un robot à un nouveau cas d'usage, ce qui est le vrai goulot d'étranglement de la robotisation flexible. Les VLA sont des modèles combinant un encodeur vision-langage (de type LLaVA ou similaire) et un générateur d'actions motrices. Les références actuelles sont π0 de Physical Intelligence, OpenVLA et Octo. Leur talon d'Achille commun est le demo-to-reality gap : les politiques entraînées sur démonstrations se dégradent rapidement en conditions opérationnelles réelles. Agentic-VLA répond par l'adaptation en ligne continue plutôt que par pré-entraînement massif, ce qui est une orientation différente des approches à grandes données comme π0. L'article reste un preprint non relu par les pairs, sans validation sur robot physique rapportée, ce qui limite la portée immédiate des conclusions. La prochaine étape naturelle est une démonstration hardware en environnement non contrôlé.

💬 Le chiffre qui m'intéresse, c'est le 31,2% de transfert sans démonstration. Si ça tient hors simulation, ça règle le vrai problème de la robotique flexible : tu n'as plus à reconstruire un dataset complet pour chaque nouveau cas d'usage, le robot s'adapte. Reste à voir sur du vrai hardware, mais sur le papier c'est le bon angle d'attaque.

RobotiqueOpinion
1 source
SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage
179arXiv cs.RO 

SCRIPT : politique de diffusion extensible, entraînement multi-étapes, contrôle physique d'humanoïdes par le langage

Une équipe de chercheurs a publié le 28 mai 2026 sur arXiv (2605.22894) SCRIPT, un système de contrôle de robots humanoïdes en simulation physique piloté par des instructions en langage naturel. L'architecture centrale, baptisée JAST-DiT (Joint Action-State-Text Diffusion Transformer), représente simultanément les actions du robot, ses états physiques et les commandes textuelles sous forme de flux de tokens distincts, reliés par un mécanisme d'attention conjointe. Cette conception permet une interaction directe entre la sémantique linguistique et la dynamique de contrôle, sans passer par une couche de traduction intermédiaire. Pour stabiliser le contrôle sur des horizons longs, SCRIPT intègre un conditionnement d'historique non linéaire qui conserve un contexte récent dense tout en échantillonnant des repères de plus en plus épars dans l'historique à long terme. Le pré-entraînement par imitation supervisée est ensuite renforcé par une phase RLHR (Reinforcement Learning with Hybrid Rewards), qui injecte un bruit apprenable dans le processus de diffusion pour améliorer la qualité de mouvement et le suivi d'instruction en boucle fermée. Les évaluations quantitatives montrent que SCRIPT dépasse les méthodes antérieures sur trois métriques : alignement textuel, qualité de mouvement et réalisme physique. Les études de passage à l'échelle sur le dataset MotionMillion, qui totalise 1 200 heures de données de mouvement, confirment une progression continue des performances à mesure que le modèle grossit. L'intérêt technique de SCRIPT est de s'attaquer frontalement à la tension structurelle du domaine : entre expressivité sémantique (un humanoïde qui comprend des ordres variés) et faisabilité physique (un humanoïde qui ne tombe pas). Les approches existantes sacrifient généralement l'un pour l'autre. Le fait que SCRIPT améliore simultanément les trois métriques en boucle fermée est notable, car les simulations en boucle ouverte masquent souvent les dérives accumulées. La démonstration de scalabilité sur 1 200 heures de données suggère que l'architecture n'est pas un artefact de surapprentissage sur un corpus réduit, ce qui est un signal positif pour quiconque envisage un pré-entraînement à grande échelle de fondations motrices. Pour les intégrateurs et les équipes R&D, cela valide partiellement l'hypothèse selon laquelle les politiques de diffusion à grande échelle peuvent absorber la variabilité des commandes en langage naturel sans sacrifier la stabilité physique. Ce travail s'inscrit dans la vague des VLA (Vision-Language-Action models) appliqués aux humanoïdes en simulation physique, un axe de recherche très actif depuis 2024. Il entre en concurrence directe avec des approches comme PHC, UniHSI ou les variantes récentes de contrôle par diffusion de Nvidia (GR00T N2), qui ciblent des problèmes similaires de contrôle conditionné par le langage. SCRIPT se distingue par sa composante RLHR post-entraînement et son protocole de scaling explicite, deux éléments souvent absents des publications académiques concurrentes. Il s'agit ici d'une annonce de recherche préprint, pas d'un produit déployé : le code sera rendu public mais aucun calendrier de transfert vers du matériel réel n'est mentionné. Les prochaines étapes naturelles seront le transfert sim-to-real et l'évaluation sur des plateformes physiques comme Unitree H1 ou Figure 03.

💬 Tout le monde fait du contrôle d'humanoïde en simu physique en ce moment, mais SCRIPT se distingue par quelque chose de rare en académique : une phase de renforcement post-entraînement documentée. Sur 1 200 heures de données, les perfs progressent sans s'effondrer, ce qui élimine le scénario "artefact de sur-entraînement". Maintenant faut juste que ça tienne sur un vrai robot, et là c'est une autre histoire.

RobotiqueOpinion
1 source
USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents
180arXiv cs.RO 

USIM et U0 : un jeu de données et un modèle vision-langage-action pour robots sous-marins polyvalents

Une équipe de chercheurs a publié USIM et U0, un dataset de simulation et un modèle vision-langage-action (VLA) conçus pour doter les robots sous-marins d'une intelligence généraliste multi-tâches. Le dataset USIM regroupe plus de 905 000 images issues de 2 275 trajectoires simulées, soit environ 25 heures d'interactions enregistrées sur le robot BlueROV2, un ROV à six degrés de liberté largement utilisé en recherche. Le modèle U0, entraîné sur ces données, est capable d'exécuter des tâches allant de la navigation par évitement d'obstacles à la manipulation mobile en trois dimensions, le tout piloté par des instructions en langage naturel. En évaluation, U0 atteint un taux de succès global de 43,1 % sur des tâches en ligne, soit une amélioration de 5,5 points de pourcentage par rapport aux meilleures baselines existantes (plafonnées à 37,6 %), avec des performances particulièrement élevées en navigation pure, où le taux monte à 87,5 %. L'erreur moyenne de prédiction d'action hors ligne est réduite à 0,0359. Ces résultats ont une portée directe pour les intégrateurs et opérateurs de systèmes sous-marins autonomes : ils démontrent qu'un modèle généraliste entraîné sur données synthétiques peut effectivement franchir le sim-to-real gap dans un environnement aussi contraignant que le milieu aquatique, où la visibilité est réduite, les courants perturbent la stabilité et les repères visuels sont ambigus. Pour le secteur, c'est une validation de l'approche VLA à l'échelle sous-marine, un domaine où la quasi-totalité des travaux antérieurs s'était cantonnée à des méthodes spécialisées tâche par tâche. L'intégration d'un module de perception convolution-attention (CAP) avec estimation de pose cible comme tâche auxiliaire renforce explicitement la conscience spatiale du modèle, ce qui est critique pour la manipulation en 3D dans des scènes non structurées. Jusqu'ici, la robotique sous-marine autonome reposait majoritairement sur des systèmes de contrôle classiques ou des réseaux de neurones entraînés sur des jeux de données tâche-spécifiques, souvent collectés en conditions réelles à coût élevé. L'approche USIM mise sur la synthèse de données simulées à grande échelle pour contourner ce goulot d'étranglement, une stratégie déjà validée en robotique terrestre par des frameworks comme IsaacGym ou Genesis. Du côté des concurrents directs, les travaux sur les robots sous-marins généralistes restent rares : les projets OpenDive ou les plateformes de Woods Hole Oceanographic Institution n'ont pas encore publié d'équivalent VLA. Aucun acteur européen n'est cité dans cet article, bien que des entreprises comme ECA Group (France) ou Saab Seaeye (Suède) opèrent sur le marché ROV industriel. Le papier, disponible sur arXiv (2510.07869v4), pose un cadre d'évaluation standardisé incluant métriques hors ligne et exécution en ligne, ce qui facilitera les comparaisons futures. Les prochaines étapes annoncées concernent le transfert vers des plateformes physiques et l'extension du dataset à des scénarios plus complexes.

UEImpact indirect potentiel pour des acteurs européens du ROV industriel comme ECA Group (France) ou Saab Seaeye (Suède), mais aucun partenariat ni déploiement européen n'est annoncé dans ce travail de recherche.

💬 43 % de succès global, bon, c'est le début. Mais 87 % en navigation pure et zéro données réelles collectées en mer, c'est la preuve que la stratégie simulation-à-grande-échelle fonctionne sous l'eau exactement comme en terrestre : plus besoin d'envoyer un ROV filmer des épaves pendant des mois pour constituer un dataset. ECA Group a un truc sérieux à surveiller.

RobotiqueOpinion
1 source
Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes
181arXiv cs.RO 

Any2Any : transfert efficace entre plateformes pour le suivi corporel complet de robots humanoïdes

Une équipe de chercheurs publie sur arXiv (réf. 2605.23733) une méthode baptisée Any2Any pour transférer des modèles de whole-body tracking (WBT) entre différentes plateformes humanoïdes sans réentraînement complet. Le WBT désigne la capacité d'un robot humanoïde à reproduire fidèlement des mouvements complexes sur l'ensemble du corps, et constitue aujourd'hui un composant clé des pipelines de contrôle humanoïde. Any2Any procède en deux étapes: un alignement cinématique entre robot source et robot cible, puis une adaptation dynamique par fine-tuning paramétrique léger (PEFT) appliqué aux seuls modules sensibles à la dynamique du mouvement. Résultat annoncé: le transfert de modèles Sonic préentraînés sur le Unitree G1 vers deux robots de LimX Robotics, le LimX Oli et le LimX Luna, en mobilisant seulement 1% des données et du calcul nécessaires à un entraînement complet from scratch, avec des performances de suivi comparables ou supérieures. Si ces chiffres se confirment en conditions réelles, Any2Any s'attaque à l'un des principaux verrous économiques du marché humanoïde: le coût de redéveloppement du contrôle moteur bas-niveau pour chaque nouvelle plateforme. Entraîner un modèle WBT from scratch mobilise aujourd'hui d'importants volumes de données simulées et de GPU-heures, ce qui pénalise les robots à faible volume ou en phase de prototype. Un ratio de 1% de ressources représente, si validé, un changement structurel dans l'économie du développement robotique. Cette approche conforte également l'hypothèse d'un "foundation model" pour le contrôle moteur humanoïde: un modèle préentraîné sur une plateforme bien documentée pourrait devenir un socle réutilisable par des intégrateurs tiers, réduisant la barrière à l'entrée pour les acteurs disposant de ressources computationnelles limitées. Le WBT humanoïde concentre une concurrence intense, avec les travaux de Physical Intelligence autour de Pi-0, les modèles GR00T N2 de NVIDIA, et les pipelines internes de Figure AI et Agility Robotics. Unitree, acteur chinois prolixe en publications open-source, fournit son G1 comme base de préentraînement dans un nombre croissant de travaux académiques. LimX Robotics, moins médiatisé, développe humanoïdes et quadrupèdes et joue ici le rôle de cible de validation. Any2Any reste cependant un preprint arXiv sans validation industrielle publiée, et les démonstrations vidéo sélectionnées dans ce type de soumission ne reflètent pas nécessairement les performances moyennes en environnement non contrôlé. Les prochaines étapes logiques seraient une validation sur des tâches de manipulation en milieu réel et une intégration dans des pipelines open-source existants.

💬 1% des données et du calcul pour transférer un modèle de contrôle moteur entre deux humanoïdes différents, si ça se confirme hors conditions contrôlées, c'est l'un des vrais verrous du secteur qui tombe. Le coût de réentraînement par plateforme pénalise tous les acteurs qui n'ont pas le budget de Unitree ou NVIDIA depuis des années. C'est un preprint, donc on verra, mais l'argument économique est bien posé.

RobotiquePaper
1 source
Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle
182arXiv cs.RO 

Mélange d'experts structuré sémantiquement pour la manipulation robotique compositionnelle

Des chercheurs ont publié le 23 mai 2026 sur arXiv (réf. 2605.23477) un cadre d'apprentissage pour la manipulation robotique compositionnelle baptisé SMoDP (Semantically Structured Mixture-of-Experts Diffusion Policy). L'approche combine des politiques de diffusion avec une architecture Mixture-of-Experts (MoE) guidée sémantiquement : un prédicteur de compétences léger, supervisé par des annotations hors-ligne générées par des modèles vision-langage (VLM), route des séquences d'actions vers des experts spécialisés par phase comportementale (saisie, transport, insertion). La cohérence du routage est assurée par une double stratégie d'alignement contrastif, inter-modal pour ancrer les observations multimodales dans des sémantiques définies en langage naturel, et intra-modal pour maintenir un routage cohérent entre comportements visuellement distincts mais fonctionnellement équivalents. Sur des benchmarks multi-tâches, SMoDP surpasse les baselines diffusion et MoE existantes avec une meilleure efficacité paramétrique, et supporte le transfert vers de nouvelles tâches via fine-tuning frugal. L'enjeu est réel : les politiques de diffusion haute performance sont coûteuses en inférence, tandis que les versions allégées peinent à généraliser dès que le nombre de tâches augmente. Les architectures MoE classiques, qui n'activent qu'un sous-ensemble de paramètres, souffrent d'un défaut de conception : leur routage basé sur des statistiques latentes fragmente les comportements réutilisables entre experts, réduisant l'interprétabilité et la transférabilité. En ancrant la spécialisation dans la structure sémantique de la tâche, SMoDP rend les experts plus modulaires, un avantage direct pour les intégrateurs déployant des robots polyvalents sans réentraîner l'ensemble du modèle. Ce travail s'inscrit dans une course intense à l'efficacité des politiques robotiques. Depuis 2023, les politiques de diffusion (Diffusion Policy, Pi-0 de Physical Intelligence) ont supplanté les approches classiques, et les succès des MoE dans les LLM (Mixtral, Qwen-MoE) ont incité les chercheurs en robotique à adapter ces architectures, avec des résultats mitigés faute d'un bon mécanisme de routage. SMoDP se rapproche des pipelines VLA (Vision-Language-Action) comme OpenVLA ou GR00T N2 de NVIDIA, en intégrant la supervision sémantique par VLM comme lien entre langage et action. À ce stade, il s'agit d'une contribution académique validée en simulation et en environnement de laboratoire, sans annonce de déploiement industriel ni de partenaire commercial ; l'étape logique suivante serait une validation sur plateformes matérielles réelles à grande diversité de tâches.

💬 Le vrai problème des MoE en robotique, c'était le routage : les experts se spécialisaient sur des statistiques latentes sans rapport avec ce que le robot faisait vraiment. Ancrer la spécialisation sur des phases comportementales concrètes, saisir, transporter, insérer, c'est le bon sens qui manquait, et les benchmarks suivent. Reste à confirmer ça sur du matériel réel, pas juste en simulation.

RobotiqueOpinion
1 source
L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable
183Robotics Business Review 

L'avenir de l'IA physique n'est pas humanoïde : il est spécialisé et rentable

Hailo, fabricant israélien de processeurs IA dédiés au traitement embarqué (edge computing), publie une analyse positionnant l'IA physique comme la prochaine rupture technologique après les phases perception, génératif et agentique. La thèse centrale: les systèmes robotiques autonomes ne peuvent pas dépendre du cloud pour leur boucle de contrôle en temps réel. L'argument est illustré par un cas concret et délibérément banal: un robot d'entretien qui rencontre une chaussette sur le sol. Les systèmes actuels à base de règles prédéfinies la heurtent et se bloquent, nécessitant une intervention humaine. Les architectures alimentées par vision IA l'évitent. Mais la vraie autonomie, selon Hailo, consiste à identifier l'objet, le ramasser et le déposer à sa place, soit une boucle complète perception-raisonnement-action exécutée localement, sans appel réseau. L'article ne fournit pas de métriques de performance ni de benchmarks chiffrés: c'est un positionnement stratégique, pas une publication technique. L'argument pour l'edge est structurellement solide, même si sa source est directement intéressée. La latence introduite par un aller-retour cloud dans une boucle de contrôle robotique représente un risque opérationnel réel: une coupure réseau ou un pic de latence imprévisible dans un contexte de manipulation physique peut provoquer des accidents ou des arrêts de ligne. Le modèle hybride proposé, entraînement dans le cloud, inférence à la périphérie, correspond à ce que déploient déjà des acteurs comme Boston Dynamics (Spot avec traitement embarqué) ou les AMR d'Exotec en logistique. Pour un COO industriel ou un intégrateur, cela se traduit concrètement: les architectures sans dépendance réseau sont une exigence de sécurité fonctionnelle, pas seulement un choix de performance. L'article contredit implicitement la narrative selon laquelle le cloud suffit pour les robots opérationnels, et rejoint les conclusions de plusieurs déploiements terrain où la connectivité intermittente reste le premier point de défaillance. Hailo, fondé en 2017 à Tel Aviv et introduit en bourse en 2024, commercialise les puces Hailo-8 et Hailo-15 destinées à l'inférence embarquée sur caméras, robots et véhicules. Ses concurrents directs sur ce segment sont NVIDIA avec la gamme Jetson Orin, Qualcomm avec ses plateformes Robotics RB-series, et Intel avec les Myriad X. L'article est publié à l'approche du Robotics Summit and Expo de Boston, prévu début juin 2026, où Hailo sera probablement présent. Sur la question humanoïde, le texte est interrompu avant de développer son argument, mais l'amorce est claire: la course au robot polyvalent anthropomorphe (Figure, 1X, Agility Robotics, Unitree) est freinée non par l'IA, mais par les contraintes mécaniques, énergétiques et de coût du hardware. Un signal que les prochains déploiements industriels à grande échelle passeront probablement par des robots à tâche unique, moins coûteux et plus fiables, plutôt que par des humanoïdes généraux.

UEL'argument edge-first s'applique aux déploiements industriels européens et rejoint la pratique d'acteurs comme Exotec (France), mais l'article reste un positionnement marketing sans impact réglementaire ou stratégique direct sur la France ou l'UE.

💬 La chaussette sur le sol, c'est le meilleur exemple que j'ai lu depuis longtemps pour expliquer pourquoi l'edge est non-négociable. Que Hailo ait un intérêt commercial dans l'affaire, peu importe: une boucle perception-action qui dépend du cloud, c'est un point de défaillance que personne ne veut en prod. Et les humanoïdes polyvalents, c'est bien pour les keynotes, les robots à tâche unique qui tournent vraiment, c'est là que les déploiements industriels se passent aujourd'hui.

RobotiqueOpinion
1 source
Brain Corp et UC San Diego s'associent pour faire progresser la couche d'intelligence fondatrice pour l'IA physique
184Robotics & Automation News 

Brain Corp et UC San Diego s'associent pour faire progresser la couche d'intelligence fondatrice pour l'IA physique

Brain Corp, spécialiste californien de l'IA pour robots de service, a annoncé l'extension de sa collaboration de recherche avec l'Université de Californie à San Diego (UCSD). Le partenariat cible deux axes techniques : le mapping sémantique, qui permet à un robot de comprendre la signification fonctionnelle des espaces traversés (zone de caisse, allée frigorifique, quai de chargement), et l'intelligence contextuelle, qui lui permet d'adapter son comportement selon l'état dynamique de l'environnement. Aucune date de livraison, métrique de performance ni chiffre de déploiement n'a été communiqué dans l'annonce publiée. Ce type de recherche vise à combler le fossé entre navigation autonome basique (évitement d'obstacles, planification de trajectoire) et compréhension sémantique de l'environnement, un prérequis pour les robots opérant dans des espaces commerciaux encombrés et changeants. Pour les intégrateurs et les COO industriels, l'enjeu est concret : un robot capable d'interpréter le contexte peut prendre des décisions plus robustes, réduire les interventions humaines et s'adapter à des configurations modifiées sans reprogrammation manuelle. C'est précisément ce que les constructeurs d'AMR cherchent à résoudre pour passer du pilote au déploiement à l'échelle. Brain Corp est connue pour BrainOS, son système d'exploitation robotique embarqué sur des autolaveuses autonomes commercialisées par Tennant, Nilfisk et SoftBank Robotics, avec plusieurs milliers d'unités actives dans la grande distribution américaine. Face à des acteurs comme Locus Robotics, Aethon ou Savioke, Brain Corp mise sur une couche logicielle commune à plusieurs fabricants plutôt que sur du hardware propriétaire. Ce partenariat académique s'inscrit dans une stratégie de R&D long terme visant à positionner BrainOS comme infrastructure d'IA physique généraliste, au-delà du seul nettoyage de sols.

💬 Le mapping sémantique, c'est le chaînon manquant entre un robot qui évite les obstacles et un robot qui comprend où il est. Brain Corp a les meilleures raisons du monde de s'y attaquer, avec leurs milliers d'autolaveuses dans la grande distribution américaine qui butent chaque jour sur ce problème. L'annonce est vide de chiffres et de dates, mais la direction prise avec BrainOS comme couche commune à plusieurs fabricants, ça ressemble à la bonne stratégie.

RobotiquePaper
1 source
PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration
185arXiv cs.RO 

PGDG : génération de données physiquement ancrée pour l'apprentissage robuste de politiques bimanuelles à partir d'une seule démonstration

Une équipe de chercheurs présente PGDG (Physically Grounded Data Generation), un cadre qui permet d'entraîner une politique de manipulation bimanuelles robuste à partir d'une seule démonstration humaine. Déposé sur arXiv en mai 2026 (réf. 2605.21710), le système attaque un problème structurant du behavior cloning : tout écart par rapport à la trajectoire apprise plonge le robot dans des états hors distribution, sans signal de récupération disponible dans les données d'entraînement. PGDG génère automatiquement, sans annotation humaine supplémentaire, un ensemble compact de trajectoires physiquement plausibles couvrant ces comportements de récupération manquants. Il alterne entre un échantillonneur ancré en physique et un curateur de données qui oriente progressivement l'exploration vers les modes sous-représentés, complété par un reétiquetage d'actions correctives sur les états risqués. Sur la tâche RotateBox-Pitch, manipulation bimanuelles par contact, le taux de succès passe de 38 % à 93 % en simulation et de 35 % à 82 % en transfert zéro-shot vers le robot réel. Appliqué au fine-tuning de GR00T, le modèle de fondation vision-langage-action de NVIDIA, la méthode améliore le taux de succès de 46 % à 77 %. Le résultat le plus notable pour les intégrateurs est le transfert zéro-shot : la politique entraînée exclusivement sur données synthétiques fonctionne directement sur le robot physique, sans adaptation terrain. Ce résultat valide empiriquement que la génération ancrée en physique peut combler le sim-to-real gap pour les tâches en contact, historiquement le talon d'Achille de la manipulation dextère. La compatibilité avec GR00T (un VLA) ouvre également une voie pour enrichir les modèles de fondation à faible coût de collecte : une démonstration unique remplace les centaines typiquement requises en téléopération, ce qui modifie le calcul économique pour tout projet de déploiement à grande variété de configurations. Ce travail s'inscrit dans la course à l'efficacité des données en robotique manipulatrice. L'augmentation spatiale classique, premier concurrent direct, est systématiquement surpassée sur les quatre tâches testées. Les approches alternatives misent soit sur la collecte massive comme ACT/ALOHA (des milliers de démonstrations), soit sur le pré-entraînement multi-tâche à grande échelle comme pi-0 de Physical Intelligence. PGDG se distingue par son paradigme "une démonstration suffit", potentiellement attractif dès que la diversité des pièces ou des configurations rend la collecte par tâche prohibitive. La validation reste pour l'instant en environnement laboratoire ; une évaluation sur des tâches industrielles réelles constituerait la prochaine étape logique.

💬 Une démo au lieu de mille, et le robot fonctionne directement sur le physique sans adaptation terrain. Le sim-to-real sur de la manipulation par contact, c'était le blocage structurel depuis des années, et là ils sortent 82% en zéro-shot sur le robot réel, c'est pas un résultat qu'on voit souvent. Reste à tenir hors labo.

RobotiqueOpinion
1 source
SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes
186arXiv cs.RO 

SONIC : un système de suivi du mouvement étendu pour le contrôle corporel intégral des humanoïdes

Des chercheurs présentent SONIC (arXiv:2511.07820), un modèle fondateur pour le contrôle corporel complet de robots humanoïdes, construit autour d'une mise à l'échelle agressive le long de trois axes : la capacité réseau (de 1,2 million à 42 millions de paramètres), le volume de données (plus de 100 millions de frames issues de 700 heures de capture de mouvement) et le calcul (21 000 heures GPU). La tâche centrale est le suivi de mouvement (motion tracking), utilisé comme proxy d'entraînement pour inculquer des priors sur le mouvement humain sans ingénierie manuelle de récompenses. Deux applications aval sont démontrées : un planificateur cinématique temps réel reliant le suivi de mouvement à des tâches de navigation, et un espace de tokens unifié permettant à une seule politique de gérer à la fois la téléopération VR et des modèles vision-langage-action (VLA). Dans ce second mode, le système réalise de la loco-manipulation autonome en coordonnant simultanément position des mains et des pieds. L'apport principal est d'étendre les lois de scaling, jusqu'ici réservées aux grands modèles de langage, au contrôle humanoïde à corps complet. Les auteurs montrent que les performances progressent de manière régulière avec la quantité de données et le calcul, et que les politiques apprises généralisent à des mouvements non vus à l'entraînement, sans nécessiter de reward shaping manuel. Pour les intégrateurs, l'interface unifiée VR-VLA dans un seul modèle réduit le coût d'adaptation entre téléopération humaine et autonomie. Il convient néanmoins de noter qu'il s'agit d'une publication académique, non d'un produit déployé, et que les démonstrations vidéo sélectionnées ne permettent pas encore d'évaluer la robustesse en conditions industrielles réelles. SONIC s'inscrit dans une course au scaling qui agite l'ensemble de la filière humanoïde. Physical Intelligence a publié Pi-0, un modèle VLA polyvalent ; NVIDIA a lancé GR00T N2 en s'appuyant sur des données synthétiques massives ; Figure et Tesla visent des architectures propriétaires à grande échelle avec Optimus Gen 3. Les 42 millions de paramètres de SONIC restent modestes comparés aux VLA les plus ambitieux, et le travail ne mentionne pas d'affiliation à un fabricant de robot ni de calendrier de déploiement physique. La prochaine étape logique serait une validation sur hardware réel avec des évaluations quantitatives standardisées, un exercice que les benchmarks émergents du secteur commencent tout juste à formaliser.

RobotiqueOpinion
1 source
Pre-VLA : vérification préemptive à l'exécution pour fiabiliser les déroulements de modèles VLA et du monde
187arXiv cs.RO 

Pre-VLA : vérification préemptive à l'exécution pour fiabiliser les déroulements de modèles VLA et du monde

Une équipe de chercheurs a soumis sur arXiv (réf. 2605.22446, mai 2026) Pre-VLA, une architecture de vérification préemptive conçue pour filtrer les actions de mauvaise qualité générées par les modèles VLA (Vision-Language-Action) avant qu'elles ne soient exécutées physiquement ou simulées dans un world model génératif. Concrètement, Pre-VLA s'intercale comme un garde-fou en amont de l'exécution : il exploite un backbone multimodal avec pooling adaptatif par modalité et une tête dual-branch légère pour prédire à la fois un score de confiance sécuritaire et un advantage score dérivé d'un critique, sur des chunks d'actions candidats. L'entraînement combine trois objectifs simultanés : classification Focal (robuste aux déséquilibres de classes), régression d'avantage, et calibration par seuil souple. À l'inférence, un scheduler de rééchantillonnage dual-mode filtre les actions jugées sous-seuil et déclenche un rééchantillonnage adaptatif dans un budget de calcul contraint. Sur le benchmark LIBERO (quatre suites de tâches en boucle fermée), Pre-VLA améliore le taux de succès moyen de 30,79 % à 37,62 % par rapport au modèle de base RynnVLA-002, réduit le nombre d'étapes d'exécution, et affiche un temps de vérification de 183,9 ms par chunk d'action en moyenne. Le gain de 6,8 points de pourcentage sur LIBERO est notable dans un domaine où les benchmarks en boucle fermée restent difficiles à progresser de façon fiable. La valeur industrielle réelle de Pre-VLA ne réside pas dans la performance brute, mais dans la réduction des échecs physiques coûteux et dans la limitation de l'accumulation d'erreurs dans les rollouts de world models génératifs, dont le coût de rendu est élevé. Pour un intégrateur ou un COO industriel, un tel mécanisme de vérification préemptive représente un levier de fiabilité sans refonte du modèle principal, ce qui est compatible avec des pipelines de déploiement réels. La question non résolue reste la généralisation : LIBERO est un benchmark de manipulation tabletop relativement contrôlé, et les résultats sur des environnements plus chaotiques ne sont pas démontrés ici. Pre-VLA s'inscrit dans une tendance croissante visant à sécuriser les politiques VLA pour le déploiement réel, dans le sillage de modèles comme Pi-0 (Physical Intelligence), OpenVLA ou GR00T N2 (NVIDIA), qui peinent tous à franchir le "demo-to-reality gap". Le benchmark LIBERO, développé par une équipe de l'Université de Washington et Stanford, est devenu une référence standard pour évaluer les politiques d'imitation multi-tâches. RynnVLA-002, le modèle de référence utilisé ici, est un VLA récent dont les détails publics restent limités. Ce travail est un preprint, non encore soumis à peer review, ce qui invite à une lecture prudente des chiffres annoncés. Les prochaines étapes naturelles seraient une validation sur des environnements réels hors laboratoire et une comparaison avec d'autres approches de vérification runtime comme les méthodes basées sur les ensembles de confiance ou la vérification formelle légère.

💬 Un garde-fou entre le modèle VLA et l'exécution physique, sans refonte du modèle principal, c'est le genre de solution qu'on aurait voulu avoir avant de casser du matériel. +6,8 points sur LIBERO en boucle fermée, c'est pas rien dans un domaine où les benchmarks avancent à coups de virgule. Reste à voir hors labo, parce que LIBERO c'est du tabletop propre, pas une chaîne de production.

RobotiqueOpinion
1 source
Action par primitives visuelles
188arXiv cs.RO 

Action par primitives visuelles

Une équipe de chercheurs a publié en mai 2026 sur arXiv (réf. 2605.22183) AVP, Action with Visual Primitives, une nouvelle architecture end-to-end pour la manipulation robotique généraliste. Le système repose sur une séparation explicite des responsabilités : le modèle de vision-langage (VLM) infère l'état cible de la prochaine étape et génère des tokens dits "visuels primitifs", qui conditionnent ensuite un module d'action basé sur le flow matching, supervisé par la cinématique de l'effecteur final. Sur des tâches réelles de pick-and-place, AVP améliore le taux de succès de 27,61 % par rapport à pi0.5, le modèle de référence de Physical Intelligence, avec des gains mesurés en efficacité de données, en généralisation spatiale et compositionnelle, ainsi qu'en transfert à de nouveaux objets. L'enjeu central que pointe ce travail est celui de l'enchevêtrement des objectifs d'apprentissage dans les VLA actuels : dans les architectures dominantes, compréhension du langage, analyse spatiale de la scène et contrôle moteur sont fondus dans un seul passage forward, forçant le module d'action à réapprendre des capacités perceptives déjà présentes dans le VLM préentraîné. AVP découple ce pipeline via une interface à base de tokens visuels primitifs, ce qui réduit la redondance d'apprentissage et améliore l'efficacité des données d'entraînement, un facteur critique dans un domaine où la collecte de démonstrations robotiques reste coûteuse. L'amélioration de 27,61 % sur pi0.5, si elle se confirme sur des benchmarks plus larges, représente un écart significatif pour des intégrateurs industriels qui évaluent des solutions de manipulation flexible. Les modèles VLA ont connu une accélération notable depuis 2024 avec l'émergence de pi0 et pi0.5 (Physical Intelligence), GR00T N2 (NVIDIA) et Helix (Figure AI), tous positionnés sur la manipulation généraliste. La tendance dominante jusqu'ici consistait à empiler VLM et head d'action en bout de chaîne, héritant des représentations visuelles sans structuration intermédiaire. AVP propose une voie alternative en introduisant une représentation symbolique intermédiaire, les visual primitives, comme pont entre perception et action. Le papier reste un preprint sans validation externe à ce stade ; les expériences sont conduites sur des tâches de pick-and-place, ce qui limite la portée des conclusions à des scénarios de manipulation relativement contraints. Les prochaines étapes naturelles seront une extension à des tâches à longue horizon temporel et une comparaison sur des benchmarks standardisés comme LIBERO ou Open X-Embodiment.

RobotiqueOpinion
1 source
GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action
189arXiv cs.RO 

GesVLA : représentations gestuelles intégrées pour un modèle vision-langage-action

Des chercheurs ont publié GesVLA, un modèle Vision-Language-Action augmenté d'une modalité gestuelle, dans un preprint arXiv soumis en mai 2026 (arXiv:2605.22812). L'architecture repose sur un double VLM (Vision-Language Model) qui encode les features gestuelles directement dans l'espace latent, permettant aux gestes pointés de la main de participer à la fois au raisonnement de haut niveau et à la génération d'actions motrices. Pour l'entraînement, l'équipe a construit un pipeline de génération de données synthétiques en rendant des modèles 3D de mains sur des images de scènes réelles, produisant des annotations de pointage variées tout en réduisant le sim-to-real gap visuel. Le modèle a été évalué sur plusieurs tâches physiques réelles : manipulation contrôlée de blocs et sélection de produits dans des environnements encombrés. Les expériences montrent une amélioration mesurée de la précision de grounding cible et de l'efficacité de l'interaction humain-robot, particulièrement dans des scènes complexes avec objets similaires. L'apport principal de GesVLA est d'adresser une faiblesse connue des VLA actuels : l'ambiguïté spatiale. Quand plusieurs objets similaires sont présents dans la scène, une instruction textuelle seule (type "prends la bouteille") reste ambiguë. Intégrer le geste de pointage comme modalité parallèle au texte offre un ancrage spatial explicite sans modifier l'interface verbale. L'architecture dual-VLM représente un choix architectural non trivial par rapport aux approches qui traitent les modalités de façon séquentielle. Ce n'est pas la première tentative d'incorporer des signaux humains dans les VLA, mais la formalisation du geste comme modalité de premier rang dans l'espace latent, plutôt qu'en post-processing, est une contribution d'architecture à surveiller pour les intégrateurs qui déploient des cobots en environnements de picking désordonnés. GesVLA s'inscrit dans la vague de recherche post-RT-2 et pi-0 qui cherche à rendre les VLA robustes au-delà du régime de laboratoire. Les modèles concurrents comme OpenVLA (Berkeley), Octo ou RoboFlamingo travaillent essentiellement avec du texte et de la vision, sans modalité gestuelle native. Physical Intelligence (pi) avec pi-0 et Google DeepMind avec RT-2/RT-X restent les références industrielles sur la généralisation des VLA à grande échelle. Le preprint ne mentionne pas de partenariat industriel ni de timeline de déploiement commercial. Les prochaines étapes naturelles seraient une évaluation sur des benchmarks standardisés (LIBERO, Calvin) pour permettre des comparaisons directes, et une intégration sur des plateformes comme Franka ou UR5 au-delà des configurations de démonstration présentées.

RobotiqueOpinion
1 source
Jarvis : ce robot barista prépare votre café à la perfection… sans pause café
190Le Big Data 

Jarvis : ce robot barista prépare votre café à la perfection… sans pause café

Artly, une startup américaine spécialisée dans la robotique et la vision par ordinateur, a développé Jarvis, un bras robotisé capable de préparer des cafés de spécialité avec une précision que peu de baristas humains peuvent atteindre. Pour entraîner le système, les ingénieurs ont collaboré avec Joe Yang, champion américain de latte art, en fixant des capteurs sur ses bras afin de capturer chacun de ses gestes lors de la préparation d'un latte. Jarvis reproduit ensuite ces mouvements avec une marge d'erreur de seulement 0,1 gramme sur les quantités d'ingrédients, tout en surveillant en continu la température de l'eau, le temps d'extraction, la pression et la texture de la mousse. Des caméras intégrées analysent le résultat final et permettent au robot de corriger automatiquement ses prochains gestes si la qualité ne correspond pas aux standards attendus. L'argument central d'Artly n'est pas la spectacularisation technologique mais la régularité industrielle. Dans un café à fort volume, un barista humain peut dégrader la qualité de ses préparations sous la pression du service, là où Jarvis maintient les mêmes paramètres indéfiniment. Pour les opérateurs de points de vente à fort passage, gares, aéroports, campus, cette constance représente un avantage économique concret : moins de pertes matières, moins de formation, et une expérience client homogène. Le système apprend également de ses propres erreurs grâce à ses capteurs, ce qui le distingue d'un simple automate à séquence fixe. La robotisation du café s'inscrit dans une dynamique plus large d'automatisation de la restauration rapide, accélérée depuis la pandémie par les difficultés de recrutement et la hausse des salaires dans la restauration aux États-Unis. Artly ne cache pas ses ambitions au-delà du café : l'entreprise travaille déjà sur des systèmes analogues pour la préparation de cocktails, de smoothies et d'applications industrielles. Il reste cependant des limites opérationnelles claires : Jarvis dépend toujours d'humains pour le remplissage des réservoirs, l'approvisionnement en grains et l'entretien de certains composants. La question qui se posera à l'échelle n'est donc pas tant de savoir si un robot peut faire un bon cappuccino, mais à quel coût d'investissement initial et de maintenance ces systèmes deviennent rentables face à une main-d'œuvre humaine dont le coût varie fortement selon les marchés.

RobotiqueActu
1 source
Stellantis vise les longs trajets : la conduite mains libres arrive sur autoroute
191Frandroid 

Stellantis vise les longs trajets : la conduite mains libres arrive sur autoroute

Stellantis a annoncé le même jour deux partenariats stratégiques pour accélérer son virage vers la conduite automatisée. Le groupe automobile franco-italo-américain s'associe d'une part avec Wayve, startup britannique spécialisée dans l'intelligence artificielle pour la mobilité autonome, et d'autre part avec Qualcomm, géant américain des semi-conducteurs, pour le traitement du calcul embarqué. L'objectif est d'intégrer ces technologies dans les véhicules de ses marques phares, Peugeot, Citroën, Jeep et Fiat, à horizon 2028. Concrètement, il s'agit d'offrir une conduite mains libres sur autoroute, dite de niveau 2+ ou niveau 3 selon les marchés, permettant au conducteur de ne plus intervenir activement lors des longs trajets à grande vitesse. C'est une évolution significative pour des millions d'automobilistes européens et américains qui parcourent régulièrement des centaines de kilomètres sur voie rapide. Pour Stellantis, en pleine restructuration sous la pression des véhicules électriques chinois et de la concurrence Tesla, ce pari technologique est aussi un argument commercial fort pour repositionner ses marques sur le segment premium de la sécurité et du confort. Cette double alliance s'inscrit dans une course industrielle que se livrent tous les grands constructeurs depuis plusieurs années. Wayve, qui a levé plus d'un milliard de dollars en 2024 notamment auprès de Microsoft et SoftBank, mise sur une approche par apprentissage profond plutôt que sur des règles préprogrammées. Qualcomm, de son côté, domine déjà l'informatique embarquée dans l'automobile avec sa plateforme Snapdragon Ride. Le calendrier 2028 laisse le temps aux homologations réglementaires européennes, encore en cours pour les systèmes de niveau 3, de se stabiliser.

UEPeugeot et Citroën, marques françaises du groupe Stellantis, intégreront la conduite mains libres sur autoroute d'ici 2028, avec des implications directes sur les homologations de niveau 3 actuellement en cours au sein de l'UE.

💬 Stellantis a besoin d'une histoire à raconter, et celle-là tient la route, sur le papier. Le choix de Wayve est ce qu'il y a de plus intéressant dans ce partenariat : l'approche par apprentissage profond plutôt que des règles préprogrammées, c'est le seul pari crédible face à Tesla et aux Chinois. 2028, c'est loin, et les homologations niveau 3 en Europe sont encore un vrai chantier ouvert.

RobotiqueOpinion
1 source
L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables
192IEEE Spectrum AI 

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Wetour Robotics avance que le prochain saut architectural de l'IA physique ne viendra pas des robots eux-mêmes, mais de la façon dont les humains leur communiquent leurs intentions. La startup a développé une approche qu'elle nomme Spatial Intent Fusion : la fusion en temps réel de trois flux d'information centrés sur l'humain, à savoir la position spatiale du corps, le contexte visuel capté par la caméra, et l'intention gestuelle détectée via capteurs musculaires. Ces trois canaux sont traités simultanément par une plateforme matérielle appelée Orchestra, un hub portable embarqué sur processeur NVIDIA Jetson Orin Nano Super, capable d'exécuter l'intégralité de la boucle de contrôle en local, sans dépendance au cloud. Le résultat est traduit en commandes directes pour n'importe quel appareil physique connecté, avec une latence assez basse pour que le système réponde comme une extension naturelle du corps. L'enjeu est concret : les interfaces actuelles, écrans, boutons et commandes vocales, supposent que l'utilisateur peut s'arrêter, regarder vers le bas et formuler une instruction structurée. Cette hypothèse s'effondre dès que le travail se déroule dans un environnement réel. Un technicien de maintenance sur une éolienne, harnais accroché et les deux mains sur une clé, n'a pas la liberté de consulter un écran. Un opérateur logistique sur un quai de chargement, les yeux sur la palette et les mains gantées, ne peut pas dicter une commande vocale dans le bruit ambiant. Une personne en fauteuil motorisé dans une rue animée veut ajuster sa trajectoire sans sortir son téléphone. Pour Wetour Robotics, chaque canal observé isolément, un geste seul, un regard seul, reste ambigu. C'est la fusion de ces canaux au niveau système, avec une inférence d'intention robuste, qui rend l'interface fiable dans des conditions dégradées. Cette approche s'inscrit dans un constat plus large que l'industrie commence à formuler. Depuis trois ans, les progrès côté robot ont été spectaculaires : Boston Dynamics, Figure, Unitree ont repoussé les limites de la locomotion et de la dextérité, tandis que Google DeepMind a redéfini ce que les modèles vision-langage-action peuvent accomplir en environnement non structuré. Mais la boucle humain-machine n'a pas évolué au même rythme. Les mêmes trois modalités d'entrée dominent depuis quarante ans. Wetour Robotics parie que le vrai goulot d'étranglement se situe désormais du côté humain, et que faire de l'opérateur un noeud à part entière du réseau de calcul, avec la même qualité de participation que les capteurs embarqués sur le robot, constitue le prochain levier de performance. Le positionnement commercial de la société résume l'ambition en une formule : votre corps est l'interface.

RobotiqueActu
1 source
Robot moonwalk façon Michael Jackson : le fiasco
193Le Big Data 

Robot moonwalk façon Michael Jackson : le fiasco

Une vidéo devenue virale le 20 mai 2026 montre un robot humanoïde s'effondrer sur scène en pleine démonstration de danse, devant un public en direct. La machine avait été mise en scène pour interpréter quelques pas sur "Billie Jean" de Michael Jackson, le titre emblématique sorti en 1982. Les premières secondes sont convaincantes : le robot balance les bras, enchaîne quelques mouvements rythmés et tente même une ébauche de moonwalk. Puis la scène bascule. L'humanoïde heurte une marche sur le plancher de la scène, vacille, semble se stabiliser, le public retient son souffle. Puis, quelques secondes plus tard, il retourne exactement au même endroit, percute à nouveau le même obstacle et s'effondre lourdement, immobile, avant d'être évacué hors scène. Ce type d'incident illustre un problème structurel que l'industrie robotique peine encore à résoudre : l'écart entre la performance scénarisée et l'adaptabilité réelle. Les démonstrations virales de robots donnent souvent l'impression d'une maîtrise presque humaine de l'espace et du mouvement. En réalité, ces séquences reposent la plupart du temps sur des routines préprogrammées exécutées dans des conditions parfaitement contrôlées. Une marche sur une scène, un objet déplacé de quelques centimètres, un obstacle non prévu dans le code : il suffit d'un seul élément inattendu pour que les limites apparaissent sans ambiguïté. Ce n'est pas un problème de puissance de calcul ni de mécanique, mais de perception et d'adaptation en temps réel à un environnement non modélisé. La robotique humanoïde avance à un rythme soutenu depuis quelques années, portée par des acteurs comme Boston Dynamics, Figure AI, Agility Robotics ou encore Unitree, qui multiplient les démonstrations spectaculaires. Mais la plupart des cas d'usage concrets restent limités à des environnements industriels très structurés, où chaque variable est anticipée. Déployer un robot dans un espace quotidien, qu'il s'agisse de ranger des objets épars, de naviguer dans une maison ou de réagir à une foule, reste un défi considérable. Les investissements dans le secteur atteignent des montants records, plusieurs milliards de dollars levés en 2024-2025 rien qu'aux États-Unis, mais la promesse d'un robot véritablement autonome face à l'imprévu reste encore hors de portée. Cette chute sur scène, anecdotique en apparence, résume en quelques secondes le principal obstacle du domaine.

RobotiqueOpinion
1 source
Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration
194arXiv cs.RO 

Demo-JEPA : architecture prédictive à enchâssement conjoint pour l'imitation inter-robots en une seule démonstration

Une équipe de chercheurs publie Demo-JEPA (arXiv:2605.20811, mai 2026), un cadre d'imitation robotique inter-morphologies fondé sur une architecture prédictive à représentation jointe (JEPA). L'approche s'attaque au problème du "cross-embodiment" : permettre à un robot d'apprendre depuis des démonstrations réalisées par un humain ou un robot aux cinématiques radicalement différentes. Plutôt que de copier les actions du démonstrateur, Demo-JEPA infère l'état cible que celui-ci cherchait à atteindre. Le système traduit des démonstrations visuelles brutes en trajectoires latentes futures dans un espace de représentation partagé ; l'agent cible planifie ensuite vers ces sous-objectifs via sa propre dynamique forward apprise par interaction. Les évaluations sur le benchmark RLBench et des tâches de manipulation réelles montrent que Demo-JEPA égale des planificateurs entraînés sur la même morphologie et généralise à des configurations inédites où les méthodes antérieures échouent. L'impact pour les équipes de robotique est potentiellement significatif. Les approches d'imitation existantes requièrent soit un espace d'action commun, soit des heuristiques de retargeting cinématique, soit de larges corpus multi-morphologies cotraînés, comme ceux mobilisés par Physical Intelligence pour pi-0 ou par NVIDIA pour GR00T N2. Demo-JEPA ramène le problème à deux ingrédients : des vidéos de démonstration (humain ou autre robot) et l'expérience propre de l'agent cible. L'aspect "one-shot" revendiqué mérite une nuance : il s'agit d'une seule démonstration par tâche, pas d'un système zéro-shot sans calibration préalable. Reste que la capacité à généraliser à des morphologies non vues lors de l'entraînement représente un pas concret vers des pipelines plus flexibles, où un même corpus vidéo pourrait alimenter des flottes hétérogènes. L'architecture JEPA est issue des travaux de Yann LeCun chez Meta : au lieu de prédire des pixels, elle prédit des représentations latentes compressées, ce qui la rend plus robuste aux détails visuels non pertinents pour la tâche. Dans le paysage du cross-embodiment, les approches dominantes sont actuellement la coformation à grande échelle (RDT-1B, OpenVLA) et le retargeting cinématique par heuristiques. Demo-JEPA propose une troisième voie, plus frugale en données supervisées. L'article demeure un preprint non validé par les pairs, sans partenariat industriel ni timeline de déploiement annoncés.

RobotiqueOpinion
1 source
SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines
195arXiv cs.RO 

SUGAR : cadre d'apprentissage généralisable et extensible pour la loco-manipulation humanoïde par vidéos humaines

Des chercheurs présentent SUGAR (Scalable hUman-video-driven GenerAlizable humanoid loco-manipulation leaRning), un framework publié en préprint sur arXiv (arXiv:2605.20373, mai 2026), conçu pour entraîner des robots humanoïdes à des tâches de loco-manipulation à partir de vidéos humaines non structurées, sans ingénierie de récompenses propre à chaque tâche. Le pipeline se décompose en trois étapes : extraction automatisée de priors cinématiques (trajectoires humain-objet et labels de contact) depuis des vidéos brutes ; raffinement physique via un mimic reward unifié et un progressive state pool qui transforment ces priors imparfaits en mouvements physiquement cohérents ; puis distillation dans une politique hiérarchique composée d'un générateur et d'un suiveur de commandes. Le système a été évalué sur six tâches de loco-manipulation, en simulation et sur matériel humanoïde réel, avec transfert zero-shot vers le monde physique, récupération autonome après échec, et robustesse aux perturbations externes. L'enjeu central est la scalabilité : là où la téléopération humaine, méthode utilisée par Figure AI, Apptronik ou 1X, reste coûteuse et difficile à industrialiser, SUGAR exploite le corpus massif de vidéos humaines disponibles. Le verrou technique était que les priors cinématiques extraits de ces vidéos sont intrinsèquement bruités (occlusions, artefacts de contact, erreurs de retargeting) et inutilisables en l'état pour l'apprentissage. L'étape de raffinement physique est ici la contribution principale. Le fait que la performance scale clairement avec le volume de données vidéo est un résultat significatif : il oriente la recherche vers l'augmentation de données plutôt que l'ingénierie manuelle de récompenses, un changement de paradigme pour les équipes travaillant sur des humanoïdes généralistes. SUGAR s'inscrit dans la vague de contrôle humanoïde piloté par les données, en concurrence directe avec les approches VLA de Physical Intelligence (Pi-0), Google DeepMind, et Nvidia (GR00T N2). Le sim-to-real zero-shot revendiqué reste le défi emblématique du secteur ; les auteurs affirment l'atteindre de manière fiable avec récupération autonome des échecs, mais la sélection de seulement six tâches de démonstration mérite d'être notée. À ce stade, il s'agit d'un résultat académique sans timeline de déploiement commercial : les limites immédiates concernent la diversité des tâches et des environnements testés, qui conditionneront la généralisation à des déploiements industriels réels.

RobotiquePaper
1 source
PointACT : des modèles vision-langage-action (VLA) avec interaction multi-échelle point-action
196arXiv cs.RO 

PointACT : des modèles vision-langage-action (VLA) avec interaction multi-échelle point-action

Une équipe de chercheurs a soumis en mai 2026 sur arXiv (2605.21414) PointACT, un modèle VLA (Vision-Language-Action) dual-système qui intègre des représentations 3D par nuages de points directement dans le processus de décodage d'actions. Contrairement aux VLAs existants quasi-exclusivement fondés sur des représentations visuelles 2D, PointACT couple un backbone vision-langage préentraîné à un mécanisme d'interaction multi-échelle point-action utilisant une attention fenêtrée bottleneck. Évalué sur les benchmarks LIBERO et RLBench, le modèle améliore le taux de réussite de 10 points de pourcentage sur la suite RLBench-10Tasks par rapport aux VLAs de l'état de l'art. Les gains sont encore plus importants lorsque le backbone est gelé et que l'expert d'action est entraîné from scratch, ce qui suggère une forte modularité de l'architecture. Ce résultat valide une hypothèse longtemps débattue : coupler des représentations géométriques 3D hiérarchiques avec des représentations sémantiques 2D préentraînées est essentiel pour un contrôle robot spatialement ancré. Pour les intégrateurs et les décideurs industriels, cela pointe vers un angle mort structurel des VLAs génériques actuels (OpenVLA, pi-0, GR00T N2) sur les tâches de manipulation de précision : saisie d'objets minces, assemblage, tri serré. La progression de +10% sur RLBench-10Tasks est significative dans un domaine où les gains se mesurent souvent en points uniques. Les études d'ablation confirment que c'est le couplage serré des deux modalités, et non le simple ajout d'un nuage de points, qui génère la performance. Les VLAs à backbone vision-langage dominent la manipulation généraliste depuis 2023, avec OpenVLA (UC Berkeley), pi-0 (Physical Intelligence) et GR00T N2 (NVIDIA) comme références sectorielles. Tous partagent la même limitation héritée : une représentation 2D du monde. PointACT s'inscrit dans un courant moins médiatisé qui cherche à injecter de la géométrie 3D dans ces pipelines, aux côtés de travaux comme RoboPoint. L'étape critique restante est de valider ces architectures hors simulation, sur des capteurs bruités réels (RGB-D, LiDAR), pour confirmer si les gains tiennent face au gap sim-to-real. Ce preprint n'a pas encore été évalué par les pairs.

RobotiqueOpinion
1 source
Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable
197arXiv cs.RO 

Manipulation corps entier des humanoïdes via un cerveau spatial actif et un cervelet d'action généralisable

Des chercheurs ont publié le 27 mai 2026 un preprint (arXiv:2605.21133) présentant un framework de loco-manipulation pour robots humanoïdes baptisé ASB-GAC, articulé autour de deux modules distincts. Le premier, Active Spatial Brain (ASB), assure la perception spatiale active et la planification de tâches en décomposant les objectifs en sous-tâches. Le second, Generalizable Action Cerebellum (GAC), traduit ces décisions en commandes moteur exécutables sur robot réel. L'approche s'appuie sur des grands modèles multi-agents pour orchestrer perception et génération d'actions. Les auteurs ont conçu un jeu de tâches de manipulation spatiale dépassant le cadre classique de la table rase, couvrant des environnements 3D avec des relations spatiales variées, et mesurent les performances sur deux axes : compréhension spatiale et exécution physique réelle. Le point saillant de ce travail est l'affirmation que GAC génère des actions robot exécutables sans données réelles spécifiques à chaque tâche, ce qui s'attaque directement au goulot d'étranglement majeur du secteur : collecter des trajectoires sur robot physique coûte cher et ne se généralise pas. Si la validité de cette approche se confirme au-delà des benchmarks maison, cela pourrait réduire significativement le cycle de développement pour les intégrateurs cherchant à déployer des humanoïdes sur des tâches variées d'entrepôt ou d'assemblage. Toutefois, le preprint ne fournit pas de métriques de cycle time, de taux de succès détaillés ni de comparaisons quantitatives directes avec des baselines comme pi0 (Physical Intelligence) ou GR00T N2 (NVIDIA), ce qui limite l'évaluation indépendante des claims de généralisation. Ce travail s'inscrit dans une dynamique de recherche très active sur la manipulation whole-body, où la fracture entre simulation et réalité reste un verrou central. Des acteurs comme Figure AI avec Figure 03, Tesla avec Optimus Gen 3, ou Physical Intelligence avec pi0 ont tous investi massivement dans la collecte de données réelles pour combler ce fossé. L'approche sim-to-real et l'utilisation de VLA (Vision-Language-Action models) comme vecteur de généralisation sont aujourd'hui les deux grandes stratégies concurrentes. Ce preprint propose une troisième voie par décomposition hiérarchique via LLM multi-agents, mais sans nom d'entreprise, sans robot cible identifié, et sans annonce de pilote industriel : il s'agit pour l'instant d'un résultat académique à surveiller avant tout transfert vers le terrain.

RobotiquePaper
1 source
Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS
198Interesting Engineering 

Une entreprise chinoise accélère l'intelligence des robots humanoïdes avec un contrôle à 300 FPS

Horizon Robotics, entreprise chinoise connue jusqu'ici pour ses SoC dédiés à l'IA embarquée dans l'automobile, a publié en open source HoloMotion-1, un modèle de contrôle moteur corps entier pour robots humanoïdes. Fort de 4 milliards de paramètres, ce modèle dépasse d'un à deux ordres de grandeur les architectures cérébelleuses habituellement déployées, qui plafonnent à quelques millions de paramètres. En inférence, HoloMotion-1 atteint 200 à 300 cycles par seconde sur calculateur embarqué, le module moteur physique tournant en parallèle à 50 Hz pour lisser les trajectoires. La démonstration a été conduite sur un robot Unitree G1, en zero-shot complet : aucun fine-tuning sur données réelles, toute l'inférence exécutée en local. Le robot a reproduit des comportements absents de son entraînement physique, notamment la danse, le rampé, la position assise et des frappes de type arts martiaux. Des tests de téléopération en temps réel via combinaison de capture de mouvement et contrôleurs VR ont également montré un suivi stable des gestes humains. Le point critique n'est pas la vitesse brute mais la robustesse du sim-to-real gap sans adaptation. Réussir un transfert zero-shot sur un humanoïde commercial reste un obstacle mal résolu par la majorité des systèmes actuels, qui exigent des phases de fine-tuning coûteuses. HoloMotion-1 contourne partiellement ce problème en constituant un corpus de données radicalement plus large : données MoCap sélectionnées, données internes, et mouvements reconstruits depuis des vidéos du monde réel, augmentant la couverture des situations imprévues. L'architecture MoE (Mixture-of-Experts) Transformer active sélectivement des sous-réseaux spécialisés à chaque pas de temps, réduisant le coût computationnel sans régresser sur la capacité expressive. Le KV-cache accélère l'inférence séquentielle en réutilisant les calculs passés. L'entraînement repose sur une méthode PPO (Proximal Policy Optimization) appliquée à des séquences de mouvement complètes plutôt qu'à des pas de temps isolés, ce qui améliore la stabilité sur corpus hétérogène. Pour un intégrateur ou un OEM robotique, la conséquence concrète est qu'un modèle généraliste à 4 milliards de paramètres devient déployable sur edge hardware sans infrastructure cloud. Il convient toutefois de souligner que les démonstrations publiées restent des séquences sélectionnées, sans métriques indépendantes sur la robustesse en conditions industrielles. Horizon Robotics est historiquement positionnée sur la couche silicium, avec ses puces Journey pour l'ADAS, et HoloMotion-1 marque un pivot vers la couche logicielle en robotique humanoïde. Le choix de l'open source suit la stratégie d'influence sur l'écosystème pratiquée par Meta avec LLaMA dans les LLM : imposer un standard de fait avant que les concurrents ne verrouillent leur stack propriétaire. Le paysage concurrentiel est dense : Physical Intelligence (Pi-0), NVIDIA (GR00T N2), Agility Robotics et Figure AI côté occidental, Unitree, Fourier Intelligence et Zhiyuan Robotics côté chinois. La publication décrit un plan en quatre phases pour le contrôle humanoïde ("Imitate Any Pose, Follow Any Command" en constituent les deux premières), mais les phases suivantes n'ont pas été détaillées publiquement. Aucun déploiement industriel ni partenariat de production n'est annoncé à ce stade.

UELa publication open-source de HoloMotion-1 met à disposition des équipes R&D européennes un modèle de contrôle moteur corps entier déployable sur edge hardware, mais aucun acteur, labo ou déploiement européen n'est impliqué.

RobotiqueOpinion
1 source
Des robots humanoïdes de Figure AI gèrent des colis sous le regard fasciné d'internet
199Ars Technica AI 

Des robots humanoïdes de Figure AI gèrent des colis sous le regard fasciné d'internet

Depuis le 13 mai, la startup de robotique Figure AI diffuse en direct sur internet une démonstration continue de ses robots humanoïdes Figure 03 en train de manipuler des colis dans un entrepôt. La tâche assignée aux machines est précise : inspecter le code-barres de petits colis, cartons, enveloppes rembourrées, et les déposer sur un tapis roulant, face codée vers le bas. L'opération se déroule de façon entièrement autonome, sans intervention humaine, selon Brett Adcock, PDG de Figure AI. Le stream, initialement prévu sur huit heures, s'est prolongé pendant près d'une semaine et a inclus, à un moment, une confrontation directe entre un robot et un stagiaire humain. La vidéo est devenue virale, suscitant un engouement rare pour une démonstration technologique industrielle. Sur YouTube, des spectateurs ont baptisé les robots de surnoms ; sur X, des utilisateurs ont comparé l'événement au « plus grand démo produit depuis le 'one more thing' de Steve Jobs ». Face à cet enthousiasme inattendu, Figure AI a rapidement lancé une ligne de merchandising à l'effigie de ses robots. Pour l'industrie, ce type d'attention grand public représente un levier de financement et de recrutement considérable, à un moment où la robotique humanoïde attire des milliards de dollars d'investissement. Figure AI évolue dans un secteur en pleine effervescence, face à des concurrents comme Boston Dynamics, Agility Robotics ou encore Tesla avec son Optimus. La startup cherche à démontrer que ses robots peuvent accomplir des tâches logistiques répétitives avec une fiabilité suffisante pour une intégration industrielle réelle. Cela dit, les experts rappellent que même les démonstrations les plus impressionnantes restent des conditions contrôlées, loin de refléter la complexité du monde réel. La vraie question n'est pas de savoir si un robot peut placer des colis sur un tapis roulant pendant quelques heures, mais s'il peut le faire des milliers d'heures d'affilée, dans des environnements variables, sans supervision.

RobotiqueOpinion
1 source
Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine
200arXiv cs.RO 

Au-delà du succès binaire : un cadre de méta-évaluation diagnostique pour la manipulation fine

Des chercheurs ont publié en mai 2026 MetaFine, un cadre de méta-évaluation diagnostique conçu pour mesurer avec précision les capacités de manipulation fine des robots. Contrairement aux benchmarks existants qui réduisent la performance à un taux de succès binaire (réussi ou échoué), MetaFine décompose la compétence de manipulation en trois axes distincts : la compréhension contextuelle de la scène, la perception spatiale haute fidélité, et l'exécution motrice sous contraintes. L'étude démontre que l'approche binaire classique surestime artificiellement les capacités des modèles vision-langage-action (VLA) jusqu'à 70%, masquant les goulots d'étranglement architecturaux qui bloquent le déploiement réel. Le framework s'appuie sur un graphe de tâches compositionnel capable d'absorber des benchmarks externes hétérogènes et de les reconstruire en scénarios diagnostiques de complexité variable, sous un protocole unifié. La validation hybride réel-simulation est également intégrée : un nombre limité de rollouts réels sert à calibrer des estimations simulées scalables pour un benchmarking physique plus robuste. L'enjeu est structurant pour le secteur : si les meilleurs modèles VLA actuels semblent performants selon les métriques classiques, MetaFine révèle des échecs sévères et dimension-spécifiques, invisibles jusqu'ici aux évaluateurs. L'analyse causale ciblée identifie l'encodeur visuel comme principal goulot d'étranglement pour la précision fine. Sa capacité à préserver la structure spatiale locale détermine directement l'accès à des capacités de manipulation jugées hors de portée : améliorer cet encodeur suffit à les débloquer sans modifier la politique de contrôle aval. Cette découverte oriente concrètement les priorités R&D pour les équipes d'ingénierie et les intégrateurs industriels qui cherchent à comprendre pourquoi leurs systèmes échouent en conditions réelles. MetaFine s'inscrit dans un contexte de prolifération de benchmarks pour la manipulation embodied, où la course aux métriques produit des systèmes sur-optimisés pour les tests mais fragiles à l'échelle. La communauté VLA fait face depuis plusieurs années au fossé démo-réalité : des résultats impressionnants en laboratoire qui ne se transfèrent pas en production. Des modèles comme Pi-0 (Physical Intelligence), GR00T N2 (NVIDIA) ou Helix ont montré des performances prometteuses, mais leurs architectures restent difficiles à comparer rigoureusement faute d'outils d'évaluation adaptés. MetaFine propose de renverser la logique : passer du classement au diagnostic, pour identifier et corriger systématiquement les couches de capacités défaillantes. Le framework, les benchmarks et les ressources associées seront publiés en accès libre sur metafine.github.io.

UELe framework MetaFine, publié en accès libre, offre aux équipes R&D et intégrateurs industriels européens un outil diagnostique concret pour identifier les goulots d'étranglement architecturaux de leurs systèmes VLA, sans impact direct sur un acteur français ou européen spécifique.

RobotiquePaper
1 source