Dossier Robots humanoïdes — page 3

469 articles · page 3 sur 10

L'industrie des robots humanoïdes : Unitree, Fauna Robotics, Tesla Optimus, Chery, Sony, défis techniques et premiers déploiements en entreprise.

101arXiv cs.RO RechercheOpinion

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

Une équipe de chercheurs a publié le 16 juin 2026 (arXiv:2606.13279) un nouveau cadre VLA pour la manipulation bimanuelles robotique, baptisé "Dual-Level Structural Decomposition". L'architecture repose sur deux modules distincts : un "View-Selective Visual Router" qui pondère dynamiquement la contribution de chaque caméra de poignet selon le contexte de la tâche, et un générateur d'actions basé sur un Mixture-of-Experts (MoE) qui sépare explicitement les trajectoires coordonnées (les deux bras agissent ensemble) des trajectoires indépendantes (chaque bras opère séparément). Évalué sur six tâches bimanuelles simulées dans l'environnement RoboTwin 2.0 et trois tâches longues en conditions réelles, le système affiche un gain de 27,7 % de taux de réussite moyen en simulation et de 43,3 % en déploiement physique par rapport à une baseline VLA monolithique équivalente. Ces résultats interpellent directement les équipes qui développent des politiques de contrôle pour robots humanoïdes ou manipulateurs industriels à deux bras. La progression de 43 % en real-world est significative car elle s'applique à des tâches dites "long-horizon", c'est-à-dire enchaînant plusieurs sous-étapes, là où les VLA monolithiques accumulent les erreurs. Le choix du MoE comme mécanisme de décomposition est notable : plutôt que d'entraîner deux politiques séparées, le modèle apprend à router dynamiquement selon le mode d'interaction détecté, ce qui limite l'explosion du coût d'inférence. Cela valide partiellement l'hypothèse que la structure de l'interaction bimanuele est un biais inductif exploitable -- et que les architectures "tout-en-un" atteignent leurs limites sur ces configurations. Les VLA bimanuelles constituent un chantier actif depuis l'essor des modèles de fondation robotiques en 2024-2025. Des systèmes comme Pi-0 (Physical Intelligence) ou GR00T N2 (NVIDIA) ciblent déjà la manipulation généraliste, mais traitent souvent l'entrée visuelle et la génération d'action de façon uniforme. Ce travail s'inscrit dans une tendance plus large vers des architectures modulaires, aux côtés d'initiatives comme RoboTwin 2.0 lui-même, qui sert ici de benchmark standardisé. Les prochaines étapes naturelles seraient un test sur des robots humanoïdes commerciaux (Figure 03, Unitree H1) ou une intégration dans des cellules industrielles bimanuelles -- les auteurs ne mentionnent pas de partenariat industriel ni de timeline de transfert dans la version preprint.

Dossier Robots humanoïdes — page 3

Voir de façon sélective, agir de façon adaptative : décomposition structurelle à deux niveaux pour la manipulation bimanuelles par robot

Efficient-WAM : un modèle monde-action de 1 milliard de paramètres à faible coût d'anticipation

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Mettre à l'échelle l'apprentissage par renforcement robotique avec NVIDIA Isaac Lab sur Amazon SageMaker AI

Au-delà de la dextérité : pourquoi le contact pourrait définir la prochaine ère de la robotique

X-OP : téléopération corps entier entre morphologies différentes via MPC

Ego-Pi : affinage VLA sur données égocentriques humaines et robotiques

Plus de 2 000 précommandes en six jours : ces robots compagnons cartonnent déjà

Vidéo : ce robot clown a donné un coup de pied à un enfant en pleine démonstration

M3imic : apprentissage d'un contrôleur corps entier polyvalent pour l'imitation multimodale de mouvements

CoRe-MoE : un mélange d'experts contrastif pour la locomotion multi-terrain des robots humanoïdes avec adaptation de la démarche

NVIDIA lance Cosmos 3 : un modèle de fondation à deux tours mêlant raisonnement physique, génération de mondes et d'actions

Robots domestiques : la collecte de données d’entraînement passe par le ménage gratuit

Discrete Diffusion VLA : la diffusion discrète appliquée au décodage d'actions dans les politiques VLA

« Des dizaines de milliards de robots d’ici 10 à 20 ans » : la prédiction folle de Nvidia

OpenAI commence par les robots industriels, mais vise un robot personnel pour chacun

Mélange d'horizons dans le découpage en actions

ELAN4D : supervision 4D centrée sur l'incarnation pour les modèles VLA via adaptation plug-and-play

Régularisation contrastive des représentations pour les modèles vision-langage-action (VLA)

La recherche NVIDIA montre que des robots entraînés en simulation peuvent accomplir des tâches réelles

Les VLA échouent différemment selon leur architecture : ce que révèle la surveillance en boîte noire

POINav : évaluation et amélioration de l'arrivée aux derniers mètres en navigation vision-langage réelle

Au-delà du binaire : manipulation dextérique sim-vers-réel avec représentation de contact fondée sur la physique

Comprendre l'impact des modèles fondation géométriques sur les modèles vision-langage-action (VLA)

L'avenir de l'IA physique passe par des interfaces plus intelligentes, pas des robots plus capables

Robot moonwalk façon Michael Jackson : le fiasco

Robot Unitree G1 : maintenant, il suffit de lui parler pour qu’il agisse

COAST : débloquer les modèles vision-langage-action (VLA) par les états cachés

DexWild : des interactions humaines dextériques pour des politiques robotiques en conditions réelles

L'IA est une question de puissance, d'infrastructure et de sécurité, selon TechEx North America

Comment l'IA à base d'agents permet la navigation robotique généraliste

Vous vous souvenez du robot Figure 03 ? Il travaille maintenant 40 heures d’affilée

Unitree Robotics : du pionnier de la locomotion quadrupède aux humanoïdes

RIO : un système d'entrées/sorties robotiques flexible et en temps réel pour l'apprentissage multi-plateforme

Trajectoire d'abord : un programme d'entraînement pour découvrir des politiques diversifiées

Interprétation des préférences humaines contextuelles pour la navigation multi-objectifs des robots

Hello Robot présente Stretch 4 : plus grand, plus rapide et plus puissant que ses prédécesseurs

Tirer parti des échecs : apprentissage adaptatif pour les modèles vision-langage-action (VLA)

SABER : jeu de données incarné, évolutif et axé sur les actions pour l'adaptation VLA au monde réel

Latent Reasoning VLA : pensée latente et prédiction pour les modèles vision-langage-action

Les événements à ne pas rater pour comprendre la montée en puissance de la robotique en 2026

ROBOTICS SUMMIT & EXPO 2026, Boston au cœur de la nouvelle économie robotique

Video Friday : l'IA confère aux mains robotiques une dextérité humaine

AsyncVLA : correspondance de flux asynchrone pour les modèles vision-langage-action (VLA)

Podcast : Colin Angle parle de la conception de robots compagnons avec Familiar Machines et Magic

Les robots humanoïdes vont-ils (vraiment) prendre votre travail ? Notre rédacteur en chef répond sur France 24

VILAS : une architecture bas coût intégrant un modèle VLA avec préhension souple pour la manipulation robotique

L'IA physique est la véritable révolution de l'industrie manufacturière

Ce que les discussions entre LG et NVIDIA révèlent sur l'avenir de l'IA physique

La Chine prévoit 8 500 robots IA pour son réseau électrique, avec un investissement d'un milliard de dollars