Dossier Robots humanoïdes — page 4

469 articles · page 4 sur 10

L'industrie des robots humanoïdes : Unitree, Fauna Robotics, Tesla Optimus, Chery, Sony, défis techniques et premiers déploiements en entreprise.

151arXiv cs.RO RobotiqueOpinion

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

Des chercheurs ont présenté MV-Actor (arXiv:2606.10899, juin 2026), un framework de perception multi-vues conçu pour la manipulation bimanuele robotique. Le système intègre trois modules successifs : Multi-view Semantic Interaction, qui partage la perception sémantique entre les différents flux caméra plutôt que de les traiter isolément ; Semantic-Spatial Token Interaction, qui ancre ces sémantiques visuelles dans une représentation 3D via un modèle de reconstruction feed-forward ; et un module Guided Metric Depth Repair, qui corrige la profondeur dégradée issue de capteurs grand public (Intel RealSense, Azure Kinect) pour fournir des ancres métriques fiables. Sur le benchmark PerAct2, référence académique dédiée à la manipulation bimanuele multi-tâches, MV-Actor atteint un taux de succès moyen de 87,8%, niveau state-of-the-art. Les évaluations en conditions réelles, avec changements de points de vue fréquents et profondeur bruitée, confirment des gains mesurables par rapport aux baselines RGB et RGB-D. Le verrou que MV-Actor tente de lever est structurel : les politiques multi-vues existantes encodent chaque vue indépendamment ou fusionnent les features de façon superficielle, ce qui produit une perception sémantique fragmentée et une localisation spatiale peu fiable. Pour les intégrateurs B2B qui déploient des cellules à deux bras (assemblage, emballage, picking de pièces déformables), c'est un problème concret : une politique qui "voit" mais ne comprend pas la cohérence entre vues génère des échecs en tâches coordonnées. Le module de réparation de profondeur est notable car il évite le recours à des lidars industriels onéreux, ce qui abaisse le seuil d'adoption. Le 87,8% sur PerAct2 est encourageant, mais ce benchmark reste simulé pour l'essentiel ; les auteurs mentionnent des tests réels sans publier de métriques détaillées par tâche, un point à nuancer. La manipulation bimanuele est un objectif central de plusieurs équipes : CMU, Stanford, ETH Zurich côté académique, et côté industrie les équipes de Figure, 1X Technologies et Sanctuary AI, qui intègrent des bras duaux dans leurs humanoïdes. Les politiques VLA (Vision-Language-Action) comme Pi-0 de Physical Intelligence ou les travaux DeepMind sur RoboVLMs s'attaquent au même problème de coordination multi-membres. PerAct2, publié en 2024, étend PerAct au cas bimanuel et s'impose comme référence de comparaison. MV-Actor est pour l'heure un travail académique sans affiliation industrielle déclarée ; aucun pilote ni partenariat de déploiement n'est annoncé, ce qui le situe côté recherche fondamentale plutôt que produit imminent.

UEETH Zurich est cité comme acteur académique sur la manipulation bimanuele, mais MV-Actor n'implique aucune institution ou entreprise européenne directement ; pas d'impact immédiat sur la France/UE.

Dossier Robots humanoïdes — page 4

MV-Actor : sémantique multi-vue et conscience spatiale alignées pour la manipulation bimanuelle

FAWAM : modèles d'action du monde sensibles aux forces pour la manipulation en boucle fermée à contacts multiples

CLAW : apprentissage de modèles du monde à actions latentes continues par régularisation latente adversariale

Humanoid-GPT : mise à l'échelle des données et de la structure pour le suivi de mouvement zéro-shot

OneVLA : un cadre unifié pour les tâches d'IA incarnée

Les géants industriels de Taiwan accélèrent le déploiement mondial de l'infrastructure IA avec NVIDIA

Détection de signaux d'échec dans les trajectoires pour la surveillance en temps réel des modèles VLA

NVIDIA Research fait progresser la robotique de la simulation au monde réel

AdaMorph : retargeting de mouvement unifié par transformeurs adaptatifs sensibles à l'incarnation

L’IA physique : le prochain marché que surveille déjà Wall Street

Hark obtient 700 millions de dollars pour son projet d’assistant IA universel

Au-delà des waypoints : ancrage à double carte de chaleur pour la navigation sémantique multi-plateforme

ContextFlow : alignement hiérarchique tâche-état pour agents incarnés à long horizon

OxyGen : gestion unifiée du cache KV pour l'inférence de modèles VLA en parallélisme multi-tâches

Prior global et cohérence locale : modèle VLA à double mémoire pour une manipulation robotique efficace

HoloMotion-1 : rapport technique

Modèle du monde par retour d'information pour guidage précis des politiques de diffusion

SECOND-Grasp : préhension dextérique guidée par le contact sémantique

Hello Robot établit la référence en matière de robots domestiques pratiques et sûrs

RLWRLD lance RLDX-1, un modèle fondation centré sur la dextérité pour mains robotiques

AT-VLA : injection tactile adaptative pour une meilleure réactivité dans les modèles vision-langage-action

MACHINA by RAISE 2026, Paris veut devenir l’un des centres européens de la “physical AI”

Vidéo : deux robots de Figure AI coopèrent seuls pour nettoyer une chambre

Modélisation neuronale d'ordre réduit avec simulation différentiable pour la perception tactile haute résolution

La Corée du Sud vient de créer un moine robot : même Black Mirror n’avait pas osé

Vidéo : le robot Atlas bouge déjà mieux que certains gymnastes

Préhension indépendante du point de vue par VLM et observations partielles

RLDX-1 : rapport technique

Apprendre à agir par le contact : une vision unifiée de l'apprentissage multi-tâches pour les robots

AI² Robotics défend les modèles VLA et lance NeuroVLA

C’est incroyable ! Figure AI passe à 55 robots en une semaine (et ça inquiète)

VISION-SLS : contrôle sûr par représentations visuelles apprises via synthèse système

DIAL : découpler intention et action par modélisation latente du monde pour les VLA de bout en bout

MotionBricks : mouvements temps réel évolutifs via modèle génératif latent modulaire et primitives intelligentes

Une startup fondée par un ex-chercheur Nvidia, parmi les nouvelles initiatives sur les world models

Vidéo : Ce robot bagagiste est la nouvelle star de l’aéroport de Japon

Modèles vision-langage-action sur robot : contraintes et accélération selon les processeurs

SMP : a priori de mouvement réutilisables par score-matching pour le contrôle de personnages physiques

Sereact lève un Série B pour étendre Cortex 2.0 et entrer sur le marché américain

CodeGraphVLP : code comme planificateur et graphe sémantique d'état pour les modèles VLA non-markoviens

Vidéo du vendredi : qui gagne entre un robot et un joueur professionnel de ping-pong ?

Optimisation de politique par dérive : apprentissage natif en une étape pour le contrôle robotique en ligne

Humanoid data

OmniVLA-RL : modèle vision-langage-action avec compréhension spatiale et apprentissage par renforcement en ligne

IA embarquée : optimiser la mémoire pour faire tourner de grands modèles sur NVIDIA Jetson

Hyundai se lance dans la robotique et l'IA physique

Intel participera à la construction de l'usine de puces IA Terafab d'Elon Musk

Physical Intelligence en discussion pour une valorisation de 11 milliards de dollars

☕️ Amazon s’offre la startup Fauna Robotics et son robot dédié aux interactions humaines

Voici les 4 choses à savoir sur Terafab, le nouveau projet hors norme d’Elon Musk